파이썬으로 웹 스크랩하기5/10

파이썬으로 웹 스크랩하기5/10 세번째는 Beautiful Soup을 이용해서 읽어온 html의 내용을 분석하는 방법에 대해서 알아보도록 하겠습니다. html을 읽어오기 위해서는 DOM에 대해서 알아야 하는데요. “문서 객체 모델(DOM; Document Object Model)은 객체 지향 모델로써 구조화된 문서를 표현하는 형식이다. DOM은 플랫폼/언어 중립적으로 구조화된 문서를 표현하는 W3C의 공식 표준이다. DOM은 또한 W3C가 표준화한 여러 개의 API의 기반이 된다.DOM은 HTML 문서의 […]

파이썬으로 웹 스크랩하기4/10

파이썬으로 웹 스크랩하기4/10 이번에는 읽어온 내용을 파일로 저장하는 방법에 대해서 알아보도록 하겠습니다. 이전 강좌 파이썬으로 파일 다루기에서 파일을 읽고 쓰는 방법에 대해서 알아보았었습니다. 이방법을 잘 이용하여 읽어온 html내용을 저장해보도록 하겠습니다. requests 모듈로 부터 읽어온 html파일은 e:\test\daum.html로 저장하는 코드입니다. 위의 코드를 실행하면 아래와 같은 결과를 얻을수 있습니다. 오류가 났는데요. UniCodeEncodeError이 났습니다. 이번에는 open을 “wb”옵션으로 open해 보도록 […]