파이썬으로 웹 스크랩하기4/10

파이썬으로 웹 스크랩하기4/10



이번에는 읽어온 내용을 파일로 저장하는 방법에 대해서 알아보도록 하겠습니다. 이전 강좌 파이썬으로 파일 다루기에서 파일을 읽고 쓰는 방법에 대해서 알아보았었습니다. 이방법을 잘 이용하여 읽어온 html내용을 저장해보도록 하겠습니다.



requests 모듈로 부터 읽어온 html파일은 e:\test\daum.html로 저장하는 코드입니다.


위의 코드를 실행하면 아래와 같은 결과를 얻을수 있습니다.



오류가 났는데요. UniCodeEncodeError이 났습니다.


이번에는 open을 “wb”옵션으로 open해 보도록 하겠습니다.


이번에는 TypeError이 났네요.



위의 코드를 이용해도 아래와 같이 오류가 발생합니다.



그러면 어떻게 해야할까요?


charset을 맞춰서 가져오고 저장하는 방식을 사용하면 됩니다.



위와 같이 읽어온 url html  encoding 타입으로 저장하면 됩니다.




해당폴더에 위와같이 파일이 생성된 것을 확인할 수 있습니다.


이상에서 requests 모듈을 이용하여 웹페이지가 정상적으로 작동하는지 확인하고 정상적으로 작동하는걸 확인하면 해당 웹페이지 내용을 가져와서 저장하는 과정까지 알아보았습니다.


댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.