파이썬으로 웹 스크랩하기4/10
이번에는 읽어온 내용을 파일로 저장하는 방법에 대해서 알아보도록 하겠습니다. 이전 강좌 파이썬으로 파일 다루기에서 파일을 읽고 쓰는 방법에 대해서 알아보았었습니다. 이방법을 잘 이용하여 읽어온 html내용을 저장해보도록 하겠습니다.
requests 모듈로 부터 읽어온 html파일은 e:\test\daum.html로 저장하는 코드입니다.
위의 코드를 실행하면 아래와 같은 결과를 얻을수 있습니다.
오류가 났는데요. UniCodeEncodeError이 났습니다.
이번에는 open을 “wb”옵션으로 open해 보도록 하겠습니다.
이번에는 TypeError이 났네요.
위의 코드를 이용해도 아래와 같이 오류가 발생합니다.
그러면 어떻게 해야할까요?
charset을 맞춰서 가져오고 저장하는 방식을 사용하면 됩니다.
위와 같이 읽어온 url html encoding 타입으로 저장하면 됩니다.
해당폴더에 위와같이 파일이 생성된 것을 확인할 수 있습니다.
이상에서 requests 모듈을 이용하여 웹페이지가 정상적으로 작동하는지 확인하고 정상적으로 작동하는걸 확인하면 해당 웹페이지 내용을 가져와서 저장하는 과정까지 알아보았습니다.