파이썬으로 웹 스크랩하기10/10

파이썬으로 웹 스크랩하기10/10

selenium을 이용하여 웹페이지 스냅샷 만들기


지금까지 html을 가져와서 html에서 원하는 값을 가져오는 방법에 대해서 알아보았습니다. 이번에는 selenium을 이용하여 웹페이지 스냅샷을 가져오는 방법에 대해서 알아보도록 하겠습니다.





위와같은 코드를 실행하면 아래와 같이 파일이 생성된것을 확인할 수 있습니다.



위 파일은 크롬 드라이버를 다운로드 받는 페이지를 아래와 같이 확인할 수 있습니다.



위와 같이  selenium을 이용하면 원하는 웹페이지의 스냅샷을 가져올수 있습니다.




지금까지

1. webbrowser

2. requests

3. Beautiful Soup

4. Selenium

네가지 사용방법을 알아보았습니다.


필요에 따라 원하는 방법으로 웹페이지의 내용을 가져와서 원하는 정보를 가져올 수 있습니다. 그리고 필요하면 해당 페이지의 스냅샷을 만들어 놓을 수 도 있습니다.


파이썬으로 웹 스크랩하기9/10

파이썬으로 웹 스크랩하기9/10

h1 정보를 가져와 보도록 하겠습니다.



위의 코드는 BeautifulSoup에서 html을 가져와서 원하는 부분의 값을 가져오는 부분을 추가한 소스입니다.


html을 selenium을 가져와서 BeautifulSoup을 이용하면 좀더 쉽게 html 소스의 내용을 가져올 수 있습니다.



위와 같이 h1의 내용을 가져오는 것을 확인할 수 있습니다.


requests 를 사용하는 것과 selenuim을 사용하는것의 차이는 사실상 거의 없습니다. 작업을 하다 찾은건데 내용은 다음과 같습니다.


requests 모듈을 이용해서 html을 가져오는 경우는 서버가 보내준 그대로의 html을 받아오고 있습니다. 그런데  selenium을 이용해서 가져오는 경우 크롬으로 또는 그이외의 드라이버로 가져오는 경우이기 때문에 브라우저가 변환해서 가져온 html을 리턴하고 있습니다. 그래서 가끔 잘못된 html을 보내주는 경우에는 selenium을 이용하는 경우가 정상적인 결과를 얻기도 합니다.