파이썬으로 웹 스크랩하기9/10

파이썬으로 웹 스크랩하기9/10

h1 정보를 가져와 보도록 하겠습니다.



위의 코드는 BeautifulSoup에서 html을 가져와서 원하는 부분의 값을 가져오는 부분을 추가한 소스입니다.


html을 selenium을 가져와서 BeautifulSoup을 이용하면 좀더 쉽게 html 소스의 내용을 가져올 수 있습니다.



위와 같이 h1의 내용을 가져오는 것을 확인할 수 있습니다.


requests 를 사용하는 것과 selenuim을 사용하는것의 차이는 사실상 거의 없습니다. 작업을 하다 찾은건데 내용은 다음과 같습니다.


requests 모듈을 이용해서 html을 가져오는 경우는 서버가 보내준 그대로의 html을 받아오고 있습니다. 그런데  selenium을 이용해서 가져오는 경우 크롬으로 또는 그이외의 드라이버로 가져오는 경우이기 때문에 브라우저가 변환해서 가져온 html을 리턴하고 있습니다. 그래서 가끔 잘못된 html을 보내주는 경우에는 selenium을 이용하는 경우가 정상적인 결과를 얻기도 합니다.


댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.