파이썬으로 웹 스크랩하기9/10

h1 정보를 가져와 보도록 하겠습니다.

위의 코드는 BeautifulSoup에서 html을 가져와서 원하는 부분의 값을 가져오는 부분을 추가한 소스입니다.

html을 selenium을 가져와서 BeautifulSoup을 이용하면 좀더 쉽게 html 소스의 내용을 가져올 수 있습니다.

위와 같이 h1의 내용을 가져오는 것을 확인할 수 있습니다.

requests 를 사용하는 것과 selenuim을 사용하는것의 차이는 사실상 거의 없습니다. 작업을 하다 찾은건데 내용은 다음과 같습니다.

requests 모듈을 이용해서 html을 가져오는 경우는 서버가 보내준 그대로의 html을 받아오고 있습니다. 그런데 selenium을 이용해서 가져오는 경우 크롬으로 또는 그이외의 드라이버로 가져오는 경우이기 때문에 브라우저가 변환해서 가져온 html을 리턴하고 있습니다. 그래서 가끔 잘못된 html을 보내주는 경우에는 selenium을 이용하는 경우가 정상적인 결과를 얻기도 합니다.

파이썬으로 웹 스크랩하기9/10

파이썬으로 웹 스크랩하기9/10

댓글 남기기

응답 취소