파이썬으로 웹 스크랩하기8/10

파이썬으로 웹 스크랩하기8/10 셀레늄을 이용하여 html 가져오기 셀레늄을 사용하기 위해서는 드라이버를 가져와야 합니다. 크롬 드라이버를 다운로드 받기 위해서는 아래 주소에 접속해서 가져오면 됩니다. https://sites.google.com/a/chromium.org/chromedriver/downloads 위의 사이트에서 ChromeDriver 2.40을 클릭하면 아래와 같이 다운로드 할수 있는곳이 나옵니다. 위에서 사용중인 OS의 드라이버를 다운로드 받습니다. html을 가져오는 소스는 아래와 같습니다. 위의 코드를 실행하면 아래와 같은 결과를 얻을수 있습니다. 너무 […]

파이썬으로 웹 스크랩하기7/10

파이썬으로 웹 스크랩하기7/10 그러면 h1을 어떻게 찾아오는지 확인해보도록 하겠습니다. 위와같이 BeautifulSoup를 사용하여 h1 태그의 내용을 가져와 보겠습니다. 아래는 위의 결과를 가져온 화면입니다. 보이시나요? daum의 h1은 이미지로 되어있으며 http://www.daum.net/ 으로 링크가 되어있는것을 확인할 수 있습니다. 위와같이 BeautifulSoup를 이용하면 웹페이지내에서 원하는 정보를 쉽게 가져올수 있습니다. 정규표현식등 별도로 파싱하는 작업을 하지 않아도  DOM 구조로 되어있는 문서는 모두 가져올수 […]