파이썬(python)으로 RSS 크롤링하기

파이썬(python)으로 RSS 크롤링하기

1. RSS 크롤링 하기

1.1 feedparser 인스톨하기

> pip install feedparser

위와 같이 feedparser를 인스톨 합니다.

1.2 RSS피드 주소확인하기

https://pypi.python.org/pypi 에 접속합니다.

위에 접속한 데이터를 가져오도록 하겠습니다.

https://pypi.python.org/pypi?%3Aaction=rss 의 내용입니다.

https://pypi.python.org/pypi?%3Aaction=packages_rss 의 내용입니다.

두개의 RSS정보를 가져와 보도록 하겠습니다.

1.3 소스 코딩하기

아래와 같이 코딩합니다.

위의 소스코드를 입력하고. crawl_rss.py로 저장합니다.

> python crawl_rss.py

를 입력합니다.

1.4 결과 확인하기

결과가 아래와 같이 나타납니다.

이상과 같이 파이썬에서 RSS피드 정보를 가져오는 방법을 알아보았습니다. 여기에서 주의할점은

pubDate는 pubDate를 그대로 사용하는 것이 아니라 published를 사용하는 것입니다. 이것만 잘 기억한다면 RSS피드의 정보를 가져와서 활용할 수 있습니다.

1.99 요약

이상과 같이 URL 에서 RSS피드의 정보를 가져와서 파싱하고  파싱한 정보를 출력해 보았습니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.