파이썬(python)으로 RSS 크롤링하기

파이썬(python)으로 RSS 크롤링하기

1. RSS 크롤링 하기

1.1 feedparser 인스톨하기

> pip install feedparser

위와 같이 feedparser를 인스톨 합니다.

1.2 RSS피드 주소확인하기

https://pypi.python.org/pypi 에 접속합니다.

위에 접속한 데이터를 가져오도록 하겠습니다.

https://pypi.python.org/pypi?%3Aaction=rss 의 내용입니다.

https://pypi.python.org/pypi?%3Aaction=packages_rss 의 내용입니다.

두개의 RSS정보를 가져와 보도록 하겠습니다.

1.3 소스 코딩하기

아래와 같이 코딩합니다.

위의 소스코드를 입력하고. crawl_rss.py로 저장합니다.

> python crawl_rss.py

를 입력합니다.

1.4 결과 확인하기

결과가 아래와 같이 나타납니다.

이상과 같이 파이썬에서 RSS피드 정보를 가져오는 방법을 알아보았습니다. 여기에서 주의할점은

pubDate는 pubDate를 그대로 사용하는 것이 아니라 published를 사용하는 것입니다. 이것만 잘 기억한다면 RSS피드의 정보를 가져와서 활용할 수 있습니다.

1.99 요약

이상과 같이 URL 에서 RSS피드의 정보를 가져와서 파싱하고  파싱한 정보를 출력해 보았습니다.

2017년 08월 30일 어디로 떠날까?

오마이뉴스

  1. [삶그림] ‘미움 받지 않는다면’ 그곳이 천국
  2. [모이] 영화 ‘김광석’과 대구 ‘김광석 다시 그리기 길’
  3. [모이] 군산 ‘우체통 거리’를 아십니까?
  4. 은하수처럼 쏟아지니 지친 마음에 쉼표를 그렸다
  5. 유럽의 땅 끝에서 16000km 여정을 시작한다
  6. 조선군 첫 승리 ‘옥포 대첩’, 이틀 걸쳐 세 번 이겼다
  7. ‘작년보다 어획량 증가’… 태안 꽃게 먹어볼까

최종업데이트 : 2017-08-30, 10:15:58 오후