관리 메뉴

Black&White

웹페이지로부터 데이터 추출(Web Data Extract) 하기 본문

유용한정보

웹페이지로부터 데이터 추출(Web Data Extract) 하기

V.E.N 2010.10.20 11:09
웹사이트 또는 웹페이지로부터 특정 데이터를 추출하기 위한 기술은 Web Scaping 또는 Web Harvesting 또는 Web Data Extraction 이라 불린다.
이러한 방법에 대해서는 위키에 상세히 기술되어 있다.

Data Scraping          http://en.wikipedia.org/wiki/Data_scraping
Web Scraping          http://en.wikipedia.org/wiki/Web_scraping

구글에서 검색된 페이지를 보면, 보여지는 정보가 복잡해졌다. 검색된 결과만을 보려한다면 그리 불편한점을 느끼지 못하지만,
검색된 결과에서 또는 웹페이지의 콘텐츠중에 특정 정보만을 추출하거나 필터링해서 보려 할 때 문제는 달라진다.

예를 들어, 구글 검색결과 페이지에서 URL 정보만 추출하고자 할경우, 일일히 drag - copy & paste 를 하면서 URL 정보를 획득 할 수도 있겠지만, 이를 수 십 페이지에 걸쳐서 해야된다면....
또, 웹페이지내 콘텐츠 중 이미지, 텍스트, 등등에 대한 정보를 추출할 때는 일일히 소스를 봐가며, 작업해야되는데 이것도 또한 수십페이지가 된다면.......

각설하고, 내가 원했고, 하고자 했던 것은
1. 구글검색결과중 URL 정보만 수집
2. 웹페이지내에서 임의의 텍스트 정보만 추출해서 수집
3. 웹페이지내 이미지
4. 위의 수집된 내용의 자동정리 및 엑셀과 같은 데이터쉬트로의 저장

Firefox 의 부가기능중 HTML Regex Data Extractor 라고 있었으나, 이는 웹페이지의 소스상에서만 데이터를 추출할 수 있었고,
Fiddler 를 이용한 방법을 모색해 보았으나, 특정 데이터를 찾아지기는 했으나 손이 많이 가는 불편함이 있었다.
스크립트를 짜보려했으나, 생각보다 시간도 많이 걸릴것 같고, 일이 더 커지는 듯 싶었다.

웹 데이터를 추출하는 프로그램 몇가지를 테스트 해보았으나, 마땅치 않았다.
테스트 해본 프로그램은 두가지였는데 모두 상용 프로그램이었고, 기능이 별로 와닿지 않았다.


그러던중 찾아낸 것이 Outwit Hub 라는 Firefox 에 Embedded 된 툴이었다. 아직 베타버전이긴 하나, 내가 원하던 기능과 모습을 그대로 보여주고 있었다. 또, Light 버전과 Pro 버전으로 분류되어 있는데, 몇가지 제약사항이 있긴 하지만, 내가 원했던 기능은 모두 구현이 가능하다.


0 Comments
댓글쓰기 폼