웹페이지로부터 데이터 추출(Web Data Extract) 하기

Notice

Recent Posts

Recent Comments

Link

04-18 09:12

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Black&White

웹페이지로부터 데이터 추출(Web Data Extract) 하기 본문

유용한정보

웹페이지로부터 데이터 추출(Web Data Extract) 하기

V.E.N 2010. 10. 20. 11:09

웹사이트 또는 웹페이지로부터 특정 데이터를 추출하기 위한 기술은 Web Scaping 또는 Web Harvesting 또는 Web Data Extraction 이라 불린다.
이러한 방법에 대해서는 위키에 상세히 기술되어 있다.

Data Scraping http://en.wikipedia.org/wiki/Data_scraping

Web Scraping http://en.wikipedia.org/wiki/Web_scraping

구글에서 검색된 페이지를 보면, 보여지는 정보가 복잡해졌다. 검색된 결과만을 보려한다면 그리 불편한점을 느끼지 못하지만,
검색된 결과에서 또는 웹페이지의 콘텐츠중에 특정 정보만을 추출하거나 필터링해서 보려 할 때 문제는 달라진다.

예를 들어, 구글 검색결과 페이지에서 URL 정보만 추출하고자 할경우, 일일히 drag - copy & paste 를 하면서 URL 정보를 획득 할 수도 있겠지만, 이를 수 십 페이지에 걸쳐서 해야된다면....
또, 웹페이지내 콘텐츠 중 이미지, 텍스트, 등등에 대한 정보를 추출할 때는 일일히 소스를 봐가며, 작업해야되는데 이것도 또한 수십페이지가 된다면.......

각설하고, 내가 원했고, 하고자 했던 것은
1. 구글검색결과중 URL 정보만 수집
2. 웹페이지내에서 임의의 텍스트 정보만 추출해서 수집
3. 웹페이지내 이미지
4. 위의 수집된 내용의 자동정리 및 엑셀과 같은 데이터쉬트로의 저장

Firefox 의 부가기능중 HTML Regex Data Extractor 라고 있었으나, 이는 웹페이지의 소스상에서만 데이터를 추출할 수 있었고,
Fiddler 를 이용한 방법을 모색해 보았으나, 특정 데이터를 찾아지기는 했으나 손이 많이 가는 불편함이 있었다.
스크립트를 짜보려했으나, 생각보다 시간도 많이 걸릴것 같고, 일이 더 커지는 듯 싶었다.

웹 데이터를 추출하는 프로그램 몇가지를 테스트 해보았으나, 마땅치 않았다.
테스트 해본 프로그램은 두가지였는데 모두 상용 프로그램이었고, 기능이 별로 와닿지 않았다.

Data Extractor
Web Data Extractor

그러던중 찾아낸 것이 Outwit Hub 라는 Firefox 에 Embedded 된 툴이었다. 아직 베타버전이긴 하나, 내가 원하던 기능과 모습을 그대로 보여주고 있었다. 또, Light 버전과 Pro 버전으로 분류되어 있는데, 몇가지 제약사항이 있긴 하지만, 내가 원했던 기능은 모두 구현이 가능하다.

저작자표시 비영리 동일조건

'유용한정보' 카테고리의 다른 글

웹로긴 페이지 Asterisk(*****) Hidden Password 보는 방법 (0)	2010.11.04
국가별 도메인 코드 (0)	2010.11.03
맘에 드는 키보드 KP-8500, 그런데 한자키, 한영키가 안먹네????? (12)	2010.08.24
VirtualBox 사용시 리눅스(우분투)에서 마우스 휠 사용 (0)	2010.07.13
구글 검색결과 삭제 및 구글봇수집차단 방법 (0)	2010.07.08

공유하기 링크

페이스북
카카오스토리
트위터

'유용한정보' Related Articles

Comments

Black&White

웹페이지로부터 데이터 추출(Web Data Extract) 하기 본문

웹페이지로부터 데이터 추출(Web Data Extract) 하기

'유용한정보' 카테고리의 다른 글

티스토리툴바