Notice
Recent Posts
Recent Comments
04-19 07:11
관리 메뉴

Black&White

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기 본문

Programs

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기

V.E.N 2010. 10. 20. 15:11

Outwit Hub 구글을 이용하여 도메인정보를 수집하기

 

특정 도메인에 등록되어 있는 호스트 정보를 수집하기 위해 보통 DNS 서버의 zone transfer 이용해서 가능하지만, 요새는 거의 보안이 잘되어 있어 수집이 불가능하다. 다른 방법은 바로 구글을 이용하는 것인데, 웹브라우저를 통해 검색된 결과를 일일히 정리하는게 사실 불편하다.

 

이러한 불편(?) 정리를 위해 바로 Outwit Hub 이용하려 한다.

 

<준비물>

-          Firefox

-          Outwit Hub

-          Excel

 

1.       구글 검색설정하기

구글페이지에서 고급검색을 클릭한후, 검색결과를 최대값(100) 설정하자

 

2.       검색어 입력하기

예를 들어, 지마켓(gmarket.co.kr) 호스트 정보를 수집하도록 해보자.

www 제외하고, 검색어 –www site:gmarket.co.kr 입력한다.

 

검색결과를 보면 제목, 설명, URL, 저장된 페이지 등의 정보가 보일것이다.

 

3.       Firefox 주소입력창 왼쪽에 Outwit Hub 아이콘 클릭

 

Outwit Hub 실행창에서 왼쪽 Scrapers 클릭

 

4.       Google Scraper 만들기

Scrapers 클릭하면 우측 프레임에는 Html 소스가, 밑에는 정의된 스크랩의 목록이 보이는 프레임이 있다.

화면 중앙의 New 클릭하고, 스크랩의 이름을 Google Scraper 지정하자.

 

지금 구글 검색페이지에서 스크랩할 부분은 다음 부분이다.



세부분을 스크랩할 것이므로, 이에 해당하는 위치를 Html 소스페이지에서 찾아서 아래와 같이 입력할 것이다


 

컬럼에서 더블클릭하면 입력모드가 된다.

1. 제목 Marker Before Marker After 소스에서 제목부분의 앞뒤 태그값을 입력하는 부분으로 아래 그림과 같이 소스에서 해당 부분을 찾으면, 제목이 시작되기전 태그가 <h3 class=”r”> 임을 있고, 제목이 끝나고 난후의 태그가 </h3> 임을 찾을 있다.


2. 설명 Marker Before Marker After 아래 그림에서 보는바와 같이 설명부분이 시작되기전의 태그가 <div class=”s”>, 끝나고 난후의 태그가 <span class=f> 임을 찾을 있다.


 

3. URL
Marker Before Marker After 아래 그림에서 보는바와 같이 <cite> </cite> 사이에 위치하고 있음을 찾을 있다.



이제 Save 누르자.

아래 그림에서 Google Scraper 명명된 스크랩지정창에서 Execute 클릭한다.



5.       스크랩 결과 보기

왼쪽 프레임의 목록에서  Scraped 이동되면서, 우측 프레임에 구글검색결과페이지의 모습이 아래 그림처럼 정리된 모습을 있다.

 

여기서 감탄사가 절로 나왔다…Oh Surprise!!!!!

 

하지만 여기서 끝이 아니다.

 

구글검색결과페이지는 한화면이 아니라 있으므로 다음페이지에 대해서도 적용을 시켜줘야 하기 때문이다.

 

그전에 잠깐 Scraped 화면에서 설명되어야 부분이 있다.


 

윗줄의 방금 스크랩된 결과화면에서 어느부분에서 필터링을 것인지 필터링 조건은 무엇인지를 지정한다. 밑에 필터링값을 입력하는 부분이다. 입력하는 순간 필터링이 되어 필터링된 부분만 블록이 된다. catch 클릭하게 되면, 하단 프레임에 필터링된 부분만 수집이 된다.

 

Limit to 0 경우 무제한을 의미하고, 1부터는 필터링갯수를 의미한다.

Clean Text 체크를 해제하게 되면, Html 태그값을 나타나게 한다.

Empty 이전의 스크랩된 결과를 보여주는 프레임창을 다음번 스크랩된 결과를 나타날 지울지를 정한다.

Catch selection 스크랩될때마다 수집을 것인지를 지정한다.

 

다시 구글 검색결과가 1페이지부터 여러 페이지로 결과가 나타날 , Outwit Hub 방금전 만든 스크랩에 의해 수집을 하기 위한 방법을 알아보자

 

먼저 필터링 수집조건은 아래와 같이 지정하자.


 

6.       구글검색 결과 다음페이지에 대해서도 스크랩하기

다음 페이지에 대해 수집을 하기 위해서

아래 그림처럼 Outwit Hub Page 창에서 다음페이지인 숫자 2 클릭하는 방법

 

, Outwit Hub 메뉴바에 있는 단추를 클릭하는 방법

다음페이지를 수동으로 넘기려면 아래의 단추를


자동으로 수집하기 위해서는 아래의 단추를



 

이제 수집된 결과를 저장하는 일만 남았다.

수집된 결과 창에서 마우스 우측버튼을 누르고, Export Selection as… 선택후, 원하는 포맷을 선택한다. 여기서는 Excel 파일로 저장한다.

 

이제, 저장된 엑셀파일을 열어서 불필요한 정보 중복되는 값을 정리하면 된다.

 




Comments