Notice

Recent Posts

Recent Comments

Link

01-19 08:42

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Black&White

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기 본문

Programs

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기

V.E.N 2010. 10. 20. 15:11

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기

특정 도메인에 등록되어 있는 호스트 정보를 수집하기 위해 보통 DNS 서버의 zone transfer 를 이용해서 가능하지만, 요새는 거의 보안이 잘되어 있어 수집이 불가능하다. 다른 방법은 바로 구글을 이용하는 것인데, 웹브라우저를 통해 검색된 결과를 일일히 정리하는게 사실 불편하다.

이러한 불편(?) 및 정리를 위해 바로 Outwit Hub 를 이용하려 한다.

<준비물>

- Firefox

- Outwit Hub

- Excel

1. 구글 검색설정하기

구글페이지에서 고급검색을 클릭한후, 검색결과를 최대값(100개)로 설정하자

2. 검색어 입력하기

예를 들어, 지마켓(gmarket.co.kr)의 호스트 정보를 수집하도록 해보자.

www 는 제외하고, 검색어 –www site:gmarket.co.kr 입력한다.

위 검색결과를 보면 제목, 설명, URL, 저장된 페이지 등의 정보가 보일것이다.

3. Firefox 주소입력창 왼쪽에 Outwit Hub 아이콘 클릭

Outwit Hub 실행창에서 왼쪽 Scrapers 를 클릭

4. Google Scraper 만들기

Scrapers 를 클릭하면 우측 프레임에는 Html 소스가, 그 밑에는 정의된 스크랩의 목록이 보이는 프레임이 있다.

화면 중앙의 New 를 클릭하고, 스크랩의 이름을 Google Scraper 로 지정하자.

지금 구글 검색페이지에서 스크랩할 부분은 다음 부분이다.

이 세부분을 스크랩할 것이므로, 이에 해당하는 위치를 Html 소스페이지에서 찾아서 아래와 같이 입력할 것이다

각 컬럼에서 더블클릭하면 입력모드가 된다.

1. 제목 의 Marker Before 와 Marker After 는 소스에서 제목부분의 앞뒤 태그값을 입력하는 부분으로 아래 그림과 같이 소스에서 해당 부분을 찾으면, 제목이 시작되기전 태그가 <h3 class=”r”> 임을 알 수 있고, 제목이 끝나고 난후의 태그가 </h3> 임을 찾을 수 있다.

2. 설명 의 Marker Before 와 Marker After 는 아래 그림에서 보는바와 같이 설명부분이 시작되기전의 태그가 <div class=”s”>, 끝나고 난후의 태그가 <span class=f> 임을 찾을 수 있다.

3. URL 의 Marker Before 와 Marker After 는 아래 그림에서 보는바와 같이 <cite> 와</cite> 의 사이에 위치하고 있음을 찾을 수 있다.

이제 Save 를 누르자.

아래 그림에서 Google Scraper 로 명명된 스크랩지정창에서 Execute 를 클릭한다.

5. 스크랩 결과 보기

왼쪽 프레임의 목록에서 Scraped 로 이동되면서, 우측 프레임에 구글검색결과페이지의 모습이 아래 그림처럼 정리된 모습을 볼 수 있다.

여기서 난 감탄사가 절로 나왔다…Oh Surprise!!!!!

하지만 여기서 끝이 아니다.

구글검색결과페이지는 한화면이 아니라 쭉 있으므로 다음페이지에 대해서도 적용을 시켜줘야 하기 때문이다.

그전에 잠깐 Scraped 화면에서 설명되어야 할 부분이 있다.

윗줄의 는 방금 스크랩된 결과화면에서 어느부분에서 필터링을 할 것인지 필터링 조건은 무엇인지를 지정한다. 또 그 밑에 는 필터링값을 입력하는 부분이다. 입력하는 순간 필터링이 되어 필터링된 부분만 블록이 된다. catch 는 클릭하게 되면, 그 하단 프레임에 필터링된 부분만 수집이 된다.

Limit to 는 0 의 경우 무제한을 의미하고, 1부터는 필터링갯수를 의미한다.

Clean Text 는 체크를 해제하게 되면, Html 태그값을 나타나게 한다.

Empty 는 이전의 스크랩된 결과를 보여주는 프레임창을 다음번 스크랩된 결과를 나타날 때 지울지를 정한다.

Catch selection 은 스크랩될때마다 수집을 할 것인지를 지정한다.

다시 구글 검색결과가 1페이지부터 여러 페이지로 결과가 나타날 때, Outwit Hub 가 방금전 만든 스크랩에 의해 수집을 하기 위한 방법을 알아보자

먼저 필터링 및 수집조건은 아래와 같이 지정하자.

6. 구글검색 결과 다음페이지에 대해서도 스크랩하기

다음 페이지에 대해 수집을 하기 위해서

아래 그림처럼 Outwit Hub 의 Page 창에서 다음페이지인 숫자 2를 클릭하는 방법

또, Outwit Hub 의 메뉴바에 있는 단추를 클릭하는 방법

다음페이지를 수동으로 넘기려면 아래의 단추를

자동으로 수집하기 위해서는 아래의 단추를

이제 수집된 결과를 저장하는 일만 남았다.

수집된 결과 창에서 마우스 우측버튼을 누르고, Export Selection as… 를 선택후, 원하는 포맷을 선택한다. 여기서는 Excel 파일로 저장한다.

이제, 저장된 엑셀파일을 열어서 불필요한 정보 및 중복되는 값을 정리하면 된다.

'Programs' 카테고리의 다른 글

Kaspersky Internet Security 2011 - 1년 라이센스 무료발급 !!!! (1)	2010.11.10
Viglance Nightly version 1276 (작업표시줄 아이콘 문제 수정) (0)	2010.11.05
통합메신져 Pidgin (MSN, 네이트온, 구글톡 등등) 을 사용해 보자 (0)	2010.09.11
Top Windows 7 themes for XP (0)	2010.08.19
Windows XP 작업표시줄(taskbar)를 Windows7 로 바꾸기 (2)	2010.08.18