Notice

Recent Posts

Recent Comments

Link

04-16 21:11

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Black&White

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기 본문

Programs

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기

V.E.N 2010. 10. 20. 15:11

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기

특정 도메인에 등록되어 있는 호스트 정보를 수집하기 위해 보통 DNS 서버의 zone transfer 를 이용해서 가능하지만, 요새는 거의 보안이 잘되어 있어 수집이 불가능하다. 다른 방법은 바로 구글을 이용하는 것인데, 웹브라우저를 통해 검색된 결과를 일일히 정리하는게 사실 불편하다.

이러한 불편(?) 및 정리를 위해 바로 Outwit Hub 를 이용하려 한다.

<준비물>

- Firefox

- Outwit Hub

- Excel

1. 구글 검색설정하기

구글페이지에서 고급검색을 클릭한후, 검색결과를 최대값(100개)로 설정하자

2. 검색어 입력하기

예를 들어, 지마켓(gmarket.co.kr)의 호스트 정보를 수집하도록 해보자.

www 는 제외하고, 검색어 –www site:gmarket.co.kr 입력한다.

위 검색결과를 보면 제목, 설명, URL, 저장된 페이지 등의 정보가 보일것이다.

3. Firefox 주소입력창 왼쪽에 Outwit Hub 아이콘 클릭

Outwit Hub 실행창에서 왼쪽 Scrapers 를 클릭

4. Google Scraper 만들기

Scrapers 를 클릭하면 우측 프레임에는 Html 소스가, 그 밑에는 정의된 스크랩의 목록이 보이는 프레임이 있다.

화면 중앙의 New 를 클릭하고, 스크랩의 이름을 Google Scraper 로 지정하자.

지금 구글 검색페이지에서 스크랩할 부분은 다음 부분이다.

이 세부분을 스크랩할 것이므로, 이에 해당하는 위치를 Html 소스페이지에서 찾아서 아래와 같이 입력할 것이다

각 컬럼에서 더블클릭하면 입력모드가 된다.

1. 제목 의 Marker Before 와 Marker After 는 소스에서 제목부분의 앞뒤 태그값을 입력하는 부분으로 아래 그림과 같이 소스에서 해당 부분을 찾으면, 제목이 시작되기전 태그가 <h3 class=”r”> 임을 알 수 있고, 제목이 끝나고 난후의 태그가 </h3> 임을 찾을 수 있다.

2. 설명 의 Marker Before 와 Marker After 는 아래 그림에서 보는바와 같이 설명부분이 시작되기전의 태그가 <div class=”s”>, 끝나고 난후의 태그가 <span class=f> 임을 찾을 수 있다.

3. URL 의 Marker Before 와 Marker After 는 아래 그림에서 보는바와 같이 <cite> 와</cite> 의 사이에 위치하고 있음을 찾을 수 있다.

이제 Save 를 누르자.

아래 그림에서 Google Scraper 로 명명된 스크랩지정창에서 Execute 를 클릭한다.

5. 스크랩 결과 보기

왼쪽 프레임의 목록에서 Scraped 로 이동되면서, 우측 프레임에 구글검색결과페이지의 모습이 아래 그림처럼 정리된 모습을 볼 수 있다.

여기서 난 감탄사가 절로 나왔다…Oh Surprise!!!!!

하지만 여기서 끝이 아니다.

구글검색결과페이지는 한화면이 아니라 쭉 있으므로 다음페이지에 대해서도 적용을 시켜줘야 하기 때문이다.

그전에 잠깐 Scraped 화면에서 설명되어야 할 부분이 있다.

윗줄의 는 방금 스크랩된 결과화면에서 어느부분에서 필터링을 할 것인지 필터링 조건은 무엇인지를 지정한다. 또 그 밑에 는 필터링값을 입력하는 부분이다. 입력하는 순간 필터링이 되어 필터링된 부분만 블록이 된다. catch 는 클릭하게 되면, 그 하단 프레임에 필터링된 부분만 수집이 된다.

Limit to 는 0 의 경우 무제한을 의미하고, 1부터는 필터링갯수를 의미한다.

Clean Text 는 체크를 해제하게 되면, Html 태그값을 나타나게 한다.

Empty 는 이전의 스크랩된 결과를 보여주는 프레임창을 다음번 스크랩된 결과를 나타날 때 지울지를 정한다.

Catch selection 은 스크랩될때마다 수집을 할 것인지를 지정한다.

다시 구글 검색결과가 1페이지부터 여러 페이지로 결과가 나타날 때, Outwit Hub 가 방금전 만든 스크랩에 의해 수집을 하기 위한 방법을 알아보자

먼저 필터링 및 수집조건은 아래와 같이 지정하자.

6. 구글검색 결과 다음페이지에 대해서도 스크랩하기

다음 페이지에 대해 수집을 하기 위해서

아래 그림처럼 Outwit Hub 의 Page 창에서 다음페이지인 숫자 2를 클릭하는 방법

또, Outwit Hub 의 메뉴바에 있는 단추를 클릭하는 방법

다음페이지를 수동으로 넘기려면 아래의 단추를

자동으로 수집하기 위해서는 아래의 단추를

이제 수집된 결과를 저장하는 일만 남았다.

수집된 결과 창에서 마우스 우측버튼을 누르고, Export Selection as… 를 선택후, 원하는 포맷을 선택한다. 여기서는 Excel 파일로 저장한다.

이제, 저장된 엑셀파일을 열어서 불필요한 정보 및 중복되는 값을 정리하면 된다.

'Programs' 카테고리의 다른 글

Kaspersky Internet Security 2011 - 1년 라이센스 무료발급 !!!! (1)	2010.11.10
Viglance Nightly version 1276 (작업표시줄 아이콘 문제 수정) (0)	2010.11.05
통합메신져 Pidgin (MSN, 네이트온, 구글톡 등등) 을 사용해 보자 (0)	2010.09.11
Top Windows 7 themes for XP (0)	2010.08.19
Windows XP 작업표시줄(taskbar)를 Windows7 로 바꾸기 (2)	2010.08.18

공유하기 링크

페이스북
카카오스토리
트위터

'Programs' Related Articles

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Black&White

Black&White

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기 본문

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기

1. 구글 검색설정하기

2. 검색어 입력하기

3. Firefox 주소입력창 왼쪽에 Outwit Hub 아이콘 클릭

4. Google Scraper 만들기

5. 스크랩 결과 보기

6. 구글검색 결과 다음페이지에 대해서도 스크랩하기

'Programs' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역