일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 여름
- 구글캘린더
- Asterisk password reveal
- 파워셸
- web scrapping
- 일정관리
- 공유기 패스워드
- Firefox
- 구글메인화면
- Shortcut Key
- 2013사진공모전
- 댓글스팸
- 번역툴
- 아이콘크기
- 통합도서회원증
- 가로화면
- outwit hub
- Windows
- * 암호
- Edge E125
- 달력
- 스케쥴
- 구글웹화면
- rainlendar
- 단축키
- 레노버
- Google Calendar
- 윈도우 탐색기
- 패스워드
- 가을
- Today
- Total
Black&White
Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기 본문
Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기
특정 도메인에 등록되어 있는 호스트 정보를 수집하기 위해 보통 DNS 서버의 zone transfer 를 이용해서 가능하지만, 요새는 거의 보안이 잘되어 있어 수집이 불가능하다. 다른 방법은 바로 구글을 이용하는 것인데, 웹브라우저를 통해 검색된 결과를 일일히 정리하는게 사실 불편하다.
이러한 불편(?) 및 정리를 위해 바로 Outwit Hub 를 이용하려 한다.
<준비물>
- Firefox
- Outwit Hub
- Excel
1. 구글 검색설정하기
구글페이지에서 고급검색을 클릭한후, 검색결과를 최대값(100개)로 설정하자
2. 검색어 입력하기
예를 들어, 지마켓(gmarket.co.kr)의 호스트 정보를 수집하도록 해보자.
www 는 제외하고, 검색어 –www site:gmarket.co.kr 입력한다.
위 검색결과를 보면 제목, 설명, URL, 저장된 페이지 등의 정보가 보일것이다.
3. Firefox 주소입력창 왼쪽에 Outwit Hub 아이콘 클릭
Outwit Hub 실행창에서 왼쪽 Scrapers 를 클릭
4. Google Scraper 만들기
Scrapers 를 클릭하면 우측 프레임에는 Html 소스가, 그 밑에는 정의된 스크랩의 목록이 보이는 프레임이 있다.
화면 중앙의 New 를 클릭하고, 스크랩의 이름을 Google Scraper 로 지정하자.
지금 구글 검색페이지에서 스크랩할 부분은 다음 부분이다.
이 세부분을 스크랩할 것이므로, 이에 해당하는 위치를 Html 소스페이지에서 찾아서 아래와 같이 입력할 것이다
각 컬럼에서 더블클릭하면 입력모드가 된다.
1. 제목 의 Marker Before 와 Marker After 는 소스에서 제목부분의 앞뒤 태그값을 입력하는 부분으로 아래 그림과 같이 소스에서 해당 부분을 찾으면, 제목이 시작되기전 태그가 <h3 class=”r”> 임을 알 수 있고, 제목이 끝나고 난후의 태그가 </h3> 임을 찾을 수 있다.
2. 설명 의 Marker Before 와 Marker After 는 아래 그림에서 보는바와 같이 설명부분이 시작되기전의 태그가 <div class=”s”>, 끝나고 난후의 태그가 <span class=f> 임을 찾을 수 있다.
3. URL 의 Marker Before 와 Marker After 는 아래 그림에서 보는바와 같이 <cite> 와</cite> 의 사이에 위치하고 있음을 찾을 수 있다.
이제 Save 를 누르자.
아래 그림에서 Google Scraper 로 명명된 스크랩지정창에서 Execute 를 클릭한다.
5. 스크랩 결과 보기
왼쪽 프레임의 목록에서 Scraped 로 이동되면서, 우측 프레임에 구글검색결과페이지의 모습이 아래 그림처럼 정리된 모습을 볼 수 있다.
여기서 난 감탄사가 절로 나왔다…Oh Surprise!!!!!
하지만 여기서 끝이 아니다.
구글검색결과페이지는 한화면이 아니라 쭉 있으므로 다음페이지에 대해서도 적용을 시켜줘야 하기 때문이다.
그전에 잠깐 Scraped 화면에서 설명되어야 할 부분이 있다.
윗줄의 는 방금 스크랩된 결과화면에서 어느부분에서 필터링을 할 것인지 필터링 조건은 무엇인지를 지정한다. 또 그 밑에 는 필터링값을 입력하는 부분이다. 입력하는 순간 필터링이 되어 필터링된 부분만 블록이 된다. catch 는 클릭하게 되면, 그 하단 프레임에 필터링된 부분만 수집이 된다.
Limit to 는 0 의 경우 무제한을 의미하고, 1부터는 필터링갯수를 의미한다.
Clean Text 는 체크를 해제하게 되면, Html 태그값을 나타나게 한다.
Empty 는 이전의 스크랩된 결과를 보여주는 프레임창을 다음번 스크랩된 결과를 나타날 때 지울지를 정한다.
Catch selection 은 스크랩될때마다 수집을 할 것인지를 지정한다.
다시 구글 검색결과가 1페이지부터 여러 페이지로 결과가 나타날 때, Outwit Hub 가 방금전 만든 스크랩에 의해 수집을 하기 위한 방법을 알아보자
먼저 필터링 및 수집조건은 아래와 같이 지정하자.
6. 구글검색 결과 다음페이지에 대해서도 스크랩하기
다음 페이지에 대해 수집을 하기 위해서
아래 그림처럼 Outwit Hub 의 Page 창에서 다음페이지인 숫자 2를 클릭하는 방법
또, Outwit Hub 의 메뉴바에 있는 단추를 클릭하는 방법
다음페이지를 수동으로 넘기려면 아래의 단추를
자동으로 수집하기 위해서는 아래의 단추를
이제 수집된 결과를 저장하는 일만 남았다.
수집된 결과 창에서 마우스 우측버튼을 누르고, Export Selection as… 를 선택후, 원하는 포맷을 선택한다. 여기서는 Excel 파일로 저장한다.
이제, 저장된 엑셀파일을 열어서 불필요한 정보 및 중복되는 값을 정리하면 된다.
'Programs' 카테고리의 다른 글
Kaspersky Internet Security 2011 - 1년 라이센스 무료발급 !!!! (1) | 2010.11.10 |
---|---|
Viglance Nightly version 1276 (작업표시줄 아이콘 문제 수정) (0) | 2010.11.05 |
통합메신져 Pidgin (MSN, 네이트온, 구글톡 등등) 을 사용해 보자 (0) | 2010.09.11 |
Top Windows 7 themes for XP (0) | 2010.08.19 |
Windows XP 작업표시줄(taskbar)를 Windows7 로 바꾸기 (2) | 2010.08.18 |