관리 메뉴

Black&White

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기 본문

Programs

Outwit Hub 와 구글을 이용하여 도메인정보를 수집하기

V.E.N 2010. 10. 20. 15:11

Outwit Hub 구글을 이용하여 도메인정보를 수집하기

 

특정 도메인에 등록되어 있는 호스트 정보를 수집하기 위해 보통 DNS 서버의 zone transfer 이용해서 가능하지만, 요새는 거의 보안이 잘되어 있어 수집이 불가능하다. 다른 방법은 바로 구글을 이용하는 것인데, 웹브라우저를 통해 검색된 결과를 일일히 정리하는게 사실 불편하다.

 

이러한 불편(?) 정리를 위해 바로 Outwit Hub 이용하려 한다.

 

<준비물>

-          Firefox

-          Outwit Hub

-          Excel

 

1.       구글 검색설정하기

구글페이지에서 고급검색을 클릭한후, 검색결과를 최대값(100) 설정하자

 

2.       검색어 입력하기

예를 들어, 지마켓(gmarket.co.kr) 호스트 정보를 수집하도록 해보자.

www 제외하고, 검색어 –www site:gmarket.co.kr 입력한다.

 

검색결과를 보면 제목, 설명, URL, 저장된 페이지 등의 정보가 보일것이다.

 

3.       Firefox 주소입력창 왼쪽에 Outwit Hub 아이콘 클릭

 

Outwit Hub 실행창에서 왼쪽 Scrapers 클릭

 

4.       Google Scraper 만들기

Scrapers 클릭하면 우측 프레임에는 Html 소스가, 밑에는 정의된 스크랩의 목록이 보이는 프레임이 있다.

화면 중앙의 New 클릭하고, 스크랩의 이름을 Google Scraper 지정하자.

 

지금 구글 검색페이지에서 스크랩할 부분은 다음 부분이다.



세부분을 스크랩할 것이므로, 이에 해당하는 위치를 Html 소스페이지에서 찾아서 아래와 같이 입력할 것이다


 

컬럼에서 더블클릭하면 입력모드가 된다.

1. 제목 Marker Before Marker After 소스에서 제목부분의 앞뒤 태그값을 입력하는 부분으로 아래 그림과 같이 소스에서 해당 부분을 찾으면, 제목이 시작되기전 태그가 <h3 class=”r”> 임을 있고, 제목이 끝나고 난후의 태그가 </h3> 임을 찾을 있다.


2. 설명 Marker Before Marker After 아래 그림에서 보는바와 같이 설명부분이 시작되기전의 태그가 <div class=”s”>, 끝나고 난후의 태그가 <span class=f> 임을 찾을 있다.


 

3. URL
Marker Before Marker After 아래 그림에서 보는바와 같이 <cite> </cite> 사이에 위치하고 있음을 찾을 있다.



이제 Save 누르자.

아래 그림에서 Google Scraper 명명된 스크랩지정창에서 Execute 클릭한다.



5.       스크랩 결과 보기

왼쪽 프레임의 목록에서  Scraped 이동되면서, 우측 프레임에 구글검색결과페이지의 모습이 아래 그림처럼 정리된 모습을 있다.

 

여기서 감탄사가 절로 나왔다…Oh Surprise!!!!!

 

하지만 여기서 끝이 아니다.

 

구글검색결과페이지는 한화면이 아니라 있으므로 다음페이지에 대해서도 적용을 시켜줘야 하기 때문이다.

 

그전에 잠깐 Scraped 화면에서 설명되어야 부분이 있다.


 

윗줄의 방금 스크랩된 결과화면에서 어느부분에서 필터링을 것인지 필터링 조건은 무엇인지를 지정한다. 밑에 필터링값을 입력하는 부분이다. 입력하는 순간 필터링이 되어 필터링된 부분만 블록이 된다. catch 클릭하게 되면, 하단 프레임에 필터링된 부분만 수집이 된다.

 

Limit to 0 경우 무제한을 의미하고, 1부터는 필터링갯수를 의미한다.

Clean Text 체크를 해제하게 되면, Html 태그값을 나타나게 한다.

Empty 이전의 스크랩된 결과를 보여주는 프레임창을 다음번 스크랩된 결과를 나타날 지울지를 정한다.

Catch selection 스크랩될때마다 수집을 것인지를 지정한다.

 

다시 구글 검색결과가 1페이지부터 여러 페이지로 결과가 나타날 , Outwit Hub 방금전 만든 스크랩에 의해 수집을 하기 위한 방법을 알아보자

 

먼저 필터링 수집조건은 아래와 같이 지정하자.


 

6.       구글검색 결과 다음페이지에 대해서도 스크랩하기

다음 페이지에 대해 수집을 하기 위해서

아래 그림처럼 Outwit Hub Page 창에서 다음페이지인 숫자 2 클릭하는 방법

 

, Outwit Hub 메뉴바에 있는 단추를 클릭하는 방법

다음페이지를 수동으로 넘기려면 아래의 단추를


자동으로 수집하기 위해서는 아래의 단추를



 

이제 수집된 결과를 저장하는 일만 남았다.

수집된 결과 창에서 마우스 우측버튼을 누르고, Export Selection as… 선택후, 원하는 포맷을 선택한다. 여기서는 Excel 파일로 저장한다.

 

이제, 저장된 엑셀파일을 열어서 불필요한 정보 중복되는 값을 정리하면 된다.

 




10 Comments
  • 프로필사진 황현철 2011.11.01 14:28 안녕하세요... 저도 구글로 검색한 것을 수집하려던 차에 이 블로그를 보게되었습니다.
    그런데 제가 하고싶은 일을 그대로 딱! 하시길래..아!!!! 딱이다!! 라고 생각해서
    따라고하고있었는데... 일부사진이 나오지 않아서 못따라하고있었습니다.ㅠㅠㅠ 어떻게 방법좀 알려주시면
    안될까요?? 부탁드립니다..
  • 프로필사진 Favicon of https://bwhite.tistory.com BlogIcon V.E.N 2011.11.01 15:37 신고 네..어디서 막히신다는 건지 말씀이 없으셔서 어떡해 도움을 드려야 될지 모르겠군요..
    음 이 글을 포스팅했던 1년전만해도 무료였었는데, 지금 Outwit Hub 가 유료가 되어서 자동스크랩기능을 사용하지 못하거든요..
    그래서, 이 툴을 이용하시라고 권장은 못하겠으나, web extracter 라고 검색하시면, 보다 좋은 유, 무료 툴들이 있습니다.
    도움이 될만한 답변이 되었을지 모르겠습니다.
  • 프로필사진 황현철 2011.11.02 11:30 죄송합니다... 크롬으로는 일부 사진이 안보였었는데, 파폭에서는 잘 보이는군요..;; outwit hub로 완벽하게 수집하는 것을 짰는데....Scarp 이 50개로 제한되어있더군요... 대신 대안까지 제안해주셔서 정말 감사합니다...
    하는 일에 정말 도움이 많이 됬습니다. 감사합니다~!
  • 프로필사진 Favicon of https://bwhite.tistory.com BlogIcon V.E.N 2011.11.02 14:02 신고 부족한점이 많은 글에 도움이 되셨다니 다행입니다..^^
  • 프로필사진 황현철 2011.11.08 15:12 결국 Easy Web Extract이란 프로그램을 찾아서 스크랩 200개 제한으로 10,000자료 다 찾았습니다 ㅎㅎㅎ 답변 감사드려요~~
  • 프로필사진 Favicon of https://bwhite.tistory.com BlogIcon V.E.N 2011.11.08 15:47 신고 네...하고자 했던 일을 잘 마무리 하셨다니 다행이네요 ^^ easy web extract 검색해서 이미지를 보니 깔끔해 보이는군요..복잡해 보이지 않아서 좋아보이네요 ㅎㅎ
    전 'web data extractor' 를 사용하긴 하는데, 처음 사용하기엔 좀 복잡스러워 보이더라구요 ^^.
  • 프로필사진 dahlia 2014.04.18 17:02 안녕하세요? 논문을 쓰려고 웹데이터 수집에 대해 공부하고 있는 학생입니다. 다름이 아니라 Outwit 프로그램을 사용해보고자 본 포스트에 나와있는대로 따라해보고 있는데, 일부 그림(4번 부분의 3~7번, 5번 전체, 6번 부분의 3번)이 나오지 않아서 제대로 따라하지 못하고 있습니다. 혹시.. 그림을 업데이트 하실 계획이 있으실지요? (위의 댓글을 읽어보니 파폭에서는 잘 나온다는 분이 계셔서 익플, 파폭, 크롬에서 전부 포스트를 띄워보았는데 나오지 않습니다 ㅜㅜ)
  • 프로필사진 Favicon of https://bwhite.tistory.com BlogIcon V.E.N 2014.04.22 12:59 신고 티스토리에 이미지는 저장되어 있는데 링크가 깨진듯 하네요..수정을 한다고 하긴 했는데...너무 오래된 글이다 보니...이해바라구요...Outwit Hub 가 베타버전때 사용해 보고 그 이후로는 잘 사용을 못했다 보니..현재 버전과 차이가 있을 듯합니다.
  • 프로필사진 123 2016.02.20 11:36 안녕하세요 아직도 혹시 질문하면 보실 수 있나 모르겠습니다!
    보고 따라하는중인데,
    다음페이지 부분으로 넘어가게 하는걸 어떻게 하는건지 이해가 잘 가질 않습니다 ㅠㅠ
    계속 알아서 넘어가기만하고 수집은 안되는 것 같아서..
  • 프로필사진 Favicon of https://bwhite.tistory.com BlogIcon V.E.N 2016.02.22 15:34 신고 님의 질문 덕분에 저도 오래간만에 Outwit 을 써보게 되었네요 ㅎㅎ
    이걸 정리할 때만 해도 저도 정신없이 정리를 하다보니 매뉴얼이 엉망이긴 했네요 ㅋ

    질문하신게 자동으로 다음페이지에서도 스크래퍼를 동작시키는 방법이신거 같은데요
    간단합니다. 스크랩퍼를 실행(Excute)를 실행시키시고 난후, 메뉴바(File-Edit-View...........) 아래 보시면 엑스 아이콘 옆에 누운 삼각형이 있죠? 그걸 누르시면 수동(즉, 삼각형 아이콘을 하나씩 누를때마다 다음 페이지로 넘어가면서 스크랩퍼가 작동하는 것)이고, 삼각형 2개가 겹쳐있는 아이콘을 누르시면 이 행위가 자동으로 동작하게 됩니다...
    이해가 되셨는지...
    다음에 기회가 된다면, Outwit Hub 에 대해 다시한번 정리를 해야겠네요
댓글쓰기 폼