| daum-20090102 | empas-20090102 | naver-20090102 | overalap |
| 아내의유혹 | 아내의유혹 | 너는내운명 | 에덴의동쪽 |
| 너는내운명 | 너는내운명 | 아내의유혹 | 천추태후 |
| 바람의나라 | 바람의나라 | 드라마바람의나라 | 떼루아 |
| 꽃보다남자 | 에덴의동쪽 | 꽃보다남자 | 가문의영광 |
| 천추태후 | 꽃보다남자 | 스타의연인 | 종합병원2 |
| 왕녀자명고 | 스타의연인 | 천추태후 | 사랑해울지마 |
| 에덴의동쪽 | 천추태후 | 종합병원2 | 하얀거짓말 |
| 사랑해울지마 | 종합병원2 | 에덴의동쪽 | 꽃보다남자 |
| 종합병원2 | 궁 | 궁 | 그들이사는세상 |
| 스타의연인 | 베토벤바이러스 | 가문의영광 | 스타의연인 |
| 큰언니 | 왕녀자명고 | 베토벤바이러스 | 큰언니 |
| 가문의영광 | 아이리스 | 사랑해울지마 | 너는내운명 |
| 베토벤바이러스 | 떼루아 | 큰언니 | 아내의유혹 |
| 집으로가는길 | 카인과아벨 | 떼루아 | - |
| 하얀거짓말 | 가문의영광 | 그들이사는세상 | - |
| 바람의화원 | 하얀거짓말 | 하얀거짓말 | - |
| 그들이사는세상 | 바람의화원 | 부부클리닉사랑과 | - |
| 카인과아벨 | 사랑해울지마 | 그분이오신다 | - |
| 내인생의황금기 | 그들이사는세상 | 내사랑금지옥엽 | - |
| 떼루아 | 큰언니 | 집으로가는길 | - |
국내 주요 검색엔진인 다음, 엠파스, 네이버의 인기 검색어를 이용하여 TV/드라마 분야의 상위 20개의 인기 검색어를 수집하였다. 위 표는 2009년 1월 2일의 검색엔진별 드라마 인기 검색어이며, overlap은 모든 검색엔진에 공통적으로 나타나는 검색어만을 모아 놓았다. 상위 20개의 검색어 가운데 13개만 공통적으로 출현하는 것을 볼 수 있다. 기간을 2009년 1월 1일 ~ 2009년 1월 31일로 한 경우에, 평균 10.83 개의 검색어만 모든 검색엔진의 인기검색어에 포함된다.
일반적으로 검색어는 Zipf’s law를 따르는 것으로 알려 져 있는데 순위까지 고려하면 검색엔진간의 차이가 제법 커 보인다. (자세한 건 나중에 추가)
필요에 따라서는 웹페이지를 강제로 크롤링 할 일이 있는데, 서버에 지속적으로 쿼리를 보내면 서버에서 차단하기 마련이다.
특히나 구글 검색 결과를 처리하려면 상당히 불편해서 난 이 방법을 선호한다.
이런 경우 상당히 피곤해 지는데 간단히 헤더만 속이는 것으로도 서버를 속이고 쉽게 문서를 크롤링 할 수 있다.
저 방법도 헤더를 완전히 바꾸지는 않는다고 하는데 (사실 난 HTTP Header구조를 다 모른다) 저 정도만 해도 어느정도는 효과를 볼 수 있다.
특히나 구글 검색 결과를 처리하려면 상당히 불편해서 난 이 방법을 선호한다.
이런 경우 상당히 피곤해 지는데 간단히 헤더만 속이는 것으로도 서버를 속이고 쉽게 문서를 크롤링 할 수 있다.
def fetch(url) :나는 보통 위와 같이 파이어폭스 헤더로 바꾸어서 작업을 한다.
import time
time.sleep(1)
txdata = None
txheaders = {
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
'Accept-Language': 'en-us',
'Keep-Alive': '300',
'Connection': 'keep-alive',
'Cache-Control': 'max-age=0',
}
req = urllib2.Request(url, txdata, txheaders)
u = urllib2.urlopen(req)
document = u.read()
return document
저 방법도 헤더를 완전히 바꾸지는 않는다고 하는데 (사실 난 HTTP Header구조를 다 모른다) 저 정도만 해도 어느정도는 효과를 볼 수 있다.
Firefox 는 사용자 기록을 sqlite데이터베이스로 저장하는데,
방문기록에 대한 정보는 places.sqlite 에 저장되어 있다.
places.sqlite의 위치는
환경변수로 바꿔 보면
쯤 될 것 같다.
에 위치한다.
이걸 sqlite로 열어야 하는데, sqlite gui 툴로는 sqlite expert를 추천한다.
sqlite expert는 다음 URL에서 받을 수 있다.
http://www.sqliteexpert.com/download.html
moz_historyvisits 가 사용자 방문 기록을 가지고 있는 테이블인데 이 테이블에는 URL은 없고 방문지id만 가지고 있다.
로 추정된다.
아직 확인은 안 해 봤지만 (^^;)
이걸 이용하면, firefox에서 사용자 방문 기록을 text로 덤프 할 수 있을 것 같다.
연구 하는데 큰 도움이 될 듯!
이 글을 쓰고 나서 f32 라는 command-line 툴을 발견 했다. 아래 링크로 가면 쓸 수 있다.
http://www.firefoxforensics.com/
방문기록에 대한 정보는 places.sqlite 에 저장되어 있다.
places.sqlite의 위치는
C:\Documents and Settings\[윈도우사용자계정]\Application Data\Mozilla\Firefox\Profiles\[임의의8자리].default
환경변수로 바꿔 보면
%APPDATA%\Firefox\Profiles\*.default
쯤 될 것 같다.
에 위치한다.
이걸 sqlite로 열어야 하는데, sqlite gui 툴로는 sqlite expert를 추천한다.
sqlite expert는 다음 URL에서 받을 수 있다.
http://www.sqliteexpert.com/download.html
moz_historyvisits 가 사용자 방문 기록을 가지고 있는 테이블인데 이 테이블에는 URL은 없고 방문지id만 가지고 있다.
moz_historyvisits.place_id = moz_places.id
로 추정된다.
아직 확인은 안 해 봤지만 (^^;)
이걸 이용하면, firefox에서 사용자 방문 기록을 text로 덤프 할 수 있을 것 같다.
연구 하는데 큰 도움이 될 듯!
이 글을 쓰고 나서 f32 라는 command-line 툴을 발견 했다. 아래 링크로 가면 쓸 수 있다.
http://www.firefoxforensics.com/

Prev

Rss Feed