티스토리 툴바



2009/02/16 13:34

검색엔진별 인기 검색어 비교

daum-20090102 empas-20090102 naver-20090102 overalap
아내의유혹 아내의유혹 너는내운명 에덴의동쪽
너는내운명 너는내운명 아내의유혹 천추태후
바람의나라 바람의나라 드라마바람의나라 떼루아
꽃보다남자 에덴의동쪽 꽃보다남자 가문의영광
천추태후 꽃보다남자 스타의연인 종합병원2
왕녀자명고 스타의연인 천추태후 사랑해울지마
에덴의동쪽 천추태후 종합병원2 하얀거짓말
사랑해울지마 종합병원2 에덴의동쪽 꽃보다남자
종합병원2 그들이사는세상
스타의연인 베토벤바이러스 가문의영광 스타의연인
큰언니 왕녀자명고 베토벤바이러스 큰언니
가문의영광 아이리스 사랑해울지마 너는내운명
베토벤바이러스 떼루아 큰언니 아내의유혹
집으로가는길 카인과아벨 떼루아 -
하얀거짓말 가문의영광 그들이사는세상 -
바람의화원 하얀거짓말 하얀거짓말 -
그들이사는세상 바람의화원 부부클리닉사랑과 -
카인과아벨 사랑해울지마 그분이오신다 -
내인생의황금기 그들이사는세상 내사랑금지옥엽 -
떼루아 큰언니 집으로가는길 -

 

국내 주요 검색엔진인 다음, 엠파스, 네이버의 인기 검색어를 이용하여 TV/드라마 분야의 상위 20개의 인기 검색어를 수집하였다. 위 표는 2009년 1월 2일의 검색엔진별 드라마 인기 검색어이며, overlap은 모든 검색엔진에 공통적으로 나타나는 검색어만을 모아 놓았다. 상위 20개의 검색어 가운데 13개만 공통적으로 출현하는 것을 볼 수 있다. 기간을 2009년 1월 1일 ~ 2009년 1월 31일로 한 경우에, 평균 10.83 개의 검색어만 모든 검색엔진의 인기검색어에 포함된다.

일반적으로 검색어는 Zipf’s law를 따르는 것으로 알려 져 있는데 순위까지 고려하면 검색엔진간의 차이가 제법 커 보인다. (자세한 건 나중에 추가)

Trackback 0 Comment 0
2008/11/11 16:19

python 을 이용해서 HTTP header 변경하기

필요에 따라서는 웹페이지를 강제로 크롤링 할 일이 있는데, 서버에 지속적으로 쿼리를 보내면 서버에서 차단하기 마련이다.
특히나 구글 검색 결과를 처리하려면 상당히 불편해서 난 이 방법을 선호한다.
이런 경우 상당히 피곤해 지는데 간단히 헤더만 속이는 것으로도 서버를 속이고 쉽게 문서를 크롤링 할 수 있다.

def fetch(url) :
    import time
    time.sleep(1)
   
    txdata = None
    txheaders = {  
        'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
        'Accept-Language': 'en-us',
        'Keep-Alive': '300',
        'Connection': 'keep-alive',
        'Cache-Control': 'max-age=0',
    }
    req = urllib2.Request(url, txdata, txheaders)
    u = urllib2.urlopen(req)
   
    document = u.read()
    return document
나는 보통 위와 같이 파이어폭스 헤더로 바꾸어서 작업을 한다.
저 방법도 헤더를 완전히 바꾸지는 않는다고 하는데 (사실 난 HTTP Header구조를 다 모른다) 저 정도만 해도 어느정도는 효과를 볼 수 있다.
Trackback 0 Comment 0
2008/10/29 17:11

Firefox 에서 사용자 방문자 기록 가지고 오기.

Firefox 는 사용자 기록을 sqlite데이터베이스로 저장하는데,
방문기록에 대한 정보는 places.sqlite 에 저장되어 있다.

places.sqlite의 위치는
C:\Documents and Settings\[윈도우사용자계정]\Application Data\Mozilla\Firefox\Profiles\[임의의8자리].default

환경변수로 바꿔 보면
%APPDATA%\Firefox\Profiles\*.default

쯤 될 것 같다.
에 위치한다.

이걸 sqlite로 열어야 하는데, sqlite gui 툴로는 sqlite expert를 추천한다.
sqlite expert는 다음 URL에서 받을 수 있다.
http://www.sqliteexpert.com/download.html

moz_historyvisits 가 사용자 방문 기록을 가지고 있는 테이블인데 이 테이블에는 URL은 없고 방문지id만 가지고 있다.
moz_historyvisits.place_id = moz_places.id

로 추정된다.
아직 확인은 안 해 봤지만 (^^;)

이걸 이용하면, firefox에서 사용자 방문 기록을 text로 덤프 할 수 있을 것 같다.
연구 하는데 큰 도움이 될 듯!

이 글을 쓰고 나서 f32 라는 command-line 툴을 발견 했다. 아래 링크로 가면 쓸 수 있다.
http://www.firefoxforensics.com/
Trackback 0 Comment 0