2011年8月5日金曜日

Pythonでスクレイピング(Cookie取得)

urllib2とcookielibでWebサイトへアクセスしたときに、Cookieを取得するサンプル

import urllib2, cookielib
from BeautifulSoup import BeautifulSoup

if __name__ == '__main__':
    # アクセスするWebサイトのURLを設定
    url = 'http://www.google.co.jp'

    # Cookieを格納するオブジェクト
    cookie = cookielib.CookieJar()
    # Webサイトへアクセスするオブジェクト
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
    # Webサイトへアクセス
    web = opener.open(url)
    # BeautifulSoupで解析
    html = BeautifulSoup(web)
    # 取得したCookie内容を表示
    print cookie
    # 取得したHTML内容を表示
    print html.prettify()

Cookieが設定されている場合、cookielib.CookieJarオブジェクトとして取得できる

0 件のコメント: