2011年8月5日金曜日

Pythonでスクレイピング(Cookie取得)

urllib2とcookielibでWebサイトへアクセスしたときに、Cookieを取得するサンプル

  1. import urllib2, cookielib  
  2. from BeautifulSoup import BeautifulSoup  
  3.   
  4. if __name__ == '__main__':  
  5.     # アクセスするWebサイトのURLを設定  
  6.     url = 'http://www.google.co.jp'  
  7.   
  8.     # Cookieを格納するオブジェクト  
  9.     cookie = cookielib.CookieJar()  
  10.     # Webサイトへアクセスするオブジェクト  
  11.     opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))  
  12.     # Webサイトへアクセス  
  13.     web = opener.open(url)  
  14.     # BeautifulSoupで解析  
  15.     html = BeautifulSoup(web)  
  16.     # 取得したCookie内容を表示  
  17.     print cookie  
  18.     # 取得したHTML内容を表示  
  19.     print html.prettify()  

Cookieが設定されている場合、cookielib.CookieJarオブジェクトとして取得できる

0 件のコメント: