2011年8月3日水曜日

Pythonでスクレイピング

PythonでスクレイピングするライブラリとしてBeautifulSoupを利用

HTMLを取得して、それを表示する簡単なサンプル
import urllib2
from BeautifulSoup import BeautifulSoup

if __name__ == '__main__':
    web = urllib2.urlopen('http://www.google.co.jp/')
    html = BeautifulSoup(web)
    print html.prettify()
これで、指定したWebサイトのHTMLを取得/表示することができる

0 件のコメント: