1. 程式人生 > >python實現百度搜索

python實現百度搜索

python 爬蟲 mechanize 瀏覽器

利用Python mechanize模塊模擬瀏覽器實現百度搜索

# -*- coding:utf-8 -*-
import mechanize
import sys
reload(sys)
sys.setdefaultencoding(‘utf8‘)
br=mechanize.Browser()
br.set_handle_equiv(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_gzip(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders=[(‘User-agent‘,‘Mozilla/5.0 (X11; U; Linux i686; en-US;rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1‘)]
br.open(‘
for form in br.forms():
    print form 
br.select_form(name=‘f‘)
br.form[‘wd‘]=‘python‘
br.submit()
for link in br.links():
    print link.url+‘:‘+link.text

在開頭的地方要加上sys模塊並設置utf8編碼,否則會報ascii編碼錯誤,通過open打開的鏈接,打印返回的form框架,獲取name是f的form,並將關鍵字字段wd設置要搜索的內容,提交即可,通過br.response().read()可以返回完整的內容,這段代碼在返回內容上過濾出鏈接的內容

python實現百度搜索