1. 程式人生 > >python---爬蟲51job(1)

python---爬蟲51job(1)

這學期學的python,老師每次在上課前會佈置作業,因此再次做下梳理,鞏固知識點

①使用python程式設計實現上述過程(訪問https://www.51job.com/,在搜尋框輸入關鍵字:python java,用右邊的加號選擇北京、上海、廣州、深圳四個城市),不需要使用socket程式設計來做,使用書上提到的request庫或者其它庫都可以。)

這個問題是使用urllib.request和requests分別來做的,不得不說requests庫的確很簡單容易去訪問

先分別來說吧: (1)request庫

課本上的程式碼看的亂七八糟的,所以在網上搜了下相關資訊,進行整合得到的程式碼:

import urllib.request
#匯入request庫
url="https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python%2520java,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="
#url---網址(可直接在待爬蟲網址上覆制)
header={"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36"}
#谷歌瀏覽器--開發者工具--network--待爬蟲網頁部分--headers-request headers可以獲得
req=urllib.request.Request(url,headers=header)
#請求引數設定
response=urllib.request.urlopen(req)
#進行請求連結並將網頁內容儲存在變數response中
html=response.read().decode('gbk')
#讀取內容並進行轉碼————注意該網頁使用的是gbk編碼方式,不是utf-8
print(html)
#輸出即可

(2)requests庫

我電腦原來沒有requests庫,所以需要安裝,而後來作業中需要使用BeautifulSoup時也需要進行安裝,方式相同

cmd---py -3 -m pip install xxx(我使用的是python3.70版本的,xxx代表欲安裝庫名)

cmd---py -3 -m pip list(可查詢已安裝庫)

當然也可以在python檔案中找到

Scripts檔案---

把這裡面pip3直接用滑鼠拖到cmd視窗 --輸入 install xxx即可

(pip3.7,pip還沒有試過)

接下來是程式碼部分,特別簡單

import requests
re=request.get("https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python%25E3%2580%2581java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=4&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=")
re.encoding="gbk"
print(re.text)

嗯,這就是第一部分任務的程式碼

還得多實踐呀