python requests模組教程及例項(get方法)
——————來自某潮汕人的菜鳥教程
一、如何安裝requests?
pip install requests
二、requests.get方法的使用:
要爬取的網站:“https://b.faloo.com/l/0/1.html?t=1&k=%CB%D9%B6%C8”
爬取任務:搜尋結果的標題名稱
程式碼:
import requests
import re
res = requests.get(url='https://b.faloo.com/l/0/1.html?t=1&k=%CB%D9%B6%C8')
res_text=res.text
result=re.findall('\" title\"(.*?)\"><img',res_text,re.DOTALL)
print(result)
結果:['修煉速度幾何倍', '速度與激情之暴風車神', '速度與激情之賞金獵人', '速度與激情之二貨降臨', '速度與激情之殺手來臨', '假面騎士之暗', '海賊之超神海賊', '妖尾之速度之舞', '神奇寶貝之穿越小智的愛情', '速度與激情:罪犯系統', '速度之王', '速度與激情之有神']
程式碼講解:
@requests.get()是獲取一個網站的原始碼,得到的結果與你開啟一個網站檢視原始碼的結果一致
@requests.get返回的res可以有很多種方法,在這裡一 一講解
1、res.text 是返回網頁的響應資料,並按照機器所認為的最大可能去解碼比如utf-8
2、res.content是返回網頁的相應資料,但不進行解碼,開發者可以根據實際進行某種編碼格式進行解碼。一般而言,編碼格式在網頁的原始碼裡面有標註,如下圖
這樣子我就可以把程式碼改為"
res_text=res.content.decode('gb2312')#效果一樣
3、res.status_code 返回訪問網站的狀態碼,正常訪問為200(很重要的這個,後期可以發下)
4、res.url 返回訪問網站的url地址
5、res.cookies 返回訪問網站後的cookies
@result=re.findall('\" title\"(.*?)\"><img',res_text,re.DOTALL)
在爬蟲裡面用得最頻繁最好用的是findall,re.DOTALL是為了匹配回車符號