1. 程式人生 > >python requests模組教程及例項(get方法)

python requests模組教程及例項(get方法)

——————來自某潮汕人的菜鳥教程

一、如何安裝requests?

pip install requests

二、requests.get方法的使用:

要爬取的網站:“https://b.faloo.com/l/0/1.html?t=1&k=%CB%D9%B6%C8”

爬取任務:搜尋結果的標題名稱


程式碼:

import requests

import re

res = requests.get(url='https://b.faloo.com/l/0/1.html?t=1&k=%CB%D9%B6%C8')

res_text=res.text

result=re.findall('\" title\"(.*?)\"><img',res_text,re.DOTALL)

print(result)

結果:['修煉速度幾何倍', '速度與激情之暴風車神', '速度與激情之賞金獵人', '速度與激情之二貨降臨', '速度與激情之殺手來臨', '假面騎士之暗', '海賊之超神海賊', '妖尾之速度之舞', '神奇寶貝之穿越小智的愛情', '速度與激情:罪犯系統', '速度之王', '速度與激情之有神']

程式碼講解:


@requests.get()是獲取一個網站的原始碼,得到的結果與你開啟一個網站檢視原始碼的結果一致


@requests.get返回的res可以有很多種方法,在這裡一 一講解

1、res.text  是返回網頁的響應資料,並按照機器所認為的最大可能去解碼比如utf-8

2、res.content是返回網頁的相應資料,但不進行解碼,開發者可以根據實際進行某種編碼格式進行解碼。一般而言,編碼格式在網頁的原始碼裡面有標註,如下圖


這樣子我就可以把程式碼改為"

res_text=res.content.decode('gb2312')#效果一樣

3、res.status_code  返回訪問網站的狀態碼,正常訪問為200(很重要的這個,後期可以發下)

4、res.url  返回訪問網站的url地址

5、res.cookies 返回訪問網站後的cookies

@result=re.findall('\" title\"(.*?)\"><img',res_text,re.DOTALL)

在爬蟲裡面用得最頻繁最好用的是findall,re.DOTALL是為了匹配回車符號