爬蟲不過如此（python 詳細篇）

阿新 • • 發佈：2018-11-30

網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。

爬蟲的本質就是一段自動抓取網際網路資訊的程式，從網路獲取感興趣的資訊，抓取對於我們有價值的資訊，爬蟲技術是大資料和雲端計算的基礎。

爬蟲的實現可認為是模擬瀏覽器與伺服器數據互動，偽造HTTP請求。

使用總覽

網頁爬取庫：

1、urllib模組的urllib.request

#基本被取代

2、requests 第三方庫

#中小型爬蟲開發

#官網：http://www.python-requests.org/en/master/

3、Scrapy 框架

#大型爬蟲開發

內容解析庫：

1、BeautifulSoup庫

#提取HTML和XML裡的資料

#官網https://www.crummy.com/software/BeautifulSoup/bs4/doc/

2、re模組

#正則表示式，處理字串

檢視網站爬蟲協議

url/robots.txt

requests庫基本使用：

安裝：

sudo pip3 install requests

使用介紹：

 1 import requests #匯入庫
 2 
 3 
 4 #get請求資料
 5 res=requests.get("http://www.baudu.com")#get請求URL
 6 # res=requests.get("http://www.baidu.com",params={"w1":"ww11","w2":"ww22"})#get帶引數請求 

 7 print(res.url)#獲取到訪問的URL
 8 
 9 
10 
11 #post請求資料
12 res=requests.post("http://www.baudu.com")#post請求URL
13 # res=requests.get("http://www.baidu.com",data={"w1":"ww11","w2":"ww22"})#post帶引數請求
14 
15 #post上傳檔案
16 #filex={"img":open('dongdd/web.py','rb')}#檔案表單
17 #filex={"img":("evil.jpg",open('dongdd/1.jpg','rb'))}#指定檔名更改為evil.jpg
18 filex={"img":("veil.txt","人的一切痛苦，\r\n本質上是對自己無能的憤怒!\r\n wowo")}#以檔案儲存字串
19 res=requests.post(urlx,files=filex)
20 
21 
22 
23 #cookies
24 #cookie在請求頁第一次設定後是不能馬上用下列函式拿到值的，必須是請求前存在
25 
26 print(res.cookies)#列印所有cookie
27 print(res.cookies["us"])#獲取單個cookie
28 
29 #攜帶自定義cookie，可做當次頁面cookie比較驗證
30 coo={"cc1":"ccc01","cc2":"ccco2"}
31 res=ss.post("http://192.168.43.21:8080/login.php",cookies=coo)
32 
33 #自動攜帶網站上的cookie，訪問頁面，上面程式碼設定cookie的不可被自動攜帶，必須每次手動
34 ss=requests.Session()
35 res=ss.post("http://192.168.43.21:8080/login.php")
36 res=ss.post("http://192.168.43.21:8080/cancel.php")#可做頁面1中cookie驗證
37 
38 
39 
40 #超時
41 #預設為一直請求URL，處於停止狀態，所以必須要設定超時
42 res=requests.post("http://192.168.43.121:8080/login.php",timeout=0.2)#連線時間為：0.2s
43 #設定連線超時和讀超時：timeout=(3.05, 27) #第一個為規定連線時間，第二個為規定讀取時間
44 #永遠等待相應：timeout=None
45 
46 
47 #修改或新增請求頭，請求頭的必要引數可修改
48 headx={'User-Agent': 'wwwwwwwww', 'Connection': 'xxxxxxx', 'tt': '--------'} 
49 res=requests.get("http://193.112.87.66/wx/file.php",headers=headx) 
50 print(res.request.headers)#獲取請求頭
51 
52 #其他相關引數
53 print(res.status_code)#獲取訪問狀態碼，200（系統常量：requests.codes.ok）為成功
54 print(res.raise_for_status())#請求錯誤時可以列印錯誤（4XX客戶端錯誤或5XX伺服器錯誤響應）
55 print(res.encoding)#檢視編碼
56 res.encoding="utf-8"#更改編碼 另外值：ISO-8859-1
57 print(res.headers)#以字典形式列印相應頭，HTTP標頭名稱不區分大小寫
58 print(res.headers["date"])#print(res.headers.get("DAte"))打印出相應頭時間資訊
59 print(res.text)#列印網頁原始碼
60 
61 #json資料解析：
62 jsontt1=res.json()#得到json資料
63 print(jsontt1.keys())#輸出所有json可鍵名
64 print(jsontt1["key11"])#獲取單個鍵的資料
65 
66 #二進位制格式資料：res.content
67 #獲取一張網路圖片並存儲實現：
68 res=requests.get("http://193.112.87.88/wx/img/0.jpg",timeout=5)#訪問得到圖片資料
69 f=open("ww.jpg","wb")#以二進位制方式開啟檔案
70 f.write(res.content)#寫入二進位制資料
71 f.close()#必須關閉檔案
72 
73 #從伺服器獲取原始套接字響應，您可以訪問res.raw,必須設定：stream=True
74 #資料只能使用一次（類似檔案指標）
75 res=requests.get("http://193.112.87.88/wx/file.php",stream=True)
76 res.raw.read(10)#讀十個位元組
77 
78 #另一種方式獲取網頁原始碼：
79 res=requests.get("http://193.112.87.88/wx/file.php",stream=True)
80 rxx=res.raw.read(1)#讀取一個位元組
81 f=open("www.txt","wb")
82 while rxx:#判斷是否為空
83     print(rxx)
84     f.write(rxx)#寫一個位元組
85     rxx = res.raw.read(1)#讀下一個位元組
86 f.close();#必須關閉檔案

re庫（正則表示式）基本使用：

安裝：

python3環境自帶

基本介紹：

1、正則表示式是獨立的語言，正則語言是共通的，比如之前寫的PHP正則裡有很多共同性

2、內容裡存在原子：原子是匹配單元，必須存在

轉義字元：如點代表所有字元所有可用\.表示點

【.】、【\】、【?】、【^】、【$】、【*】、【+】、【}】、【{】、【[】、【]】、【|】、【（】、【)】

特殊符號字元：

【\d】所有數字，相當於[0-9]

【\D】所有非數字,相當於[^0-9]

【\w】任意一個字(a-z、A-Z、0-9、下劃線、中文字)

【\W】任意非字,相當於[^a-zA-Z0-9_中文字]

【.】(點)任意一個原子

【\s】所有空白(空格、tab鍵、換行),相當於[\r\t\n\f\v]

【\S】任意非空白

匹配任意一個：

[字元1字元2字元3]//也可為[a-zA-Z]區間//匹配任意一個

【^】為取反，寫在中括號內開頭處，表示除了括號裡的所有字元都可以

【^】表示普通字元，寫在括號裡除最前面的任意位置

括號裡的字元需要轉義，雖然有些不用轉義

3、內容裡存在原子符：對原子的修飾補充

【*】修飾前面的單個原子可以出現任意次

【+】修飾前面的單個原子至少要出現1次

【？】修飾前面的單個原子只能出現0次或者1次

【{ n }】修飾前面的單個原子只能出現n次

【{a,b}】修飾前面的單個原子只能出現 [ a , b ] 次 //至少兩次用{2, }

【|】修飾兩邊字串任意誰整體出現，/intelligent|diligent/

【^字元1】必須以字元1開始的行，r’^xceee’必須以xceee為開始，寫在表示式最前面

【$字元2】必須以字元2結尾的行，/\Aaa.*wo$/必須以aa開始和wo為結束，.*表示任意

【\A和\Z】開始和結束，用法跟上相同，但不是以行為結束

【\b】單詞邊界(空格)，r’\bare\b’,匹配字串“ware are xxx”匹配到are單詞，

【\B】單詞邊界以外的部分

【（）】改變優先順序，r’t(r|x)ol’，可匹配trol或者txol

以小變大：r’tel*’表示l可出現任意次=>r’t(el)*’表示el可出現任意次

用於取出：r’t(el)(.*)’如"xxwtelelllll"輸出:[('el', 'elllll')]

使用介紹：

 1 import re #匯入re模組
 2 
 3 #整體匹配
 4 str=r'To live is to live' #原字串，r表示原始字元，如‘\n’並不會被解釋為換行
 5 zstr=re.findall("li",str); #查詢所有，返回列表
 6 print(zstr); #列印列表 輸出：['li', 'li']
 7 
 8 #用[ ]匹配其中一個
 9 str=r'live and love' 
10 zstr=re.findall("l[io]ve",str); 
11 print(zstr); #輸出：['live', 'love']
12 
13 
14 
15 
16 #方法：compile（），生成re物件
17 str=r'aawobbxxaatabbb' #原字串
18 re_job=re.compile("a        a.*?b b",re.I|re.X)#建立re物件
19 zstr=re_job.findall(str); #使用re物件去查詢
20 print(zstr); #列印列表,輸出：['aawobb', 'aatabb']
21 
22 #第二個引數值：
23 #【re.I】不區分大小寫，r’teL’可匹配tel、Tel、TEL 等
24 #【re.M】換行後不示為同行，預設將\n換行示為以上一行為同一行，影響【^】【$】/^aa/使用有區別
25 #【re.S】修正表示式中【.】可匹配回車\n,如/a.*art/s匹配"I am \nsmart"
26 #【re.X】忽略正則表示式內容裡所寫的空白間隔，去掉空字元和# 後面的註釋
27 #【re.U】根據Unicode字符集解析字元。這個標誌影響 \w, \W, \b, \B
28 
29 #方法：match（），正則字串匹配開頭
30 str=r'xxwtelelllll' #原字串
31 zstr=re.match('xx',str); #使用re物件去查詢
32 print(zstr); #輸出物件：<re.Match object; span=(0, 2), match='xx'>，未匹配到則返回None
33 if(zstr):
34     print("匹配成功")
35 else:
36     print("匹配失敗")
37 
38 #方法：search（），正則字串匹配任意一個位置
39 str=r'wtxxelelxxllll' #原字串
40 zstr=re.search('xx',str); #使用re物件去查詢
41 print(zstr); #輸出物件：<re.Match object; span=(2, 4), match='xx'>，未匹配到則返回None
42 if(zstr):
43     print("匹配成功")
44 else:
45 print("匹配失敗")
46 
47 #方法：sub（），正則法替換字串內容
48 str=r'--x2x--xvx--' #原字串
49 zstr=re.sub('x.*?x','Python',str); #使用re物件去查詢
50 print(zstr);#輸出：--Python--Python—
51 #將re.sub換成：re.subn()則輸出次數：('--Python--Python--', 2)
52 
53 #方法：split（），正則法拆分字串內容
54 str=r'1+2-6/1|2^5' #原字串
55 zstr=re.split(r'[\^\+\*\|\/\-]',str); #使用re物件去查詢
56 print(zstr);#輸出：['1', '2', '6', '1', '2', '5']

BeautifulSoup庫基本使用

安裝：

sudo pip3 install beautifulsoup4

sudo pip3 install lxml


使用介紹：

 1 from bs4 import BeautifulSoup#匯入模組
 2 import requests #網頁訪問庫
 3 res=requests.get("http://193.112.87.88/wx/file.php")
 4 res.encoding="utf-8"
 5 
 6 be=BeautifulSoup(res.text,"lxml")#得到BeautifulSoup物件，lxml為HTML解析器，如XML解析則要用xml
 7 print(be.find_all("form"))#輸出編碼
 8 print(be.prettify())#以標準HTML格式輸出網頁原始碼
 9 
10 print(be.input)#獲取到第一個input標籤全部內容：<input name="img" type="file"/>
11 print(be.form.input)#獲取到標籤（form）下的子標籤(input)
12 print(be.form.encode("latin-1"))#自定義編碼輸出
13 print(be.input.parent.parent)#獲取input標籤的父節點的父節點
14 print(be.input.previous_sibling)#上一個兄弟節點
15 print(be.input.next_sibling)#下一個兄弟節點
16 print(be.img)#獲取到第一個img標籤內容：<img src="img/0.jpg"/>
17 picture=be.img
18 print(picture.get('src'))#獲取該屬性值（優先考慮）：img/0.jpg
19 print(be.img["src"])#直接獲取屬性值
20 
21 #獲取到標籤內容值
22 print(be.title) # <title>東小東頁</title>
23 print(be.title.text) #東小東頁
24 print(be.title.string) #東小東頁
25 
26 #函式find_all()和find()使用,引數使用是相同的
27 #引數值均可使用：字串、列表、正則物件、True（任意值）
28 
29 print(be.find_all(class_="yzm",limit=2))#limit為要返回的條數
30 print(be.find_all('input')) #查詢所有標籤名為input，存入到列表
31 be.find_all(id='link2')#通過id值查詢
32 print(be.find_all(type=True))#type為true表示可以接收任意值
33 print(be.find_all(class_="yzm"))#通過class屬性查詢內容，注意class後面有下劃線
34 print(be.find_all(src=re.compile(r"img/.*?jpg")))#通過src屬性查詢
35 print(be.find_all('img')[0]["src"])# img/0.jpg
36 #--------------------------------------------------
37 import re #使用正則表示式
38 for inx in be.find_all(re.compile(r"i")):#匹配帶i字母的所有標籤名
39     print(inx.name)
40 #------------------------------------------------
41 for inx in be.find_all(["input","img"]):#列表傳遞多個需匹配標籤名
42    print(inx)
43    print(inx.get("name"))#獲取標籤name屬性值
44 #------------------------------------------------------
45 
46 #找到第一個，且只找一個
47 print(be.find(type="file"))#通過屬性查詢
48 print(be.find("input"))#通過標籤查詢
49 print(be.find("input",type="password"))#通過標籤加屬性查詢，可支援有：id、type等
50 print(be.find(text="東小東").parent)#通過text屬性查詢：<legend>東小東</legend>
51 #引數不支援name和data-*
52 print(be.find_all(attrs={"name":"yzm"}))#可用此方法解決
53 
54 
55 #擴充套件：
56 be=BeautifulSoup(open("www.txt","rb"))#直接讀取檔案內容

爬蟲不過如此（python 詳細篇）

網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。爬蟲的本質就是一段自動抓取網際網路資訊的程式，從網路獲取感興趣的資訊，抓取對於我們有價值的資訊，爬蟲技術是大資料和雲端計算的基礎。爬蟲的實現可認為是模擬

java程式設計師菜鳥進階（十三）linux基礎入門（一）vmvare下安裝linux RedHat圖解（超詳細篇）

對於linux，我從大二就想學習一下，但一直苦於無從下手，所以一直拖到現在，鑑於筆者瞭解很多人在linux入門的困難在何處，所以我認為本套入門基礎文章還是挺適合想學習linux的朋友，本系列文章大約十篇文章左右，近期會不斷更新下來，沒有linux基礎但又想學習linux的朋友可以關注一下本系列

零基礎掌握百度地圖興趣點獲取POI爬蟲（python語言爬取）（進階篇）

好，現在進入進階篇教程。 1.獲取昆明市的bounds值看到下面這個東西了吧？在文字框裡寫入昆明市，或者其他的行政區劃地名，北京市、朝陽區、大河溝子村什麼的。這也是通過呼叫百度地圖開放平臺API實現的。實現起來很簡單，把下面這段程式碼複製到一個

小白學 Python 爬蟲（42）：春節去哪裡玩（系列終篇）

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

Python進階---面向對象第三彈（進階篇）

python對象 one iss pri each super left connect ext 　Python對象中一些方法一、__str__ class Teacher: def __init__(self,name,age): self.name

爬蟲（scrapy第一篇）

pat span shell text -i col trac xpath http ----------------------------------------------------------------------------------------------

python開發（第三篇）：python基本數據類型（列表，元組，字典）

python開發 .com mage es2017 列表基本 images 數據類型切片 ##########列表：list########## 1.索引：結果：eirc 2.切片 python開發（第三篇）：python基本數據類型（列表，元組，字典）

python 面向對象（進階篇）

關心 __iter__ nvi class nic 詳情 mit remove 類名類的成員類的成員可以分為三大類：字段、方法和屬性註：所有成員中，只有普通字段的內容保存對象中，即：根據此類創建了多少對象，在內存中就有多少個普通字段。而其他的成員，則都是保存在類中，

Android查缺補漏（線程篇）-- AsyncTask的使用及原理詳細分析

catch 返回 rri 理解 ams tee ive lean keyword 本文作者：CodingBlock 文章鏈接：http://www.cnblogs.com/codingblock/p/8515304.html 一、AsyncTask的使用 AsyncT

python爬去妹子網整個圖片資源教程（最詳細版）

python爬蟲；爬取妹子網的低級教程連接如下：[爬妹子網](https://blog.csdn.net/baidu_35085676/article/details/68958267)ps：只支持單個套圖下載，不支持整體下載在說說我的這個爬蟲代碼的設計思路：①當我們瀏覽這個網站時，會發現，每一個頁面的URL

Python面試攻略（嗨談篇）

font aca use 存儲 div castle obj light wim 選出了其中出現頻率最高的十個題目，附上答案供各位小夥伴參考！ 1.*args和**kwargs是什麽意思？答：*args表示可變參數（variadic arguments），它允

大資料學習之小白如何學大資料？（詳細篇）

大資料這個話題熱度一直高居不下，不僅是國家政策的扶持，也是科技順應時代的發展。想要學習大資料，我們該怎麼做呢？大資料學習路線是什麼？先帶大家瞭解一下大資料的特徵以及發展方向。大資料的三個發展方向，平臺搭建/優化/運維/監控、大資料開發/設計/架構、資料分析/挖掘。先說一下大資料的4V特徵：資料

大數據學習之小白如何學大數據？（詳細篇）

第二章文本 size storm mongod mage 分析 phoenix sqlserve 大數據這個話題熱度一直高居不下，不僅是國家政策的扶持，也是科技順應時代的發展。想要學習大數據，我們該怎麽做呢？大數據學習路線是什麽？先帶大家了解一下大數據的特征以及發展方向。

大資料開發學習Hadoop路線圖（詳細篇）

Hadoop發展到今天家族產品已經非常豐富，能夠滿足不同場景的大資料處理需求。作為目前主流的大資料處理技術，市場上很多公司的大資料業務都是基於Hadoop開展，而且對很多場景已經具有非常成熟的解決方案。作為開發人員掌握Hadoop及其生態內框架的開發技術，就是進入大資料領域的必經之路。下

Python開發【第七篇】：面向物件（進階篇）

上一篇《Python 面向物件（初級篇）》文章介紹了面向物件基本知識：面向物件是一種程式設計方式，此程式設計方式的實現是基於對類和物件的使用類是一個模板，模板中包裝了多個“函式”供使用（可以講多函式中公用的變數封裝到物件中）物件，根據模板

Hadoop大資料開發學習路線圖（詳細篇）

Hadoop發展到今天家族產品已經非常豐富，能夠滿足不同場景的大資料處理需求。作為目前主流的大資料處理技術，市場上很多公司的大資料業務都是基於Hadoop開展，而且對很多場景已經具有非常成熟的解決方案。作為開發人員掌握Hadoop及其生態內框架的開發技術，就是進入大資料領

Python 實用程式設計技巧（裝飾器篇）

一、如何使用函式裝飾器？ 1.需求：比如說，我們想為很多不同的函式新增相同的功能，比如說計時統計、記錄日誌、快取運算結果等，但是我們又不想在每個函式中新增相同的程式碼有需要Python學習資料的小夥伴嗎?小編整理【一套Python資料、原始碼和PDF】，感興趣者可以

python 面向物件（進階篇）

本篇將詳細介紹Python 類的成員、成員修飾符、類的特殊成員。類的成員類的成員可以分為三大類：欄位、方法和屬性注：所有成員中，只有普通欄位的內容儲存物件中，即：根據此類建立了多少物件，在記憶體中就有多少個普通欄位。而其他的成員，則都是儲存在類中，即：無論物件

Thinkphp5開發電腦網站支付寶支付詳細流程（線上測試篇）

在沙箱測試篇講過的我在這裡就不再做重複，詳情請見上一篇PHP開發電腦網站支付寶支付詳細流程（沙箱測試篇）在沙箱測試的時候使用的是沙箱環境中的配置，現在進行線上測試，需要建立應用 1、建立應用登入螞蟻金服開放平臺商戶賬號，進入管理中心選擇開發者中心->網頁&移動應用

爬蟲不過如此（python 詳細篇）

相關推薦