1. 程式人生 > >Python爬蟲的步驟和工具

Python爬蟲的步驟和工具

數據 raw 匹配 () 可能 表達 寫入 封裝 ext

#四個步驟

1.查看crawl內容的源碼格式 crawl的內容可以是 url(鏈接),文字,圖片,視頻

2.請求網頁源碼        (可能要設置)代理,限速,cookie

3.匹配            用正則表達式匹配

4.保存數據          文件操作

#兩個基本工具(庫)

1.urllib

2.requests

#使用reuests庫的一個例子,抓取可愛圖片

import requests #導入庫
import re
url =r‘https://www.woyaogexing.com/tupian/keai‘ #鏈接
response =requests.get(url) #get()函數,得到網頁
response.encoding =‘utf-8‘          #讓源碼中的中文正常顯示
html =response.text             #加載網頁源碼
strs =‘<div class="txList_1 .">.*?src="(.*?)".*?>‘ #正則表達式
patern =re.compile(strs,re.S)         #封裝成對象,以便多次使用
items =re.findall(patern,html)         #匹配
for i in items:
with open(‘%d.jpg‘%items.index(i),‘wb‘) as file: #新建文件,以二進制寫形式‘wb‘
url =‘https:‘+i
file.write(requests.get(url).content)    #寫入數據,圖片是二進制數據

Python爬蟲的步驟和工具