Python爬蟲的步驟和工具
阿新 • • 發佈:2018-09-03
數據 raw 匹配 () 可能 表達 寫入 封裝 ext
import re
url =r‘https://www.woyaogexing.com/tupian/keai‘ #鏈接
response =requests.get(url) #get()函數,得到網頁
response.encoding =‘utf-8‘ #讓源碼中的中文正常顯示
html =response.text #加載網頁源碼
strs =‘<div class="txList_1 .">.*?src="(.*?)".*?>‘ #正則表達式
patern =re.compile(strs,re.S) #封裝成對象,以便多次使用
items =re.findall(patern,html) #匹配
for i in items:
with open(‘%d.jpg‘%items.index(i),‘wb‘) as file: #新建文件,以二進制寫形式‘wb‘
url =‘https:‘+i
file.write(requests.get(url).content) #寫入數據,圖片是二進制數據
#四個步驟
1.查看crawl內容的源碼格式 crawl的內容可以是 url(鏈接),文字,圖片,視頻
2.請求網頁源碼 (可能要設置)代理,限速,cookie
3.匹配 用正則表達式匹配
4.保存數據 文件操作
#兩個基本工具(庫)
1.urllib
2.requests
#使用reuests庫的一個例子,抓取可愛圖片
import requests #導入庫import re
url =r‘https://www.woyaogexing.com/tupian/keai‘ #鏈接
response =requests.get(url) #get()函數,得到網頁
response.encoding =‘utf-8‘ #讓源碼中的中文正常顯示
html =response.text #加載網頁源碼
strs =‘<div class="txList_1 .">.*?src="(.*?)".*?>‘ #正則表達式
patern =re.compile(strs,re.S) #封裝成對象,以便多次使用
items =re.findall(patern,html) #匹配
for i in items:
with open(‘%d.jpg‘%items.index(i),‘wb‘) as file: #新建文件,以二進制寫形式‘wb‘
url =‘https:‘+i
file.write(requests.get(url).content) #寫入數據,圖片是二進制數據
Python爬蟲的步驟和工具