Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取
阿新 • • 發佈:2018-12-28
寫在前面
對一個爬蟲愛好者來說,或多或少都有這麼一點點的收集癖
~ 發現好的圖片,發現好的書籍,發現各種能存放在電腦上的東西,都喜歡把它批量的爬取下來。 然後放著,是的,就這麼放著.......然後慢慢的遺忘掉.....
爬蟲分析
開啟網址 http://www.allitebooks.com/
發現特別清晰的小頁面,一看就好爬
在點選一本圖書進入,發現下載的小連結也很明顯的展示在了我們面前,小激動一把,這麼清晰無廣告的網站不多見了。
擼程式碼
這次我採用了一個新的模組 requests-html
這個模組的作者之前開發了一款 requests
,你應該非常熟悉了,執行緒控制採用的 queue
安裝
requests-html
模組
pip install requests-html
關於這個模組的使用,你只需要使用搜索引擎搜尋一下這個模組名稱,那文章也是很多滴,作為能學到這篇部落格的你來說,是很簡單的拉~
我們編寫一下核心的內容
from requests_html import HTMLSession from queue import Queue import requests import random import threading CARWL_EXIT = False DOWN_EXIT = False ##### # 其他程式碼 #### if __name__ == '__main__': page_queue = Queue(5) for i in range(1,6): page_queue.put(i) # 把頁碼儲存到page_queue裡面 # 採集結果 data_queue = Queue() # 記錄執行緒列表 thread_crawl = [] # 每次開啟5個執行緒 craw_list = ["採集執行緒1號","採集執行緒2號","採集執行緒3號","採集執行緒4號","採集執行緒5號"] for thread_name in craw_list: c_thread = ThreadCrawl(thread_name,page_queue,data_queue) c_thread.start() thread_crawl.append(c_thread) while not page_queue.empty(): pass # 如果page_queue為空,採集執行緒退出迴圈 CARWL_EXIT = True for thread in thread_crawl: thread.join() print("抓取執行緒結束")
上面就是爬取圖書詳情頁面的執行緒了,我開啟了5個執行緒爬取,頁碼也只爬取了5
頁,如果你需要更多的,只需要修改
page_queue = Queue(5)
for i in range(1,6):
page_queue.put(i) # 把頁碼儲存到page_queue裡面
下面我們把 ThreadCrawl
類編寫完畢
session = HTMLSession() # 這個地方是 User_Agents 以後我把他配置到伺服器上面,就可以遠端獲取了 這個列表裡面有很多項,你自己去原始碼裡面找吧 USER_AGENTS = [ "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20" ] # 獲取圖書下載連結的執行緒類 class ThreadCrawl(threading.Thread): # 建構函式 def __init__(self,thread_name,page_queue,data_queue): super(ThreadCrawl,self).__init__() self.thread_name = thread_name self.page_queue = page_queue self.data_queue = data_queue self.page_url = "http://www.allitebooks.com/page/{}" #URL拼接模板 def run(self): print(self.thread_name+" 啟動*********") while not CARWL_EXIT: try: page = self.page_queue.get(block=False) page_url = self.page_url.format(page) # 拼接URL操作 self.get_list(page_url) # 分析頁面連結 except Exception as e: print(e) break # 獲取當前列表頁所有圖書連結 def get_list(self,url): try: response = session.get(url) except Exception as e: print(e) raise e all_link = response.html.find('.entry-title>a') # 獲取頁面所有圖書詳情連結 for link in all_link: self.get_book_url(link.attrs['href']) # 獲取圖書連結 # 獲取圖書下載連結 def get_book_url(self,url): try: response = session.get(url) except Exception as e: print(e) raise e download_url = response.html.find('.download-links a', first=True) if download_url is not None: # 如果下載連結存在,那麼繼續下面的爬取工作 link = download_url.attrs['href'] self.data_queue.put(link) # 把圖書下載地址 儲存到 data_queue裡面,準備後面的下載 print("抓取到{}".format(link))
上述程式碼一個非常重要的內容就是把圖書的下載連結
儲存到了data_queue
裡面,這些資料 在另一個下載執行緒裡面是最基本的資料。
下面開始 編寫圖書下載的類和方法。
我開啟了4個執行緒,操作和上面的非常類似
class ThreadDown(threading.Thread):
def __init__(self, thread_name, data_queue):
super(ThreadDown, self).__init__()
self.thread_name = thread_name
self.data_queue = data_queue
def run(self):
print(self.thread_name + ' 啟動************')
while not DOWN_EXIT:
try:
book_link = self.data_queue.get(block=False)
self.download(book_link)
except Exception as e:
pass
def download(self,url):
# 隨機瀏覽器User-Agent
headers = {"User-Agent":random.choice(USER_AGENTS)}
# 獲取檔名字
filename = url.split('/')[-1]
# 如果url裡面包含pdf
if '.pdf' in url or '.epub' in url:
file = 'book/'+filename # 檔案路徑已經寫死,請在跟目錄先建立好一個book資料夾
with open(file,'wb') as f: # 開始二進位制寫檔案
print("正在下載 {}".format(filename))
response = requests.get(url,stream=True,headers=headers)
# 獲取檔案大小
totle_length = response.headers.get("content-length")
# 如果檔案大小不存在,則直接寫入返回的文字
if totle_length is None:
f.write(response.content)
else:
for data in response.iter_content(chunk_size=4096):
f.write(data)
else:
f.close()
print("{}下載完成".format(filename))
if __name__ == '__main__':
# 其他程式碼在上面
thread_image = []
image_list = ['下載執行緒1號', '下載執行緒2號', '下載執行緒3號', '下載執行緒4號']
for thread_name in image_list:
d_thread = ThreadDown(thread_name, data_queue)
d_thread.start()
thread_image.append(d_thread)
while not data_queue.empty():
pass
DOWN_EXIT = True
for thread in thread_image:
thread.join()
print("下載執行緒結束")
如果你把我上面的程式碼都組合完畢,那麼應該可以很快速的去爬取圖書了,當然這些圖書都是英文了,下載下來你能不能讀....... 我就不知道了。
原始碼下載地址,去上篇部落格找吧~~~~