爬取糗事百科的頁面
阿新 • • 發佈:2019-01-04
import requests class QiuShiBaiKe(): def __init__(self): """ 初始化引數 """ self.url_bash = 'https://www.qiushibaike.com/imgrank/{}' self.headers = {"User-Agent":"ADC"} def url_lists(self): """ 生成下載列表 :return: """ return [self.url_bash.format(i) for i in range(1,11)] def dowmload_url(self,url_str): """ 使用requests get下載指定頁面 並返回頁面結果 :param url_str: 下載連結 就是run函式裡面的lits :return: 下載結果 """ result = requests.get(url_str,headers = self.headers) return result.content def save_result(self,result,num): """ 儲存下載內容 :param result: 爬去的頁面 :param num: 頁碼 :return: 返回名字叫result.html的檔案 """ filte_url = 'imgrank--第{}頁.html'.format(num) with open(filte_url,'wb') as f: f.write(result) def run(self): """ 下載主執行緒 實現主要邏輯 :return: """ url_lits = self.url_lists() for lits in url_lits: result_str = self.dowmload_url(lits) num = url_lits.index(lits) + 1 self.save_result(result_str,num) if __name__ =='__main__': qiushi = QiuShiBaiKe() qiushi.run()
第一次接觸爬蟲 請多多支援 .....