爬蟲,可用於增加訪問量和抓取網站全頁內容
阿新 • • 發佈:2018-09-08
不能 網站 per 4.0 exce log utf open 內容
爬蟲,可用於增加訪問量和抓取網站全頁內容
- 爬蟲道德規範:
- 1.不讓爬的咱不爬
- 2.讓爬的咱不能一直爬
使用爬蟲提高文章訪客說明:
- 1.本爬蟲使用代理IP
- 2.偽裝瀏覽器
- 3.粘貼地址即可使用
- 4.原文件 github 地址:https://github.com/xpwi/py/blob/master/py%E7%88%AC%E8%99%AB/eyes.py
- 5.下載原文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/eyes.py
# coding:utf-8 ''' 使用爬蟲提高文章訪客說明: 1.本爬蟲使用代理IP 2.偽裝瀏覽器 3.粘貼地址即可使用 ''' from urllib import request,error if __name__ == '__main__': # 將需要訪問的地址替換下面地址 url = "https://www.cnblogs.com/xpwi/" # 設置代理地址,代理IP一般20天左右會失效 # 獲取最新代理IP,參考文章:https://www.cnblogs.com/xpwi/p/9600727.html # 1.日本 # proxy = {'http': '140.227.65.196:3128'} # 2.俄羅斯 proxy = {'http': '94.242.59.135:1448'} # 2.創建ProxyHandler proxy_handler = request.ProxyHandler(proxy) # 3.創建Opener opener = request.build_opener(proxy_handler) # 4.安裝Opener request.install_opener(opener) # 下面再進行訪問url就會使用代理服務器 # 更換瀏覽器型號,參照:https://www.cnblogs.com/xpwi/p/9600719.html try: req = request.Request(url) req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163") rsp = request.urlopen(req) html = rsp.read().decode() print("訪問成功訪客+1,以下是該網頁的HTML:\n",html,"\n訪問成功訪客+1,以上是該網頁的HTML\n") except error.HTTPError as e: print(e) except Exception as e: print(e)
更多文章鏈接:Python 爬蟲隨筆
- 本筆記不允許任何個人和組織轉載
爬蟲,可用於增加訪問量和抓取網站全頁內容