1. 程式人生 > >爬蟲,可用於增加訪問量和抓取網站全頁內容

爬蟲,可用於增加訪問量和抓取網站全頁內容

不能 網站 per 4.0 exce log utf open 內容

爬蟲,可用於增加訪問量和抓取網站全頁內容

  • 爬蟲道德規範:
    • 1.不讓爬的咱不爬
    • 2.讓爬的咱不能一直爬

使用爬蟲提高文章訪客說明:

  • 1.本爬蟲使用代理IP
  • 2.偽裝瀏覽器
  • 3.粘貼地址即可使用
  • 4.原文件 github 地址:https://github.com/xpwi/py/blob/master/py%E7%88%AC%E8%99%AB/eyes.py
  • 5.下載原文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/eyes.py
# coding:utf-8
'''
使用爬蟲提高文章訪客說明:
1.本爬蟲使用代理IP
2.偽裝瀏覽器
3.粘貼地址即可使用
'''
from urllib import request,error

if __name__ == '__main__':

    # 將需要訪問的地址替換下面地址
    url = "https://www.cnblogs.com/xpwi/"

    # 設置代理地址,代理IP一般20天左右會失效
    # 獲取最新代理IP,參考文章:https://www.cnblogs.com/xpwi/p/9600727.html
    # 1.日本
    # proxy = {'http': '140.227.65.196:3128'}
    # 2.俄羅斯
    proxy = {'http': '94.242.59.135:1448'}

    # 2.創建ProxyHandler
    proxy_handler = request.ProxyHandler(proxy)
    # 3.創建Opener
    opener = request.build_opener(proxy_handler)
    # 4.安裝Opener
    request.install_opener(opener)

    # 下面再進行訪問url就會使用代理服務器
    # 更換瀏覽器型號,參照:https://www.cnblogs.com/xpwi/p/9600719.html
    try:
        req = request.Request(url)
        req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163")

        rsp = request.urlopen(req)

        html = rsp.read().decode()
        print("訪問成功訪客+1,以下是該網頁的HTML:\n",html,"\n訪問成功訪客+1,以上是該網頁的HTML\n")

    except error.HTTPError as e:
        print(e)

    except Exception as e:
        print(e)

更多文章鏈接:Python 爬蟲隨筆


  • 本筆記不允許任何個人和組織轉載

爬蟲,可用於增加訪問量和抓取網站全頁內容