1. 程式人生 > >Python爬取新浪微信評論,瞭解一下

Python爬取新浪微信評論,瞭解一下

這裡寫圖片描述

  • 環境: Python3 + windows。
  • 開發工具:Anaconda + Jupyter / VS Code/pycharm/sublime等等都可以(你開心就好)

學習效果:

  • 認識爬蟲 / Robots協議
  • 瞭解瀏覽器開發者工具
  • 動態載入頁面的處理
  • 手機客戶端頁面的資料採集

Robots.txt 協議

  • Robots協議,也稱為爬蟲協議

網站通過Robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots是一個協議,而不是一個命令。Robots.txt檔案是一個文字檔案,是放置在網站根目錄下,使用任何一個常見的文字編輯器,就可以建立和編輯它。Robots.txt是搜尋引擎中訪問網站的時候要檢視的第一個檔案,其主要的作用就是告訴蜘蛛程式在伺服器上什麼檔案是可以被檢視的。

  • Robots協議是國際網際網路界通行的道德規範。約定俗成。

Python程式碼

  • 匯入模組
import requests
import pandas
import json
import time
  • 反爬
head = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'}Cookie = {'Cookie':'_T_WM=f6d406d777aafb7ed7671865d1f83799; SUB=_2A2504yPYDeRhGeNO6VMY9SvEyTuIHXVULE2QrDV6PUJbkdAKLW_YkW0b_QKWV_mSPrmPv7aZsGtGMxBDlQ..; SUHB=079ja78HU_LZCb; SCF=AmqC1lSo0254S3K0WtBQVQwXfOSQ7ivbLAOSCObPteJy5JckO3l0ZH7pSTuid_JRXlWylgjTetdZzQcModbM4A4.; H5:PWA:UID=1; M_WEIBOCN_PARAMS=featurecode%3
D20000320%26oid%3D4160547165300149%26luicode%3D20000061%26lfid%3D4160547165300149; H5_INDEX=0_all; H5_INDEX_TITLE=%E6%8C%96%E6%8E%98%E6%9C%BA%E5%A4%A7%E7%8E%8B%E5%AD%90'}

這裡寫圖片描述

真正的爬蟲

如果想加快我們這個程式的爬取速度該怎麼辦 ? ?

IP代理,Cookies池,多執行緒 / 多進%程等,驗證碼等。

Python發展方向

  • 資料分析/資料探勘

關聯分析【啤酒與尿布】,聚類分析 ,判別分析 ,隨機森林 .

  • 人工智慧

一種能以人類智慧相似的方式做出反應的智慧機器,該領域的研究包括機器人、語言識別、影象識別、自然語言處理等。例如AlphaGo , AlphaGo Zero.

  • Python運維

    不會開發的運維終將被淘汰!!!

  • WEB開發

    開發網站,例如豆瓣網。側重於實戰!!!

  • Python爬蟲

    採集網路資料,為資料分析或大資料等提供支援,大型的比如Google,百度等。側重於實戰!!!

這裡寫圖片描述