1. 程式人生 > >Python爬蟲入門之豆瓣短評爬取

Python爬蟲入門之豆瓣短評爬取

採用工具pyCharm,python3,工具的安裝在這就不多說了,之所以採用python3是因為python2只更新維護到2020年。

  1. 新建python專案
    在這裡插入圖片描述

  2. File-Settings-project interpreter,點右上角+號,安裝requests,lxml,openpyxl,pandas四個包。
    requests爬取豆瓣短評
    lxml解析定位豆瓣短評
    panda轉換並儲存豆瓣短評資料
    openpyxl是讀寫excel檔案所用到的包
    在這裡插入圖片描述
    在這裡插入圖片描述

  3. 在專案下新建一個python file,例項程式碼如下:
    在這裡插入圖片描述

  4. 這裡著重說一下,xpath路徑如何獲取,在網頁中選中評論內容,右擊-檢查,自動跳到對應程式碼行,再在該程式碼行上右擊-Copy-Copy XPath;粘貼出來你的程式碼好比如是://[@id=“comments”]/ul[1]/li[1]/div[2]/p/span,這時你要結合你的前端基礎知識和頁面世界節點去分析,最後把xpath改成//

    [@class=“comment”]/p/span/text()id="comments"是唯一y一個

  5. 執行程式碼,在專案目錄下生成comments.xlsx檔案。大功告成!
    在這裡插入圖片描述