1. 程式人生 > >Python3 selenium 網頁table資料抓爬

Python3 selenium 網頁table資料抓爬

專案介紹

本專案是對一些複雜的報表解析爬取列表資料,以國家網為例(大家最好換一個網站),會自動根據資料庫配置text(資料庫為字典方式),進行
點選樹形結構,然後input下拉框內時間,並選擇省(時間和省由配置檔案配置),但下拉列表的xpath沒有資料庫化,現階段是寫死在程式碼中
專案開始由遞迴進行判定是否為最後一層,字典表可配置N層,看你網站的複雜度

加入QQ群:943841699

原始碼地址:https://gitee.com/xywdy/table_creeper.git

技術

Python3.6
selenium(如果對selenium不瞭解,可參考部落格
https://blog.csdn.net/wudaoshihun/article/details/82982596
https://blog.csdn.net/wudaoshihun/article/details/82990670
https://blog.csdn.net/wudaoshihun/article/details/82990920
https://blog.csdn.net/wudaoshihun/article/details/82947091)

本專案採用谷歌瀏覽器核心,需安裝谷歌及匹配的driver
參考:https://blog.csdn.net/wudaoshihun/article/details/82353056
並且linux無介面,需要配置無介面方式進行爬取
參考:https://blog.csdn.net/wudaoshihun/article/details/82948013

使用說明

1. 把resource檔案下SQL拷貝並匯入資料庫
2. 配置config.py
3. 根據技術目錄指引安裝完畢
4. 現階段只有一張表,class_type為型別,若不同型別網站,則class_type不同,
group_code為分組編碼,可根據00000000,每個位代表不同含義,與自己庫中的分類對應。