1. 程式人生 > >Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述

以下的程式碼是使用python實現的網路爬蟲,抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。

本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。  

以上是網頁原始碼

以上是審查網頁元素

所以此處不能簡單的使用正則表示式來獲取內容。

以下是完整的獲取內容並存儲到資料庫的思路及原始碼。

實現思路:

抓取實際訪問的動態頁面的url – 使用正則表示式獲取需要的內容 – 解析內容 – 儲存內容

以上部分過程文字解釋:

抓取實際訪問的動態頁面的url:

在火狐瀏覽器中,右鍵開啟外掛 使用**firebug審查元素** *(沒有這項的,要安裝firebug外掛),找到並開啟**網路(NET)**標籤頁。重新載入網頁,獲得網頁的響應資訊,包括連線地址。每個連線地址都可以在瀏覽器中開啟。本網站的動態網頁訪問地址是:

http://baoliao.hb.qq.com/api/report/NewIndexReportsList/cityid/18/num/20/pageno/1?callback=jQuery183019859437816181613_1440723895018&_=1440723895472

原始碼

注意:使用python的版本是 2.7