Python進行資料爬取

阿新 • • 發佈：2019-01-16

1.基本的爬蟲架構

主要包括排程器，URL管理器，網頁下載器，網頁解析器這些部分，實現價值資料的獲取。

1.1 URL管理器

對待抓取的URL集合和已抓取的URL集合進行管理，避免重複抓取和迴圈抓取。

主要有5個部分的功能，判斷待新增URL是否在容器中、新增新的URL到待爬取集合、判斷是否還有待爬取集合、獲取待爬取URL、將URL從待爬取的集合移動到已爬取集合中。

分類：Python記憶體（待爬取和已爬取兩個set()集合），關係資料庫（eg:MySQL，建表來實現儲存），快取資料庫（eg:redis，支援set資料結構）。大型公司一般採用高效的快取資料庫作為URL管理器，小型的或想要永久儲存的採用關係資料庫作為URL管理器，小型的不需要儲存的可以直接儲存在Python記憶體中。

1.2 網頁下載器（爬蟲的核心元件）

將網際網路上URL對應的網頁下載到本地。

主要功能有：將待獲取URL對應的網際網路網頁以HTML的形式下載到本地，並以本地檔案或記憶體字串的形式進行儲存，以便後續的處理。

分類：urllib2（Python官方基礎模組），requests（Python的第三方外掛）等。

1.2.1 urllib2下載網頁的方法

a.使用urlopen函式直接獲取網頁資訊

具體程式碼：

b.新增data（使用者需要輸入的資料），http header資料，結合urllib2的Request和urlopen函式來獲取網頁資訊

具體程式碼：

c.新增特殊情景的處理器，根據不同的URL選擇不同的處理器（eg:HTTPCookieProcessor、ProxyHandler、HTTPSHandler、HTTPRedirectHandler）,綜合使用urllib2的build_opener、install_opener和urlopen

函式來獲取網頁資訊。

具體程式碼（以Cookie為例）：

1.3 網頁解析器

從網頁中提取有價值資料的工具。

主要功能有：提取價值資料，提供新的待爬取的URL列表。

分類：模糊匹配（正則表示式），結構化解析（html.parser，Beautiful Soup第三方外掛，lxml）。其中Beautiful Soup這個第三方外掛可以使用html.parser或lxml作為解析器，功能較強大。

1.3.1 結構化解析

將整個網頁文件載入為一個DOM（Document Object Model文件物件模型）樹。

1.3.2 Beautiful Soup網頁解析語法

a.根據下載的HTML網頁，建立BeautifulSoup物件。此時即將整個網頁文件字串下載為一個DOM樹。

b.根據DOM樹進行節點的搜尋，對應的方法有find_all(搜尋出所有滿足要求的節點)和find(搜尋出第一個滿足要求的節點)，這兩種方法的引數設定相同，分別為name，attrs，string，分別對應為名稱、屬性、文字，並依據這三種資訊進行搜尋。

c.在獲取節點後，我們可以對節點的名稱、屬性、文字等進行解析，訪問節點資訊。

Python進行資料爬取

1.基本的爬蟲架構

1.1 URL管理器

1.2 網頁下載器（爬蟲的核心元件）

1.3 網頁解析器

2.執行流程

Python進行資料爬取

Python網路資料爬取----網路爬蟲基礎（一）

scrapy網頁跳轉後進行資料爬取

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

python：爬蟲爬取資料的處理之Json字串的處理（2）

Python爬蟲實習筆記 | Week4 專案資料爬取與反思

你以為Python爬蟲只能爬取網頁資料嗎？APP也是可以的呢！

Python使用xpath爬取資料返回空列表解決方案積累

Python爬蟲：爬取拉勾網資料分析崗位資料

Python爬蟲入門教程 3-100 美空網資料爬取

Python爬蟲入門教程 15-100 石家莊政民互動資料爬取

python爬蟲東方資料爬取

python使用requests爬取資料（酷狗hot500案例）（講解細緻）

如何進行手機APP的資料爬取？

Python爬蟲之爬取動態頁面資料

美團西安酒店資料爬取（Python）

python嘗試從通聯資料爬取資訊並儲存在mongodb資料庫中

[python爬蟲] BeautifulSoup爬取+CSV儲存貴州農產品資料

Python Selenium + PhantomJS爬取考拉海購商品資料

進行大資料爬取資料，存入Mongodb

Python進行資料爬取

1.基本的爬蟲架構

1.1 URL管理器

1.2 網頁下載器（爬蟲的核心元件）

1.3 網頁解析器

2.執行流程

相關推薦