1. 程式人生 > >Python開發簡單爬蟲(二)---爬取百度百科頁面數據

Python開發簡單爬蟲(二)---爬取百度百科頁面數據

class 實例 實例代碼 編碼 mat 分享 aik logs title

一、開發爬蟲的步驟

技術分享

1.確定目標抓取策略:

打開目標頁面,通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。

①先看url的格式, F12觀察一下鏈接的形式;
② 再看目標文本信息的標簽格式, 比如文本數據為div class="xxx",
③ 容易看到編碼為utf-8


2.分析目標
目標: 百度百科python詞條
入口頁: http://baike.baidu.com/item/Python
詞條頁面url格式:/item/****
數據格式:
標題: <dd class="lemmaWgt-lemmaTitle-title"><h1>****</h1></dd>

簡介: <div class = "lemma-summary">****</div>
頁面編碼: utf-8

3.實例代碼

爬取百度百科Python詞條以及相關的1000個頁面數據

Python開發簡單爬蟲(二)---爬取百度百科頁面數據