1. 程式人生 > >2.4 通用的網頁信息結構化信息提取的方法

2.4 通用的網頁信息結構化信息提取的方法

ges 標題 分析 控制 我們 beautiful html 官方文檔 txt

我們在抓網頁的時候,希望獲得的是網頁中的有效信息。事實上,直接抓取下來的內容是網頁全部的HTML代碼,代碼中有很多標簽、格式控制等等無效的信息。這一節我們就來講解對於任意一個網頁,我們怎麽提取出網頁中的有效信息,並且結構化存儲。

先亮代碼:https://github.com/1049451037/universal_webpage_extraction

這個工程使用起來很簡單,把要提取的鏈接放到pool.txt裏,然後運行main.py,就可以把pool.txt裏的頁面都抓取下來並且結構化存儲。結果存在output文件夾裏。

每個網頁都保存了鏈接、標題、文本、圖片鏈接、鏈接到的網頁。效果如下:

技術分享

下面來講解一下原理,實際上很簡單,使用的是beautifulsoup包。

beautifulsoup是Python的一個拓展庫,可以非常方便的實現HTML網頁的分析。下面是它的官方文檔網址,裏面講的非常清楚:

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

實現起來特別容易,核心代碼只有幾行,就可以很容易的提取出想要的東西:

技術分享

想要更多地了解和使用beautifulsoup,建議學習官方文檔~

2.4 通用的網頁信息結構化信息提取的方法