1. 程式人生 > >爬蟲學習筆記(五) Beautiful Soup使用

爬蟲學習筆記(五) Beautiful Soup使用

內容 BE 是否 ini n-n 修改 過濾 性能測試 刪除

上篇博客說了正則表達式,但是正則學起來比較費勁,寫的時候也不好寫,這次說下Beautiful Soup怎麽用,這個模塊是用來解析html的,它操作很簡單,用起來比較方便,比正則學習起來簡單多了。

這是第三方模塊需要安裝

1 2 3 pip install beautifulsoup4 pip install lxml

Beautiful Soup對象

Beautiful將復雜HTML文檔轉換成一個復雜的樹形結構,每個節點都是Python對象,所有對象可以歸納為4種:

Tag