1. 程式人生 > >python爬蟲rp+bs4

python爬蟲rp+bs4

每一個 使用 一個 進行 處理 爬蟲 字符 itl fin

soup = BeautifulSoup(html_doc)

soup 就是BeautifulSoup處理格式化後的字符串,soup.title 得到的是title標簽,soup.p 得到的是文檔中的第一個p標簽,要想得到所有標簽,得用find_all

函數。

find_all 函數返回的是一個序列,可以對它進行循環,依次得到想到的東西.

get_text() 是返回文本,這個對每一個BeautifulSoup處理後的對象得到的標簽都是生效的。你可以試試 print soup.p.get_text()

其實是可以獲得標簽的其他屬性的,比如我要獲得a標簽的href屬性的值,可以使用 print soup.a[‘href‘],類似的其他屬性,比如class也是可以這麽得到的(soup.a[‘class‘])。

特別的,一些特殊的標簽,比如head標簽,是可以通過soup.head 得到,其實前面也已經說了。

python爬蟲rp+bs4