1. 程式人生 > >python爬蟲之BeautifulSoup解析網頁

python爬蟲之BeautifulSoup解析網頁

BeautifulSoup是一個很簡單又好用的庫,不過解析速度相對比較慢,使用如下:

1,安裝

pip install bs4  (被加到了bs4中) #python3用pip3 install bs4 ,如果有許可權問題,可以試試,pip install bs4  --user

2,導包

from bs4 import BeautifulSoup

3,使用程式碼

from bs4 import BeautifulSoup

html = ‘

<li> aaa</li>

<li class = "name">bbb</li>

soup = BeautifulSoup(html,features = "lxml")

li = soup.findAll('li',class_='name')        #找到所有class為name的li標籤

for i in li:

    print(i.attrs['class'])         #輸出name,同理可以得到所有的屬性內容

    print(i.string)          #輸出bbb,可以得到文字內容

最簡單的使用就是這樣。