1. 程式人生 > >HTML提取所有div標籤下的所有及下子標籤的內容

HTML提取所有div標籤下的所有及下子標籤的內容

示例程式碼如下:

<div>
<p>123154872313</p>
<p>test
<em>http://baidu.com</em>
</p>
</div>

p標籤下的內容一般是網頁文字內容,文字中的會再插入一些標籤,最難的應該是em標籤(這類標籤一般提取不出來),所以在使用etree將其換成html格式前,先用replace將em替換成其他的一些標籤;

提取div標籤下的所有內容的程式碼如下:

html.xpath('//div//p//text()')  # 這樣就得到了所有的內容

在提取出目標內容後,在用一個for迴圈將其拼起來就ok了