1. 程式人生 > >05.Python網路爬蟲之三種資料解析方式

05.Python網路爬蟲之三種資料解析方式

一、正則解析

 

二、Xpath解析

-->   測試頁面資料

 1 <html lang="en">
 2 <head>
 3     <meta charset="UTF-8" />
 4     <title>測試bs4</title>
 5 </head>
 6 <body>
 7     <div>
 8         <p>百里守約</p>
 9     </div>
10     <div class
="song"> 11 <p>李清照</p> 12 <p>王安石</p> 13 <p>蘇軾</p> 14 <p>柳宗元</p> 15 <a href="http://www.song.com/" title="趙匡胤" target="_self"> 16 <span>this is span</span> 17 宋朝是最強大的王朝,不是軍隊的強大,而是經濟很強大,國民都很有錢</a> 18
<a href="" class="du">總為浮雲能蔽日,長安不見使人愁</a> 19 <img src="http://www.baidu.com/meinv.jpg" alt="" /> 20 </div> 21 <div class="tang"> 22 <ul> 23 <li><a href="http://www.baidu.com" title="qing">清明時節雨紛紛,路上行人慾斷魂,借問酒家何處有,牧童遙指杏花村</a></li> 24
<li><a href="http://www.163.com" title="qin">秦時明月漢時關,萬里長征人未還,但使龍城飛將在,不教胡馬度陰山</a></li> 25 <li><a href="http://www.126.com" alt="qi">岐王宅裡尋常見,崔九堂前幾度聞,正是江南好風景,落花時節又逢君</a></li> 26 <li><a href="http://www.sina.com" class="du">杜甫</a></li> 27 <li><a href="http://www.dudu.com" class="du">杜牧</a></li> 28 <li><b>杜小月</b></li> 29 <li><i>度蜜月</i></li> 30 <li><a href="http://www.haha.com" id="feng">鳳凰臺上鳳凰遊,鳳去臺空江自流,吳宮花草埋幽徑,晉代衣冠成古丘</a></li> 31 </ul> 32 </div> 33 </body> 34 </html>
測試程式碼