1. 程式人生 > >python爬蟲模塊之HTML解析模塊

python爬蟲模塊之HTML解析模塊

str 修改 ini lxml 轉換 def imp dom對象 list

這個就比較簡單了沒有什麽好強調的,如果返回的json 就是直接按照鍵值取,如果是網頁就是用lxml模塊的html進行xpath解析。

from lxml import html
import json
class GetNodeList():
    def __init__(self):
        self.getdivxpath="//div[@class=‘demo‘]"
    def use_xpath(self,source):
        if len(source):
            root=html.fromstring(source) #html轉換成dom對象
            nodelist=root.xpath(self.getdivxpath)#對dom對象進行xpath解析
            if len(nodelist):
                return nodelist
            return None
            
    def use_json(self, source,keyname):
        if len(source):
            jsonstr=json.loads(source)
            value=jsonstr.get(keyname) #根據具體的鍵值修改
            if len(value):
                return value
            return None

  

python爬蟲模塊之HTML解析模塊