Xpath 和 BeautifulSoup4區別對比

阿新 • • 發佈：2018-11-16

XPath

1. 永遠返回一個列表：有資料的列表或空列表

2. XPath匹配時，下標從 1 開始

3. XPath取值的目標值兩種：
-1. 指定標籤的文字內容（如取文字）
-2. 指定標籤的指定屬性值（如取連結）

XPath取出的字串資料，都是Unicode編碼字串。

4. 如果取值的目標值很多，可以先獲取所有結點列表，再迭代取值：
獲取結點列表

node_list = "//div[@class='f18 mb20']"

for node in node_list:
  item = {}
  item['text'] = " ".join(ode.xpath("./text()"))
  item['a_text'] = node.xpath("./a/text()")[0]
  item['link'] = node.xpath("./a/@href")[0]

html = response.read()
html = response.content

#匯入lxml類庫裡的 etree模組
from lxml import etree
 通過 etree模組的 HTML類 獲取 HTML DOM物件
html_obj = etree.HTML(html)
 html_obj = etree.parse("./baidu.html")
 html = etree.tostring(html_obj)

node_list = html_obj.xpath("//div[@class='f18 mb20']/a/@href")

BeautifulSoup4 的常用匹配方法：

1. find() : 匹配網頁中第一個符合規則的結果，並返回該結果
2. find_all() ：匹配網頁中所有符合規則的結果，並返回結果列表
find() 和 find_all() 語法相同
3. select() ：匹配網頁中所有符合規則的結果，並返回結果列表（使用CSS選擇器用法）

url = "https://hr.tencent.com/position.php?&start=0" += 10


item_list = []
node_list = soup.find_all("tr", {"class" : ["even", "odd"]})

for node in node_list:
    item = {}
    item['position_name'] = node.find_all("td")[0].a.text
    item['position_link'] = node.find_all("td")[0].a.get("href")
    item['position_type'] = node.find_all("td")[1].text
    item['people_number'] = node.find_all("td")[2].text
    item['work_location'] = node.find_all("td")[3].text
    item['publish_times'] = node.find_all("td")[4].text
    item_list.append(item)

Xpath 和bs4使用對比:

import requests
from lxml import etree
from bs4 import BeautifulSoup
url = "https://hr.tencent.com/position.php?&start=10"
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
html = requests.get(url, headers=headers).content

html_obj = etree.HTML(html)
html_obj.xpath("//tr[@class='even']")
html_obj.xpath("//tr[@class='odd']")
html_obj.xpath("//tr[@class='even'] | //tr[@class='odd']")

soup = BeautifulSoup(html, "lxml")
soup.find_all("tr")
# 找出所有的tr
len(soup.find_all("tr"))
# 找出所有指定屬性的 tr
len(soup.find_all("tr", {"class" : "even"}))
len(soup.find_all("tr", {"class" : "odd"}))
len(soup.find_all("tr", {"class" : ["even", "odd"]}))

# 找出所有指定屬性的 tr 和tmm，屬性相同
len(soup.find_all(["tr", "tmm"], {"class" : ["even", "odd"]}))
# 根據屬性查詢所有指定的標籤
len(soup.find_all(attrs={"class" : ["even", "odd"]}))
# 根據class屬性超找所有指定的標籤
len(soup.find_all(class_ = ["even", "odd"]))

# 找出所有class為 even 和 odd 的標籤
len(soup.select(".even"))
len(soup.select(".even, .odd"))
len(soup.select("[class='even'], [class='odd']"))

bs4提取文字和屬性值:

import requests
from bs4 import BeautifulSoup
url = "https://hr.tencent.com/position.php?&start=10"
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
html = requests.get(url, headers=headers).content
soup = BeautifulSoup(html, "lxml")

node_list = soup.find_all("tr", {"class" : ["even", "odd"]})

node_list[0].td
node_list[0].find_all("td")
node_list[0].select("td")

node_list[0].select("td")[0]
node_list[0].select("td")[0].a

node_list[0].select("td")[0].a.string
node_list[0].select("td")[0].a.text
node_list[0].select("td")[0].a.get_text()

node_list[0].select("td")[0].a.get("href")
node_list[0].select("td")[0].a.attrs
node_list[0].select("td")[0].a.attrs["href"]

Xpath 和 BeautifulSoup4區別對比

XPath 1. 永遠返回一個列表：有資料的列表或空列表 2. XPath匹配時，下標從 1 開始 3. XPath取值的目標值兩種： -1. 指定標籤的文字內容（如取文字） -2. 指定標籤的指定屬性值（如取連結） XPath取出的字串資料，都是Unicode編

Spring註解@Resource和@Autowired區別對比

vax javax ava j2ee org 必須 itl 匹配 get @Resource和@Autowired都是做bean的註入時使用，其實@Resource並不是Spring的註解，它的包是javax.annotation.Resource，需要導入，但是Sprin

[spring]@Resource和@Autowired區別對比

策略 not 進行 rollback name factor rop ride action @Resource和@Autowired都是做bean的註入時使用，其實@Resource並不是Spring的註解，它的包是javax.annotation.Resource，需要

python爬蟲入門（三）XPATH和BeautifulSoup4

XML和XPATH 用正則處理HTML文件很麻煩，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。 XML 指可擴充套件標記語言（EXtensible Markup Language） XML 是一種標記語言，很類似 HTML XML 的設計宗旨是

註解@Resource和@Autowired區別對比

拋出異常屬性。 autowire 一起 public clas bsp name屬性最好 @Resource和@Autowired都是做bean的註入時使用，其實@Resource並不是Spring的註解，它的包是javax.annotation.Resource，

Django 對比get和filter區別

get python django filter get只能取出一條數據，如果滿足條件的數據有多條，拋出異常沒有數據，也會拋出異常filter如果有數據，就返回QuerySet(類似於可以遍歷的數組) 如果沒有數據，返回empty(不會拋異常)本文出自 “13261842” 博客，請務必保留此

魔力耳朵和噠噠、hellokid、阿卡索哪個好？區別對比，試聽過的家長來說說

www. water 個性架設 ges won sha size col 現在的家長都是比較註重孩子的英語教育的。學英語主要目的就是為了實現更好的交流，所以更深層次的提高孩子的口語能力是很有必要的。目前在線少兒英語機構中，比較出名的幾家有魔力耳朵、噠噠、hellokid以

【邦元英語和大思英語】區別對比哪家更好？

　　最近在網上查詢合適的少兒英語培訓機構就發現現在的培訓機構真是太多了，看都看不過來，為了能夠給孩子選擇一個合適的少兒英語，我就發朋友圈求助朋友了。一個朋友向我介紹了邦元英語，而另一個朋友說大思英語也是不錯的。那麼邦元英語和大思英語區別對比哪家更好。我去查了一下這兩家的資料。　　邦元英語是在廣州的

用來評估模型好壞的方差和偏差的概念及區別對比

一、基本概念上的對比解釋 1、偏差Bias：描述的是預測值（估計值）的期望與真實值之間的差距。偏差越大，越偏離真實資料，物件是單個模型。 2、方差Variance：描述的是預測值的變化範圍，離散程度，也就是離其期望值的距離。方差越大，資料的分佈越分散，物件是多個模型在忽略噪聲的

單例模式和靜態類的區別對比

什麼是單例模式單例模式指的是在應用***整個生命週期內只能存在一個例項。***單例模式是一種被廣泛使用的設計模式。他有很多好處，能夠避免例項物件的重複建立，減少建立例項的系統開銷，節省記憶體。單例模式和靜態類的區別首先理解一下什麼是靜態類，靜態類就

【膜摸摸】網紅步進電機驅動A4988和DRV8825的對比和區別及選用實踐 for 四軸CNC雕刻/3D列印

【轉自】http://blog.csdn.net/ling3ye/article/details/47001251 用Arduino驅A4988驅動電機對於DIY3D印表機：材料清單BOM: Arduino uno *1A4988

Android執行環境Dalvik模式和ART模式的區別對比

Android系統是以Linux系統為底層構建的，開源的Android系統需要配置到不同硬體配置的裝置上，為了降低應用的開發難度，在Linux底層之上構築了一個名為"Dalvik"的虛擬機器，名為虛擬機器，實際是一種應用編譯模式，Android4.4開始引入的ART模式是一種

python中 xpath中的//和/的區別

//表示文件裡的任何位置的節點/表示文件里根下的那些節點例如： //a//b/@abc 指的是文件中所有a元素的屬性為abc的後代b元素（包括子代元素）（多級）；//a/b/@abc 指的是文件中所有a元素的屬性為abc的子代b元素（一級）；/a/b/@abc 指的是根節點b元素的屬性為abc的子代b元素（

執行緒的同步控制synchronized和lock的對比和區別

我們在面試的時候，時常被問到如何保證執行緒同步已經對共享資源的多執行緒程式設計。我們當然用同步程式碼塊，同步方法，又或者是用java提供的鎖機制來達到對共享資源變數的同步控制。那麼我們什麼時候用synchronized,什麼時候用lock，以及他們的區別是什麼呢；首先來

固態硬碟（SSD）和機械硬碟(HDD)區別對比介紹

一、演變過程從計算機誕生的那一刻起，儲存裝置就扮演著不可或缺的角色。最初的硬碟如著名的IBM RAMAC都是體積巨大並且十分沉重的大傢伙，直到1980年前後，IBM推出了薄膜磁頭技術，才讓我們徹

GET和POST區別總結

get 、post 、區別一、GET和POST區別的普遍看法：HTTP 定義了與服務器交互的不同方法，最常用的有4種，Get、Post、Put、Delete,如果我換一下順序就好記了，Put（增）,Delete（刪），Post（改）,Get（查），即增刪改查，下面簡單敘述一下：1）Get，它用於獲取信息，註

JS中const、var和let區別

方法 pre 命令 con 使用它的 comm 作用影響在JavaScript中有三種聲明變量的方式：var、let、const。 1.const 聲明創建一個只讀的常量。這不意味著常量指向的值不可變，而是變量標識符的值只能賦值一次，必須初始化。 const b

equals 和== 的區別

strong 都是什麽 brush -s 新的 equals方法實現繼承首先看比較的對象是否為字符串，若為（String）字符串用equals 比較，比較的是他們的值。相同返回 true ,不相同返回false. package one; p

mybatis中的#和$的區別

背景插入 trac sql註入 -m .com article 參數 -s 1. #將傳入的數據都當成一個字符串，會對自動傳入的數據加一個雙引號。如：order by #user_id#，如果傳入的值是111,那麽解析成sql時的值為order by "111", 如果傳

hibernate中hql語句中list和iterate區別

每次 hibernate 寫入所有讀取條件 iter 查詢 hql 1.使用list()方法獲取查詢結果，每次發出一條語句，獲取全部數據。2.使用iterate()方法獲取查詢結果，先發出一條SQL語句用來查詢滿足條件數據的id，然後依次按照這些id查詢記錄，也就是要

Xpath 和 BeautifulSoup4區別對比

XPath

BeautifulSoup4 的常用匹配方法：

相關推薦