python爬蟲入門（三）XPATH和BeautifulSoup4

阿新 • • 發佈：2018-12-31

XML和XPATH

用正則處理HTML文件很麻煩，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。

XML 指可擴充套件標記語言（EXtensible Markup Language）
XML 是一種標記語言，很類似 HTML
XML 的設計宗旨是傳輸資料，而非顯示資料
XML 的標籤需要我們自行定義。
XML 被設計為具有自我描述性。
XML 是 W3C 的推薦標準

<?xml version="1.0" encoding="utf-8"?>

<bookstore> 

  < 
book category="cooking"> 
    <title lang="en">Everyday Italian</title>  
    <author>Giada De Laurentiis</author>  
    <year>2005</year>  
    <price>30.00</price> 
  </book>  

  <book category="children"> 
    <title lang="en">Harry Potter</ 
title>  
    <author>J K. Rowling</author>  
    <year>2005</year>  
    <price>29.99</price> 
  </book>  

  <book category="web"> 
    <title lang="en">XQuery Kick Start</title>  
    <author>James McGovern</author>  
    < 
author>Per Bothner</author>  
    <author>Kurt Cagle</author>  
    <author>James Linn</author>  
    <author>Vaidyanathan Nagarajan</author>  
    <year>2003</year>  
    <price>49.99</price> 
  </book> 

  <book category="web" cover="paperback"> 
    <title lang="en">Learning XML</title>  
    <author>Erik T. Ray</author>  
    <year>2003</year>  
    <price>39.95</price> 
  </book> 

</bookstore>

XML例項

XML和HTML區別

HTML DOM 模型示例

HTML DOM 定義了訪問和操作 HTML 文件的標準方法，以樹結構方式表達 HTML 文件

XPATH

XPath (XML Path Language) 是一門在 XML 文件中查詢資訊的語言，可用來在 XML 文件中對元素和屬性進行遍歷。

chrome外掛XPATH HelPer

Firefox外掛XPATH Checker

XPATH語法

最常用的路徑表示式：

謂語

謂語用來查詢某個特定的節點或者包含某個指定的值的節點，被嵌在方括號中。

在下面的表格中，我們列出了帶有謂語的一些路徑表示式，以及表示式的結果：

選取位置節點

選取若干路勁

LXML庫

安裝：pip install lxml

lxml 是一個HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 資料。

lxml和正則一樣，也是用 C 實現的，是一款高效能的 Python HTML/XML 解析器，可以利用XPath語法，來快速的定位特定元素以及節點資訊。

簡單使用方法

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from lxml import etree

text = '''
    <div>
        <li>11</li>
        <li>22</li>
        <li>33</li>
        <li>44</li>
    </div>
'''

#利用etree.HTML，將字串解析為HTML文件
html = etree.HTML(text)

# 按字串序列化HTML文件
result = etree.tostring(html)

print(result)

結果：

爬取美女吧圖片

1.先找到每個帖子列表的url集合

2.再找到每個帖子裡面的每個圖片的的完整url連結

3.要用到 lxml 模組去解析html

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib
import urllib2
from lxml import etree

def loadPage(url):
    """
        作用：根據url傳送請求，獲取伺服器響應檔案
        url: 需要爬取的url地址
    """
    request = urllib2.Request(url)
    html = urllib2.urlopen(request).read()
    # 解析HTML文件為HTML DOM模型
    content = etree.HTML(html)
    # 返回所有匹配成功的列表集合
    link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')
    for link in link_list:
        fulllink = "http://tieba.baidu.com" + link
        # 組合為每個帖子的連結
        #print link
        loadImage(fulllink)

# 取出每個帖子裡的每個圖片連線
def loadImage(link):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
    request = urllib2.Request(link, headers = headers)
    html = urllib2.urlopen(request).read()
    # 解析
    content = etree.HTML(html)
    # 取出帖子裡每層層主傳送的圖片連線集合
    link_list = content.xpath('//img[@class="BDE_Image"]/@src')
    # 取出每個圖片的連線
    for link in link_list:
        # print link
        writeImage(link)

def writeImage(link):
    """
        作用：將html內容寫入到本地
        link：圖片連線
    """
    #print "正在儲存 " + filename
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
    # 檔案寫入
    request = urllib2.Request(link, headers = headers)
    # 圖片原始資料
    image = urllib2.urlopen(request).read()
    # 取出連線後10位做為檔名
    filename = link[-10:]
    # 寫入到本地磁碟檔案內
    with open(filename, "wb") as f:
        f.write(image)
    print "已經成功下載 "+ filename

def tiebaSpider(url, beginPage, endPage):
    """
        作用：貼吧爬蟲排程器，負責組合處理每個頁面的url
        url : 貼吧url的前部分
        beginPage : 起始頁
        endPage : 結束頁
    """
    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50
        #filename = "第" + str(page) + "頁.html"
        fullurl = url + "&pn=" + str(pn)
        #print fullurl
        loadPage(fullurl)
        #print html

        print "謝謝使用"

if __name__ == "__main__":
    kw = raw_input("請輸入需要爬取的貼吧名:")
    beginPage = int(raw_input("請輸入起始頁："))
    endPage = int(raw_input("請輸入結束頁："))

    url = "http://tieba.baidu.com/f?"
    key = urllib.urlencode({"kw": kw})
    fullurl = url + key
    tiebaSpider(fullurl, beginPage, endPage)

4.爬取的圖片全部儲存到了電腦裡面

CSS選擇器：BeautifulSoup4

和 lxml 一樣，Beautiful Soup 也是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 資料。

lxml 只會區域性遍歷，而Beautiful Soup 是基於HTML DOM的，會載入整個文件，解析整個DOM樹，因此時間和記憶體開銷都會大很多，所以效能要低於lxml。

BeautifulSoup 用來解析 HTML 比較簡單，API非常人性化，支援CSS選擇器、Python標準庫中的HTML解析器，也支援 lxml 的 XML解析器。

Beautiful Soup 3 目前已經停止開發，推薦現在的專案使用Beautiful Soup 4。使用 pip 安裝即可：pip install beautifulsoup4

使用Beautifulsoup4爬取騰訊招聘職位資訊

from bs4 import BeautifulSoup
import urllib2
import urllib
import json    # 使用了json格式儲存

def tencent():
    url = 'http://hr.tencent.com/'
    request = urllib2.Request(url + 'position.php?&start=10#a')
    response =urllib2.urlopen(request)
    resHtml = response.read()

    output =open('tencent.json','w')

    html = BeautifulSoup(resHtml,'lxml')

# 建立CSS選擇器
    result = html.select('tr[class="even"]')
    result2 = html.select('tr[class="odd"]')
    result += result2

    items = []
    for site in result:
        item = {}

        name = site.select('td a')[0].get_text()
        detailLink = site.select('td a')[0].attrs['href']
        catalog = site.select('td')[1].get_text()
        recruitNumber = site.select('td')[2].get_text()
        workLocation = site.select('td')[3].get_text()
        publishTime = site.select('td')[4].get_text()

        item['name'] = name
        item['detailLink'] = url + detailLink
        item['catalog'] = catalog
        item['recruitNumber'] = recruitNumber
        item['publishTime'] = publishTime

        items.append(item)

    # 禁用ascii編碼，按utf-8編碼
    line = json.dumps(items,ensure_ascii=False)

    output.write(line.encode('utf-8'))
    output.close()

if __name__ == "__main__":
   tencent()

JSON和JSONPath

JSON(JavaScript Object Notation) 是一種輕量級的資料交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行資料互動的場景，比如網站前臺與後臺之間的資料互動。

JsonPath 是一種資訊抽取類庫，是從JSON文件中抽取指定資訊的工具，提供多種語言實現版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 對於 JSON 來說，相當於 XPATH 對於 XML。

JsonPath與XPath語法對比：

Json結構清晰，可讀性高，複雜度低，非常容易匹配，下表中對應了XPath的用法。

利用JSONPath爬取拉勾網上所有的城市

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2
# json解析庫，對應到lxml
import json
# json的解析語法，對應到xpath
import jsonpath

url = "http://www.lagou.com/lbs/getAllCitySearchLabels.json"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
request = urllib2.Request(url, headers = headers)

response = urllib2.urlopen(request)
#  取出json檔案裡的內容，返回的格式是字串
html =  response.read()

# 把json形式的字串轉換成python形式的Unicode字串
unicodestr = json.loads(html)

# Python形式的列表
city_list = jsonpath.jsonpath(unicodestr, "$..name")

#for item in city_list:
#    print item

# dumps()預設中文為ascii編碼格式，ensure_ascii預設為Ture
# 禁用ascii編碼格式，返回的Unicode字串，方便使用
array = json.dumps(city_list, ensure_ascii=False)
#json.dumps(city_list)
#array = json.dumps(city_list)

with open("lagoucity.json", "w") as f:
    f.write(array.encode("utf-8"))

結果：

糗事百科爬取

利用XPATH的模糊查詢
獲取每個帖子裡的內容
儲存到 json 檔案內

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2
import json
from lxml import etree

url = "http://www.qiushibaike.com/8hr/page/2/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
request = urllib2.Request(url, headers = headers)

html = urllib2.urlopen(request).read()
# 響應返回的是字串，解析為HTML DOM模式 text = etree.HTML(html)

text = etree.HTML(html)
# 返回所有段子的結點位置，contains()模糊查詢方法，第一個引數是要匹配的標籤，第二個引數是標籤名部分內容
node_list = text.xpath('//div[contains(@id, "qiushi_tag")]')

items ={}
for node in node_list:
    # xpath返回的列表，這個列表就這一個引數，用索引方式取出來，使用者名稱
    username = node.xpath('./div/a/@title')[0]
    # 取出標籤下的內容,段子內容
    content = node.xpath('.//div[@class="content"]/span')[0].text
    # 取出標籤裡包含的內容，點贊
    zan = node.xpath('.//i')[0].text
    # 評論
    comments = node.xpath('.//i')[1].text

    items = {
        "username" : username,
        "content" : content,
        "zan" : zan,
        "comments" : comments
    }

    with open("qiushi.json", "a") as f:
        f.write(json.dumps(items, ensure_ascii=False).encode("utf-8") + "\n")

python爬蟲入門（三）XPATH和BeautifulSoup4

XML和XPATH 用正則處理HTML文件很麻煩，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。 XML 指可擴充套件標記語言（EXtensible Markup Language） XML 是一種標記語言，很類似 HTML XML 的設計宗旨是

python爬蟲入門（二）Opener和Requests

Handler和Opener Handler處理器和自定義Opener opener是urllib2.OpenerDirector的例項，我們之前一直在使用urlopen，它是一個特殊的opener(也就是我們構建好的)。但是urlopen()方法不支援代理、cookie等其他的HTTP/GTTPS高

【Python】打響2019年第三炮-Python爬蟲入門（三）

打響2019年第三炮-Python爬蟲入門今晚喝了點茶，也就是剛剛，喝茶過程中大腦中溢位一個想法，茶中有茶葉，也有茶水，在茶水入口的一瞬間我不能直接喝進去，因為直接喝進去會帶著茶葉喝進去會很難受。這可能是一句廢話。本章主要解決第一炮、第二炮遺留下來的問題，該如何

Python爬蟲入門（一）寫在前面

一、前言你是不是在為想收集資料而不知道如何收集而著急？你是不是在為想學習爬蟲而找不到一個專門為小白寫的教程而煩惱？ Bingo! 你沒有看錯，這就是專門面向小白學習爬蟲而寫的！我會採用例項的方式，把每個部分都跟實際的例子結合起來幫助小夥伴兒們理解。最後再寫幾個實戰的

python 快速入門（三）

九. 類 1.建立類 class Dog(): """一次模擬小狗的簡單嘗試""" def __init__(self, name, age): """初始化屬性name和age""" self.name = name

Python爬蟲開發（三）：資料儲存以及多執行緒

0×00 介紹本文我們就兩個方面來討論如何改進我們的爬蟲：資料儲存和多執行緒，當然我承認這是為我們以後要討論的一些東西做鋪墊。本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論

python 爬蟲例項（三）

問題描述爬取部落格園的首頁資料URL【https://home.cnblogs.com/blog/page/1/】，之後寫到自己的Excel裡面環境： OS：Window10 python：3.7 程式碼 import requests import os

python爬蟲入門（五）Selenium模擬使用者操作

爬蟲(Spider)，反爬蟲(Anti-Spider)，反反爬蟲(Anti-Anti-Spider) 之間恢巨集壯闊的鬥爭... 小莫想要某站上所有的電影，寫了標準的爬蟲(基於HttpClient庫)，不斷地遍歷某站的電影列表頁面，根據 Html 分析電影名字存進自己的資料庫。這個站

python爬蟲入門（四）利用多執行緒爬蟲

#!/usr/bin/env python # -*- coding:utf-8 -*- # 使用了執行緒庫 import threading # 佇列 from Queue import Queue # 解析庫 from lxml import etree # 請求處理 impor

Python爬蟲入門（一）

Python爬蟲入門（一） 1.適配環境 1.1.ubuntu入門 1.2 vim入門 2.HTML 2.1連結標籤 2.2 table標籤 2.3 DOM屬性 2.4 CSS

【Python】打響2019年第二炮-Python爬蟲入門（二）

打響2019第二炮-Python爬蟲入門在2019年第一炮文章中獲取到了京東商城某一臺電腦的列表資訊，並儲存到CSV能夠更方便的檢視如下：本章內容主要解決，如何多頁獲取手機&電腦資料，獲取評價以及好評率等資訊，實現效果如下：如何獲取評論資訊？

【Python】打響2019年第一炮-Python爬蟲入門（一）

打響2019第一炮-Python爬蟲入門 2018年已經成為過去，還記得在2018年新年寫過一篇【Shell程式設計】打響2018第一炮-shell程式設計之for迴圈語句，那在此時此刻，也是寫一篇關於程式設計方面，不過要比18年的稍微高階點。 So，mark一下，也希望對

Python爬蟲手記（三）：全球行情實時監控

問題描述：以重要經濟引數為例，進一步鞏固爬蟲和資料庫使用技巧：完成對國際現貨與期貨石油價格、美元人民幣匯率、美元指數等資料的實時監控，取樣頻率為一小時一次，相關資料的取樣頁面需要自己搜尋。看到問題，心裡大概就有一個底了：首先找到一個網頁能顯示原油價格，找到其url，然後

Python爬蟲入門（5）：URLError異常處理

大家好，本節在這裡主要說的是URLError還有HTTPError，以及對它們的一些處理。 1.URLError 首先解釋下URLError可能產生的原因：網路無連線，即本機無法上網連線不到特定的伺服器伺服器不存在在程式碼中，我們需要用

python 爬蟲實戰（三）使用pyspider爬取虎嗅新聞

#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2018-03-02 23:14:26 # Project: huxiu fr

Python爬蟲入門（1）：綜述

大家好哈，最近博主在學習Python，學習期間也遇到一些問題，獲得了一些經驗，在此將自己的學習系統地整理下來，如果大家有興趣學習爬蟲的話，可以將這些文章作為參考，也歡迎大家一共分享學習經驗。 Python版本:2.7，Python 3請另尋其他博文。首先爬蟲是什麼？

Python學習之路（四）爬蟲（三）HTTP和HTTPS

CP 發出 net 長度現在消息頭理論 LV 模型 HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文本傳輸協議）：是一種發布和接收 HTML頁面的方法。 HTTPS（Hypertext Transfer Protoc

python資料分析pandas包入門學習（三）彙總和統計描述

本文參考《利用Python進行資料分析》的第五章 pandas入門 pandas擁有一組常用的數學和統計方法。它們大部分屬於約簡和彙總統計，用於從Series中提取單個值（如sum和mean），或從DataFrame的行或列中提取一個Series。跟對應的Numpy陣列

python爬蟲（三）xpath與lxml

XPath XPath是一種在xml中查詢資訊的語言，可以用來在xml文件中對元素和屬性進行遍歷。 XPath使用路徑表示式在xml文件中選取節點，這裡注意需要逐級表現要選取節點的父子關係。 XPath符號 nodename 選取此節點的所有子節點 /

python入門（三）判斷語句

邏輯判斷 if lse while python中的常用判斷語句if....elif....else,whileifif的用法： if + 條件判斷：邏輯操作..... 例子：比如讓你輸入一個數字，來判斷這個數字的大小 #如果這個數字大於80 if 90>80:

python爬蟲入門（三）XPATH和BeautifulSoup4

XML和XPATH

LXML庫

爬取美女吧圖片

CSS選擇器：BeautifulSoup4

JSON和JSONPath

JsonPath與XPath語法對比：

利用JSONPath爬取拉勾網上所有的城市

糗事百科爬取

相關推薦