python學習第八十五天：網絡爬蟲之數據解析方式

阿新 • • 發佈：2018-09-27

數據解析模式 end 解析多次 pre 綜合練習直接 list

Python網絡爬蟲之數據解析方式

正則解析

單字符：
        . : 除換行以外所有字符
        [] ：[aoe] [a-w] 匹配集合中任意一個字符
        \d ：數字  [0-9]
        \D : 非數字
        \w ：數字、字母、下劃線、中文
        \W : 非\w
        \s ：所有的空白字符包,括空格、制表符、換頁符等等。等價於 [ \f\n\r\t\v]。
        \S : 非空白
    數量修飾：
        * : 任意多次  >=0
        + : 至少1次   >=1
        ? : 可有可無  0次或者1次
        {m} ：固定m次 hello{3,}
        {m,} ：至少m次
        {m,n} ：m-n次
    邊界：
        $ : 以某某結尾 
        ^ : 以某某開頭
    分組：
        (ab)  
    貪婪模式 .*
    非貪婪（惰性）模式 .*?

    re.I : 忽略大小寫
    re.M ：多行匹配
    re.S ：單行匹配

    re.sub(正則表達式, 替換內容, 字符串)

xpath解析

from lxml import etree
    兩種方式使用：將html文檔變成一個對象，然後調用對象的方法去查找指定的節點
    （1）本地文件
        tree = etree.parse(文件名)
    （2）網絡文件
        tree = etree.HTML(網頁字符串)

    ret = tree.xpath(路徑表達式)
    【註】ret是一個列表
　　參考文獻：http://www.w3school.com.cn/xpath/xpath_intro.asp

　　- 安裝xpath插件：可以在插件中直接執行xpath表達式

　　　　1.將xpath插件拖動到谷歌瀏覽器拓展程序（更多工具）中，安裝成功

　　　　2.啟動和關閉插件 ctrl + shift + x

- 常用表達式：
　　/bookstore/book           選取根節點bookstore下面所有直接子節點book
    //book                    選取所有book
    /bookstore//book          查找bookstore下面所有的book
    /bookstore/book[1]        bookstore裏面的第一個book
    /bookstore/book[last()]   bookstore裏面的最後一個book
    /bookstore/book[position()<3]  前兩個book
    //title[@lang]            所有的帶有lang屬性的title節點
    //title[@lang=‘eng‘]      所有的lang屬性值為eng的title節點
    屬性定位
            //li[@id="hua"]
            //div[@class="song"]
    層級定位&索引
            //div[@id="head"]/div/div[2]/a[@class="toindex"]
            【註】索引從1開始
            //div[@id="head"]//a[@class="toindex"]
            【註】雙斜杠代表下面所有的a節點，不管位置
     邏輯運算
            //input[@class="s_ipt" and @name="wd"]
     模糊匹配 ：
          contains
                //input[contains(@class, "s_i")]
                所有的input，有class屬性，並且屬性中帶有s_i的節點
                //input[contains(text(), "愛")]
            starts-with
                //input[starts-with(@class, "s")]
                所有的input，有class屬性，並且屬性以s開頭
      取文本
            //div[@id="u1"]/a[5]/text()  獲取節點內容
            //div[@id="u1"]//text()      獲取節點裏面不帶標簽的所有內容
      取屬性
            //div[@id="u1"]/a[5]/@href


- 代碼中使用xpath：

　　　　1.導包：from lxml import etree

　　　　2.將html文檔或者xml文檔轉換成一個etree對象，然後調用對象中的方法查找指定的節點

　　　　　　2.1 本地文件：tree = etree.parse(文件名)

　　　　　　2.2 網絡數據：tree = etree.HTML(網頁內容字符串)

　　- 綜合練習：

　　　　需求：獲取好段子中段子的內容和作者   http://www.haoduanzi.com

from lxml import etree
import requests

url=‘http://www.haoduanzi.com/category-10_2.html‘
headers = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36‘,
    }
url_content=requests.get(url,headers=headers).text
#使用xpath對url_conten進行解析
#使用xpath解析從網絡上獲取的數據
tree=etree.HTML(url_content)
#解析獲取當頁所有段子的標題
title_list=tree.xpath(‘//div[@class="log cate10 auth1"]/h3/a/text()‘)

ele_div_list=tree.xpath(‘//div[@class="log cate10 auth1"]‘)

text_list=[] #最終會存儲12個段子的文本內容
for ele in ele_div_list:
    #段子的文本內容（是存放在list列表中）
    text_list=ele.xpath(‘./div[@class="cont"]//text()‘)
    #list列表中的文本內容全部提取到一個字符串中
    text_str=str(text_list)
    #字符串形式的文本內容防止到all_text列表中
    text_list.append(text_str)
print(title_list)
print(text_list)

python學習第八十五天：網絡爬蟲之數據解析方式

數據解析模式 end 解析多次 pre 綜合練習直接 list Python網絡爬蟲之數據解析方式正則解析單字符： . : 除換行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一個字符 \d ：數字

python學習第七十五天：多表查詢

object rim pytho 連表查詢 mit str () tle detail 創建模型 class Book(models.Model): nid = models.AutoField(primary_key=True) name = models

python學習第九十五天：linux基礎學習

寫入 tool 時區 and 打開新版查看 nal mkdir 裝系統 net.ifnames=0 biosdevname=0 修改系統網絡配置 vi /etc/sysconfig/network-scripts/ifcfg-ens33 # 修改ip地址的文件

python學習第七十一天：django2與1的差別和視圖

端口 ddd put res 127.0.0.1 正則 pass 什麽服務 django1與2路由的差別在django1中的url在django2中為re_path django2中新增了path 1.from django.urls import path

python學習第七十四天：單表查詢

浮點型 contain creat 第一條 nvi int 長度 positive 位長單表查詢創建表創建模型在models.py中定義類，一個類就是一張表 from django.db import models class Book(models.Model

python學習第九十六天：linux基礎

systemctl status sshd 檢視sshss -lnupt ss -tnlu 檢視監聽的埠 t tcp u udp n 顯示埠 grep 過濾grep 'root' passwd 查詢帶有root的行grep 'root' passwd /etc/passwd 查詢多個檔案中的grep -e

python學習第三十一天函數的嵌套及函數的作用域

pri python zha 一個變量的作用域 ng2 oba nbsp 作用 python函數的嵌套是指在函數裏面嵌套另外一個函數，可以嵌套更多，函數一旦套用了另外一個函數，他的作用域就已經形成，可以通過global關鍵詞改變變量的作用域，下面詳細說明函數的嵌套及函數的

python學習第四十四天斐波那契數列和yield關鍵詞使用

數學開始 pri .cn 文章 int 斐波那契數 a + b 第一個斐波那契數列是數學中的常見的算法，第一個第二個不算，從第三個開始，每個數的都是前面兩個數的和，使用yield關鍵詞把生成的數列保存起來，調用的時候再調用,下面舉例說明一下 def fab(ma

python學習第四十六天dir( )函數用法

ont struct oca str light __name__ content count roc dir( )函數有點像目錄的意思，但是他是包含由模塊定義的名稱的字符串的排序列表。這個列表包含模塊中定義的所有模塊，變量和函數的名稱。列舉其用法 import

python學習第j十一天

1. 第一類物件, 函式名的使用函式名就是變數名, 函式名儲存的是函式的記憶體地址變數的命名規範: 1. 由數字, 字母, 下劃線組成 2. 不能是數字開頭, 更不能是純數字 3. 不能用關鍵字

【跟我學oracle18c】第四十五天：2 Day DBA：10.2 Diagnosing Performance Problems Using ADDM

10.2 Diagnosing Performance Problems Using ADDM At times, database performance problems arise that require your diagnosis and correction. Usual

“全棧2019”Java第八十五章：實現接口中的嵌套接口

out 套接口 href dea info 進步 ref 初級分鐘難度初級學習時間 10分鐘適合人群零基礎開發語言 Java 開發環境 JDK v11 IntelliJ IDEA v2018.3 文章原文鏈接 “全棧2019”Java第八十五章：實現接口中

“全棧2019”Java第八十五章：實現介面中的巢狀介面

難度初級學習時間 10分鐘適合人群零基礎開發語言 Java 開發環境 JDK v11 IntelliJ IDEA v2018.3 文章原文連結 “全棧2019”Java第八十五章：實現介面中的巢狀介面下一章

Python之路（十五）：網絡編程（上）

核心 accept 廣泛文件系統類型操作兩種學習一起 socket編程　　本篇介紹socket是基於什麽來的，為什麽要知道互聯網底層實現通信的原理一、客戶端/服務端架構即C/S架構，包括 1.硬件C/S架構(打印機) 2.軟件C/S架構(web服務

Python學習筆記（十二）：lambda表示式與函數語言程式設計

以Mark Lutz著的《Python學習手冊》為教程，每天花1個小時左右時間學習，爭取兩週完成。 --- 寫在前面的話 2013-7-22 21:00 學習筆記 1，lambda的一般形式是關鍵字lambda後面跟一個或多個引數，緊跟一個冒號，以後是一個表示

python學習第六十八天：數據庫相關操作

order 運行反向 all djang 建表 ima nag publish ORM簡介 orm能幹的事： 1 創建表，修改表，刪除表 2 插入數據 3 修改數據 4 刪除數據不能幹：不能創建數據庫類名-----》表對象------》一條數據屬性

python學習第九十八天：認證組件權限組件與頻率組件

fir setting fun python學習 .data onetoone 超級 .com params 認證組件認證簡介只有認證通過的用戶才能訪問指定的url地址，比如：查詢課程信息，需要登錄之後才能查看，沒有登錄，就不能查看，這時候需要用到認證組件組件的使用

python學習第七十天：路由

瀏覽器需要寫法 rev app mes eve 導入 views （69天為作業講解）路由無名分組 url(r‘^test/([0-9]{4})/([0-9]{2})‘, views.test) url為一個函數，第一個參數寫正則表達式路由從上往下匹配，一旦匹配

python學習第四十八天json模塊與pickle模塊差異

pick list www. 設計進行空間類型語言 pytho 在開發過程中，字符串和python數據類型進行轉換，下面比較python學習第四十八天json模塊與pickle模塊差異。 json 的優點和缺點優點跨語言，體積小缺點只能支持 int

孤荷凌寒自學python第六十五天學習mongoDB的基本操作並進行簡單封裝4

孤荷凌寒自學python第六十五天學習mongoDB的基本操作並進行簡單封裝4 （完整學習過程螢幕記錄視訊地址在文末）今天是學習mongoDB資料庫的第十一天。今天繼續學習mongoDB的簡單操作，並繼續對一些可能反覆經常使用的操作進行簡單的封裝。

python學習第八十五天：網絡爬蟲之數據解析方式

Python網絡爬蟲之數據解析方式

正則解析

xpath解析

相關推薦