python爬蟲系列(3.1-xpath語法的介紹)
一、關於xpath的認識
xpath(XML Path Language)是一門在XML和HTML文件中查詢資訊的語言,可用來在XML和HTML文件中對元素和屬性進行遍歷。
1、選擇節點
2、謂語
謂語是用來找出某個特定的節點或者包括某個指定的值的節點,被巢狀在方括號中
3、萬用字元
類似.在正則中表示任意字元的意思,但是在xpath中是用*表示
4、匹配多路徑
//div/a | //div/img
# 表示獲取div下面的a節點及div下面的img節點
相關推薦
python爬蟲系列(3.1-xpath語法的介紹)
一、關於xpath的認識 xpath(XML Path Language)是一門在XML和HTML文件中查詢資訊的語言,可用來在XML和HTML文件中對元素和屬性進行遍歷。 二、xpath的基本語法 1、選擇節點 2、謂語 謂語是用來找出某個特定的
python爬蟲系列(3.4-使用xpath和lxml爬取伯樂線上)
一、爬取的程式碼 1、網站地址 2、具體實現程式碼 import requests from lxml import etree class JobBole(object): def __init__(self): &
Python爬蟲利器三之Xpath語法與lxml庫的用法
blank color idt tab 一段 並且 .text rst 基本用法 前面我們介紹了 BeautifulSoup 的用法,這個已經是非常強大的庫了,不過還有一些比較流行的解析庫,例如 lxml,使用的是 Xpath 語法,同樣是效率比較高的解析方法。如果大家
python爬蟲系列(3.2-lxml庫的使用)
一、基本介紹 1、lxml 是 一個HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 資料。 2、lxml和正則一樣,也是用 C 實現的,是一款高效能的 Python HTML/XML 解析器,我們可
python爬蟲系列(2.1-requests庫的基本的使用)
一、基本認識 1、傳送一個get請求 import requests if __name__ == "__main__": # 獲取一個get請求 response = requests.get('http://htt
python爬蟲系列(4.1-關於檔案的寫入)
一、關於python中json模組的回顧 1、json.dumps():將python中字典轉換為json字串 2、json.loads():將json字串轉換為python字典 二、使用python中自帶的檔案寫入功能 1、使用前面使用 bs4 爬取獲取貴州農產品爬取的資料
python爬蟲系列(3.8-正則的使用)
一、需要系統的學習正則表示式 二、在python爬蟲中需要掌握的正則有 1、元字元 1..:除了\n以外的任意字元 2.*:出現0到多次 3.?:出現0或者1次 4.+:表示出現1到多次 2、常用的方法 1.compile:表示生成正則表示式參
python爬蟲系列(3.6-css選擇器)
章節是繼上一小節的知識點,只是本人把它拆分了,如果你對css比較熟悉的話,可以直接使用這一章節的選擇器 一、關於select選擇器的使用 1、直接獲取元素節點 print(soup.select('a')) 2、根據類名查詢,比如要查詢class=sister的標籤 print(
python爬蟲系列(3.7-使用 bs4 爬取獲取貴州農產品)
一、爬取資料步驟 1、爬取網站地址 2、實現程式碼 import requests from bs4 import BeautifulSoup class Food(object): def __init__(self): &nb
python爬蟲系列(3.5-Beautiful Soup的使用)
一、使用步驟 1、安裝包 pip3 install beautifulsoup4 2、簡單的使用 html_doc = """ <html> <head> &
$python爬蟲系列(1)——一個簡單的爬蟲實例
name 響應 -s 鏈接 實例 blog itl 匹配 列表 本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。 1. 概述 本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下: 獲取網頁html文本內容; 分析html中圖
$python爬蟲系列(1)——一個簡單的爬蟲例項
本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。 1. 概述 本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下: 獲取網頁html文字內容; 分析html中圖片的html標籤特徵,用正則解析出所有的
Python爬蟲入門——3.1 多程序爬蟲
我們上次爬取了鬥破蒼穹全文小說,並儲存到本地TXT檔案,但是下載速度超級慢(不排除我這垃圾i5電腦的原因),我都玩了一盤王者榮耀,還沒有下載完成。j究其原因是我們只是應用了單程序爬取,所以爬取速度大打折扣。鑑於此我們本節介紹多程序爬蟲。 首先簡單介紹一下多程序。通常我們的計
python爬蟲系列(1):使用python3和正則表示式獲取貓眼電影排行榜資料
簡述 這次打算寫一個爬蟲系列,一邊也想好好總結鞏固學習的知識,一邊做總結筆記,方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊,就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神,期望您能不吝賜教,指正錯誤,如果您是小白,咋們可以一同
python爬蟲系列(1.3-關於cookie的認識)
一、關於http無狀態的認識 在網站中,http請求是無狀態的,也就是說第一次與伺服器連線後並且接收到伺服器的返回值的時候,就斷開連線,等第二次連線的時候,又是一個新的連線,伺服器並不知道之前連線過。cookie的出現就是解決這個問題.主要原理: 使用者第一次登陸後,伺服器給瀏覽器返回coo
python爬蟲系列(1.1-urllib中常用方法的介紹)
一、關於urllib中常用方法的介紹 1、urlopen網路請求 urlopen方法是網路請求的方法,預設是get請求,如果傳遞了data是post請求 from urllib import request
python爬蟲系列(1.1-urllib模組常用方法的介紹)
一、關於urllib中常用方法的介紹 1、urlopen網路請求 urlopen方法是網路請求的方法,預設是get請求,如果傳遞了data是post請求 from urllib import r
python爬蟲系列(2.3-requests庫模擬使用者登入)
一、模擬登入拉鉤網 import re import requests class LoginLaGou(object): """ 模擬登入拉鉤網 """
python爬蟲系列(1.2-urllib模組中request 常用方法)
一、request.Request方法的使用 上一章節中介紹了request.urlopen()的使用,僅僅的很簡單的使用,不能設定請求頭及cookie的東西,request.Request()方法就是進一步的包裝請求. 1、原始碼檢視引數 class Request: &nb
python爬蟲系列(4.3-資料儲存到mysql資料庫中)
一、如果你對mysql資料庫還不太熟悉 二、基本操作 1、在python中使用pymysql連線mysql 2、安裝包 pip3 install pymysql 3、定義一個建立資料庫的方法(或者手動、SQL語句建立資料庫) # 定義一個建立資料庫的函