爬蟲提取標籤的幾種方式

阿新 • • 發佈：2019-02-20

我最喜歡用兩種解析方式

#第一種解析方式  etree+xpath  提取匹配標籤
a = "<div class='a'>123<p>1455555</p></div>"

from lxml import etree
con = etree.HTML(a)
print(con)
print(con.xpath("//div/text()"))
print(con.xpath("//div/p/text()"))
print(con.xpath("//div//text()"))

# 輸出結果:
['123']
['1455555']
['123', '1455555'] 


# 第二種提取標籤的方式  Selector +css 提取

from scrapy import Selector
a = "<div class='a'>123<p>1455555</p></div>"
con = Selector(text=a)
print(con)
print(con.xpath("//div/text()").extract())
print(con.xpath("//div/p/text()").extract())
print(con.xpath("//div//text()").extract())

# 輸出結果:
<Selector xpath=None data='<html><body><div class="a">123<p>1455555'>
['123']
['1455555']
['123', '1455555']



# string(.)的用法
b = con.xpath("//div")
# 獲取標籤下面的所有的字元
print(b.xpath("string(.)"))  

# 輸出結果：
[<Selector xpath='string(.)' data='1231455555'>]

當然還有其他的提取方式，比如說re，css， bs4, pyputer 等等等等，個人對xpath比較熟悉，所以一般情況下我會使用xpath，有的欄位麻煩的，會對提取的結果用一個正則表示式來獲取想要的文字。

requests請求的特殊幾種獲取方式處理

# requests預設使用application/x-www-form-urlencoded對POST資料編碼。如果要傳遞JSON資料，可以直接傳入json引數：
url = "https://123456.com"
params = {'key': 'value'}
r = requests.post(url, json=params)  # 內部自動序列化為JSON

# 要在請求中傳入Cookie，只需準備一個dict傳入cookies引數：
cs = {'token': '12345', 'status': 'working'}
r2 = requests.get(url, cookies=cs)

爬蟲提取標籤的幾種方式

我最喜歡用兩種解析方式 #第一種解析方式 etree+xpath 提取匹配標籤 a = "<div class='a'>123<p>1455555</p></div>" from lxml import et

原生js及jquery獲取標籤的幾種方式——為什麼id不能重複

1. 原生js獲取標籤 DOM（document object model）文字物件模型我們在用原生js獲取標籤都離不開DOM 用原生js獲取標籤的幾種常用方法 1. 獲取標籤id document.getElementById(‘id’) 引數是id的字元，

jquery ajax提交表單form資料幾種方式小結 a標籤提交，input標籤提交 submit提交

方式一：舉個例子。 <a href="javascript:void(0)" id="click">點選</a> //jq獲取標籤，並且繫結單擊事件 $(“#click”).click(function (){ //點選後

爬蟲之C#實現的幾種方式

HttpWebRequest/HttpWebResonse WebBrowser com元件第一種方式HttpWebRequest/HttpWebResonse 這種方式最常見也可能是最常用的。使用方式大概如下： HttpWebReque

爬蟲---獲取網頁資料的幾種方式

1.post方式（有道詞典） # -*- coding:utf-8 -*- import urllib import urllib2 url = 'http://fanyi.youdao.com/

Eclipse安裝svn插件的幾種方式轉帖....

如果 version name feature help sin 鏈接 exe 文件 Eclipse安裝svn插件的幾種方式 1.在線安裝： (1).點擊 Help --> Install New Software... (2).在彈出的窗口中點擊add按鈕，輸

解決瀏覽器跨域的幾種方式

doc cor 求和對象跨域 http onf 從服務器 console 1、什麽是跨域問題在頁面中使用js訪問其他網站的數據時，就會出現跨域問題，比如在網站中使用ajax請求其他網站的天氣、快遞或者其他數據接口時，以及hybrid app中請求數據，

前端跨域幾種方式

div ner dev 修改 ati hash 標簽 nbsp 端口跨域問題的直接原因是瀏覽器存在同源策略，瀏覽器同源指的是：兩個頁面的協議、端口和主機相同，則兩個頁面具有相同的源。IE下滿足協議、主機相同，就認為是同源。想象一下，如果沒有同源策略，誰都可以修改你站點

Python 與 C/C++ 交互的幾種方式

pythonpython作為一門腳本語言，其好處是語法簡單，很多東西都已經封裝好了，直接拿過來用就行，所以實現同樣一個功能，用Python寫要比用C/C++代碼量會少得多。但是優點也必然也伴隨著缺點（這是肯定的，不然還要其他語言幹嘛），python最被人詬病的一個地方可能就是其運行速度了。這這是大部分腳本語言

php中實現頁面跳轉的幾種方式

腳本 timeout location clas replace asc idt lee 實現親測，not復制粘貼 PHP中實現頁面跳轉有一下幾種方式，看了幾個人寫的不是很條理，自己整理一下在PHP腳本代碼中實現 <?php header("locati

Java 修改編碼格式的幾種方式

格式 text cnblogs 修改 .com pac 方式 src -1 1、工作空間 workspase Window→Preferences→General→Workspace→Text file encoding→other→UTF-8 2、項目編碼格式右鍵項目

Oracle數據庫遷移的幾種方式

備份與恢復行遷移 target span spf 位置 server create 設備面試: 一、exp/imp邏輯備份與恢復：二、Storage存儲遷移：將數據文件、控制文件、日誌文件、spfile掛到新機器上，然後在新機器上啟動數據庫。三、利用data gu

C#打開SDE數據庫的幾種方式總結

tex 用戶 ops 總結 param word editor conn tor 轉自謝燦軟件原文 C#打開SDE數據庫的幾種方式總結 1.通過指定連接屬性參數打開數據庫 /// <param name="server">數據庫服務器名&

數組去重的幾種方式

strong class 一個 spl spa cnblogs 不變數字 {} 一、利用indexOf查找，ie9以下不兼容 function noRepeat(ary) { if (ary instanceof Array) { var new

即時通信常見的幾種方式，此處只做學習記錄

維護時間最簡安裝記錄 htm websocket 雙向 new 1. 輪詢利用ajax每隔一段時間就請求一次服務器，服務器返回數據。優點：最簡單的解決方案缺點：對服務器壓力很大，浪費帶寬 2. 長輪詢利用ajax請求服務器，當有數據變化

IOC創建對象的幾種方式

pri clas ati div 參數 system 實例方法 tex 通過接上一篇IOC入門 IOC創建對象的幾種方式 1）調用無參數構造器 2）帶參數構造器 3）工廠創建對象　　工廠類：靜態方法創建對象　　工廠類：非靜態方法創建對象 1、對之前的User類

遍歷Map集合的幾種方式

set password stat class ati put 獲取 map hashmap 1 import java.util.HashMap; 2 import java.util.Iterator; 3 import java.util.Map; 4 im

C++多態有哪幾種方式？

cti 早綁定時間對象區別父類不同的版本內幕 C++多態方式：（1）靜態多態（重載，模板）是在編譯的時候，就確定調用函數的類型。（2）動態多態（覆蓋，虛函數實現）在運行的時候，才確定調用的是哪個函數，動態綁定。運行基類指針指向派生類的對象，並調用派生類

JS創建對象的幾種方式詳解

演員 sta say object ron 操作 tar obj 構造 Js是一門面向對象的語言，裏面沒有類的思想，所以直接是創建對象，下面介紹幾種創建對象的方法： 1.對象字面量的方法：記住鍵值對格式：{key:value,key :value} 實例： Var

使用 Hive裝載數據的幾種方式

rom art lec install 查詢語句如果 mode lena 重寫裝載數據 1、以LOAD的方式裝載數據 LOAD DATA [LOCAL] INPATH ‘filepath‘ [OVERWRITE] INTO TABLE tablename [PARTIT

爬蟲提取標籤的幾種方式

我最喜歡用兩種解析方式

requests請求的特殊幾種獲取方式處理

相關推薦