《Python網絡數據采集》讀書筆記（二）

阿新 • • 發佈：2018-03-30

find child descendant sibling parent

1、通過的名稱和屬性查找標簽

和之前一樣，抓取整個頁面，然後創建一個BeautifulSoup對象。這裏面“lxml”解析器需要另外下載。

pip3 install lxml

>>> from urllib.request import urlopen
>>> from bs4 import BeautifulSoup
>>> html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
>>> bsObj = BeautifulSoup(html, "lxml")

finAll()可以獲取頁面中所有指定的標簽，抽取只包含在<span class="green"></span>標簽裏的文字，這樣就會得到一個人物名稱的列表。.get_text()會把所有的標簽都清除，返回一個只包含文字的字符串。

>>> nameList = bsObj.findAll("span", {"class":"green"})
>>> for name in nameList:
        print(name.get_text())

2、詳解finAll()和find()的參數

findAll(tag, attributes, recursive, text, limit, keywords)

find(tag, attributes, recursive, text, keywords)

tag--可以傳一個標簽的名稱或多個標簽名稱組成的列表做參數；如下示例將返回一個包含HTML文檔中所有標題標簽的列表

>>> bsObj.findAll({"h1", "h2", "h3", "h4", "h5", "h6"})
[<h1>War and Peace</h1>, <h2>Chapter 1</h2>]

attributes--字典封裝一個標簽的若幹屬性和對應的屬性值；如下示例會返回HTML文檔裏紅色與綠色兩種顏色的span標簽

>>> bsObj.findAll("span", {"class":{"green", "red"}})

recursive--布爾變量（默認為True）查找標簽參數的所有子標簽，及子標簽的子標簽；為False時，只查找文檔的一級標簽

text--是用標簽的文本內容去匹配；如下示例作用是查找網頁中包含“the prince”內容的標簽數量

>>> nameList=bsObj.findAll(text="the prince")
>>> print(len(nameList))
7

limit--按照網頁上的順序排序，獲取的前 x 項結果（等於1時等價於find）

keywords--可以讓你選擇那些具有指定屬性的標簽

>>> allText = bsObj.findAll(id="text")
>>> print(allText[0].get_text())

下面兩行代碼是完全一樣的

bsObj.findAll(id="text")
bsObj.findAll("", {"id":"text"})

由於class為關鍵字，使用keywords指定時需要多加一個下劃線

bsObj.findAll(class_="green")
bsObj.findAll("", {"class":"green"})

3、BeautifulSoup對象

BeautifulSoup對象：如前面代碼示例中的bsObj

Tag對象：BeautifulSoup對象通過find和findAll或直接調用子標簽獲取的一列象或單個對象(如bsObj.div.h1)

NavigableString對象：表示標簽裏的文字

Comment對象：查找 HTML 文檔的註釋標簽

4、標簽解析樹的導航：通過標簽在文檔中的位置來查找標簽。

處理子標簽與後代標簽：

子標簽（child）是一個父標簽的下一級。

後代標簽（descendant）是指一個父標簽下面所有級別的標簽。

同樣的

>>> from urllib.request import urlopen
>>> from bs4 import BeautifulSoup
>>> html = urlopen("http://www.pythonscraping.com/pages/page3.html")
>>> bsObj = BeautifulSoup(html, "lxml")

只想找出子標簽，可以用.children；如下示例會打印giftList表格中所有產品的數據行（如使用.descendants將打印出二十幾個標簽）

>>> for child in bsObj.find("table", {"id":"giftList"}).children:
print(child)

處理兄弟標簽：

next_siblings和previous_siblings將返回一組標簽

next_sibling和previous_sibling將返回單個標簽

如下示例會打印產品列表裏除第一行外的所有行的產品

>>> for sibling in bsObj.find("table", {"id":"giftList"}).tr.next_siblings:
        print(sibling)

處理父標簽：

parent 和 parents

如下示例會打印出指定圖片對應的商品價格

>>> print(bsObj.find("img", {"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text())
$15.00

《Python網絡數據采集》讀書筆記（二）

《Python網絡數據采集》筆記之BeautifulSoup

text 便簽 pip 使用 dal findall con content attribute 一初見網絡爬蟲都是使用的python3。一個簡單的例子： from urllib.request import urlopen html = urlopen("ht

《Python網絡數據采集》讀書筆記（一）

urllib BeautifulSoup 思考“網絡爬蟲”時通常的想法：? 通過網站域名獲取 HTML 數據? 根據目標信息解析數據? 存儲目標信息? 如果有必要，移動到另一個網頁重復這個過程當網絡瀏覽器遇到一個標簽時，比如<img src="cuteKitten.jpg"&

《Python網絡數據采集》讀書筆記（二）

find child descendant sibling parent 1、通過的名稱和屬性查找標簽和之前一樣，抓取整個頁面，然後創建一個BeautifulSoup對象。這裏面“lxml”解析器需要另外下載。pip3 install lxml>>> from urlli

《Python網絡數據采集》讀書筆記（三）

正則 attrs lambda 1、正則表達式常用符號(1)* 匹配前面的字符、子表達式或括號裏的字符0次或多次例如：a*b* 結果：aaa,aaabb,bb(2)+ 匹配前面的字符、子表達式或括號裏的字符至少1次例如：a+b+ 結果：aaab,aabb,a

《Python網絡數據采集》讀書筆記（四）

wiki 維基 scrapy 1、遍歷單個域名維基百科那些指向詞條頁面（不是指向其他內容頁面）的鏈接有三個共同點：? 它們都在id是bodyContent的div標簽裏? URL鏈接不包含分號? URL鏈接都以/wiki/開頭# -*- coding: utf-8 -*- import re fr

《Python網絡數據采集》讀書筆記（六）

CSV1、urllib.request.urlretrieve可以根據文件的URL下載文件：# -*- coding: utf-8 -*- from urllib.request import urlretrieve from urllib.request import urlopen from bs4 im

《Python網絡數據采集》讀書筆記（五）

JSON1、解析JSON數據Python把JSON轉換成字典，JSON數組轉換成列表，JSON字符串轉換成Python字符串。下面的例子演示了使用Python的JSON 解析庫，處理JSON字符串中可能出現的不同數據類型：>>> import json >>> jsonSt

Python網絡數據采集

html now() 數據采集 ont 網絡數據函數網絡 mytag dal 一、正則表達式 * 表匹配0次或者多次 a*b* + 表至少一次 [ ] 匹配任意一個 ( ) 辨識一個編組 {m，n} m或者n 次 [^] 匹配任意不在中括號裏的

Python網絡數據采集pdf

font 安裝mysql 按鈕 2.6 word 時間 tran 3.3 ack 下載地址：網盤下載內容簡介 · · · · · ·本書采用簡潔強大的Python語言，介紹了網絡數據采集，並為采集新式網絡中的各種數據類型提供了全面的指導。第一部分重點介紹網絡數據采集的

《python 網絡數據采集》代碼更新

req 根據跟著 pen spec color another spa specified 《python 網絡數據采集》這本書中會出現很多這一段代碼： 1 from urllib.request import urlopen 2 from bs4 import Bea

《Python網絡數據采集》高清中文版PDF+高清英文版PDF+源代碼

采集 images wow 經典書籍 aid log text oss 詳細下載：https://pan.baidu.com/s/1_SaVqs26iCx9Z-7XMbQWow 《Python網絡數據采集》高清中文版PDF+高清英文版PDF+源代碼高清中文版PDF，帶目

分享《Python網絡數據采集》+PDF+源碼+Ryan Mitchell+陶俊傑

51cto type oss sha 源碼網絡數據經典分享圖片網絡數下載：https://pan.baidu.com/s/1g8coyGGC13YYDrXkHYCmhA更多資料分享：http://blog.51cto.com/14087171 《Python網絡數

《數據挖掘導論》筆記（二）

時序空間自相關集中適用於 body 稀疏體系數據頻繁數據本章討論一些與數據相關的問題，他們對於數據挖掘的成敗至關重要。1.數據類型2.數據的質量3，使數據適合挖掘的預處理步驟：處理一方面是要提高數據的質量，另一方面要讓數據更好地適應特定的數據挖掘技術和工具。4

python網絡數據抓取二（bing圖片抓取）

.get state 練習 code 請求 lee a-z %d 抓取圖片　　上一回嘗試抓取了百度熱點數據，這次繼續選擇利用bing搜索抓取圖片練習下，代碼放在最下供大家參考。程序需要傳入三個參數，圖片關鍵詞、圖片保存路徑、需要抓取的數量。運行過程中可能會有一些錯誤(大部

Nodejs學習筆記（十一）—數據采集器示例（request和cheerio）

列表意思 9.1 很多 AD 開發 com http undefined 寫在之前　　很多人都有做數據采集的需求，用不同的語言，不同的方式都能實現，我以前也用C#寫過，主要還是發送各類請求和正則解析數據比較繁瑣些，總體來說沒啥不好的，就是效率要差一些，　　用nodej

數據庫SQL Server2012筆記（七）——java 程序操作sql server

jdb 統一 col select 封裝 query size api color 1、crud(增刪改查)介紹：create/retrieve/update/delete 2、JDBC介紹 1）JDBC（java database connectivi

java代碼實現highchart與數據庫數據結合完整案例分析（二）---折線圖

end idt 。。客戶端屬性 hid pla 循環 scrip 作者原創：未經博主允許不許轉載在上一篇的博客中，展示和分析了如何做一個餅狀圖，有疑問可以參考上一篇博客。現在分析和展示折線圖的繪制和案例分析，先展示效果圖：與餅狀圖不同的是，折線圖展現更多的數據

實現自定義查詢的數據庫設計及實現（二）

表名 table abr bigint sts 處理 update 關聯表 creat 上部分大概講了一下表設計，這部分講一下處理。處理的結構處理結構的內容比較多，分為幾個部分分別講解一下。首先講解一下尋找關系表。尋找關系表尋找關系表根據“表間關系登記表”進行處

Java數據結構和算法（二）——數組

image 創建函數編程局限性總結遍歷數組 ron 添加　　上篇博客我們簡單介紹了數據結構和算法的概念，對此模糊很正常，後面會慢慢通過具體的實例來介紹。本篇博客我們介紹數據結構的鼻祖——數組，可以說數組幾乎能表示一切的數據結構，在每一門編

MySQL數據庫中的索引（二）——索引的使用，最左前綴原則

次數 left 建立 index 區別 and 顯示 abs mysql索引上文中，我們了解了MySQL不同引擎下索引的實現原理，在本文我們將繼續探討一下索引的使用以及優化。創建索引可以大大提高系統的性能。第一，通過創建唯一性索引，可以保證數據庫表中每一行數據的唯一性

《Python網絡數據采集》讀書筆記（二）

相關推薦