爬蟲庫之BeautifulSoup學習（四）

阿新 • • 發佈：2017-05-14

所有字符串判斷 href gin int 過濾器 amp link

探索文檔樹：

find_all(name,attrs,recursive,text,**kwargs)

方法搜索當前tag的所有tag子節點,並判斷是否符合過濾器的條件

1、name參數，可以查找所有名字為name的tag，字符串對象會被自動忽略掉。

1) 傳字符串

最簡單的過濾器是字符串.在搜索方法中傳入一個字符串參數,Beautiful Soup會查找與字符串完整匹配的內容.

下面的例子用於查找文檔中所有的標簽

soup.find_all(‘b‘)

# [The Dormouse‘s story]

2)傳正則表達式

如果傳入正則表達式作為參數,Beautiful Soup會通過正則表達式的 match() 來匹配內容.

下面例子中找出所有以b開頭的標簽,這表示<body>和標簽都應該被找到

import re

for tag in soup.find_all(re.compile("^b")):

　　print tag.name

#body

3)傳列表

如果傳入列表參數,Beautiful Soup會將與列表中任一元素匹配的內容返回.下面代碼找到文檔中所有<a>標簽和標簽

soup.find_all(["a","b"])

# [The Dormouse‘s story,
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

4)傳True

可以匹配任何值,下面代碼查找到所有的tag,但是不會返回字符串節點

5)傳方法

2.keyword參數

　　註意：如果一個指定名字的參數不是搜索內置的參數名,搜索時會把該參數當作指定名字tag的屬性來搜索,如果包含一個名字為 id 的參數,Beautiful Soup會搜索每個tag的”id”屬性

　　soup.find_all(id=‘link2‘)

# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

　　如果傳入href參數，BeautifulSoup會搜索每個tag的"href"屬性

　　soup.find_all(href=re.compile("elsie"))

　　使用多個指定名字的參數可以同時過濾tag的多個屬性

　　soup.find_all(href=re.compile("elsie"),id=‘link1)

爬蟲庫之BeautifulSoup學習（四）

所有字符串判斷 href gin int 過濾器 amp link 探索文檔樹： find_all(name,attrs,recursive,text,**kwargs) 方法搜索當前tag的所有tag子節點,並判斷是否符合過濾器的條件 1、name參數，可

爬蟲庫之BeautifulSoup學習（二）

不必要 baidu html left 官方 blank 正則文本處理比較 BeautifulSoup官方介紹文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 四大對象種

爬蟲庫之BeautifulSoup學習（三）

子節點 rom lac repr 文檔 strong 爬蟲 time contents 遍歷文檔樹：　　1、查找子節點　　.contents　　　　tag的.content屬性可以將tag的子節點以列表的方式輸出。　　print soup.body.cont

網路爬蟲之BeautifulSoup入門（四）

5.帶更多引數的find方法官方文件給出的find方法的引數如下：find( name , attrs , recursive , string , **kwargs )，總體來看和find_all方法的引數沒什麼不同，在這裡仍以示例的方法給出常見的使用方法

Python爬蟲包 BeautifulSoup 學習（四） bs基本物件與函式

四大物件種類 BeautifulSoup將複雜HTML文件轉換成一個複雜的樹形結構。如圖所示每個節點都是Python物件，我們只用根據節點進行查詢就可以了，因為解析工作交給了框架本身。所有物件可以歸納為4種: Tag NavigableString

介面自動化之requests學習（四）--傳送帶header的請求

實際的介面測試中，請求一般都需要攜帶headers，下面來說一下介面傳送請求時，如何攜帶headers #!usr/bin/env python #-*- coding:utf-8 -*- """ @author:Administrator @file: requests_

python爬蟲從入門到放棄（四）之 Requests庫的基本使用

pre hist ror ble complete question 進制 cte word 什麽是Requests Requests是用python語言基於urllib編寫的，采用的是Apache2 Licensed開源協議的HTTP庫如果你看過上篇文章關於urllib庫

HBase概念學習（四）Java API之掃描和過濾器

影響產生 str 實例分享 get 批量 java api track HBase主要的CRUD操作就不多介紹了，無非就是Put，Get。Delete三個類的運用。本文相當於是閱讀HBase權威指南的總結。一、掃描（Scan）如今看一下掃

MyBatis學習（四）XML配置文件之SQL映射的XML文件

元素數據庫 resultmap ash 有一點 oracl 解決轉換成插入語 SQL映射文件常用的元素：　　 1.select 　　查詢語句是MyBatis最常用的語句之一。　　執行簡單查詢的select元素是非常簡單的： <select id=”sele

小程序學習（四）小程序邏輯層之註冊頁面

其他 nor stop 默認 pat 標題 pre 開啟開始小程序學習（四）小程序邏輯層之註冊頁面註冊頁面（Page）小程序頁面的註冊，是通過 Page() 函數來完成的。接受一個 object 參數，指定頁面的初始數據，生命周期、事件處理函數等。 object

redis學習（四）redis持久化之RDB、AOF

出現 add 停用 nbsp 滿足相同客戶 -a 工具 redis是內存數據庫，它把數據存儲在內存中，這樣在加快讀取速度的同時也對數據安全性產生了新的問題，即當redis所在服務器發生宕機後，redis數據庫裏的所有數據將會全部丟失。為了解決這個問題，redis提供了持

Oracle數據庫學習（四）

常量 view 角色權限參數可選參數 ddl strong seq 括號 11.創建表 crate table tab1(f_id number not null,f_a varchar2(7) not null,f_b number(6,2) not null)；主

mysql的學習（四）-數據庫表的記錄的操作

auto order by sel 計算機數量 mar reader distinct enc INSERT INTO bookcategory(category_id,category,parent_id) VALUES(1,‘計算機‘,0);//指定插入的順序

NS2入門學習（四）之Otcl知識點

面向物件的Tcl語言，物件和類的概念同C++類似。 1.類和物件的定義 % Class Animal #定義類名 % Animal animal_1#產生類的物件 animal info class =>Animal

對抗神經網路學習（四）——WGAN+爬蟲生成皮卡丘影象(tensorflow實現)

一、背景 WGAN的全稱為Wasserstein GAN, 是Martin Arjovsky等人於17年1月份提出的一個模型，該文章可以參考[1]。WGAN針對GAN存在的問題進行了有針對性的改進，但WGAN幾乎沒有改變GAN的結構，只是改變了啟用函式和loss函式，以及擷取權重，卻得到了非常好

STM32 HAL庫學習（四） SPI查詢傳送與接收

又是花了兩天時間調SPI......細心細心還是需要細心啊，還是用的上次的SPI Flash晶片mx25l04600E，主要是測試晶片的初始化和讀取晶片ID是否成功。 STM32F070晶片只有一個SPI，但可用作SPI訊號管腳的引腳卻不只一組，建議通訊前先連線MOSI和MISO測試自發自收是否

演算法工程師修仙之路：吳恩達機器學習（四）

吳恩達機器學習筆記及作業程式碼實現中文版第四章 Logistic迴歸分類在分類問題中，要預測的變數y是離散的值，邏輯迴歸 (Logistic Regression) 演算法是目前最流行使用最廣泛的一種學習演算法。在分類問題中，我們嘗試預測的是結果

View的工作原理之Measure過程原始碼學習（四）

上一篇文章，學習了ViewGroup和View的measure流程。文章最後講到，本文將會學習ViewGroup和普通View的onMeasure方法的工作。因為ViewGroup是

床頭筆記之Android開發學習（四）

新建HelloWorld工程專案目錄說明：工程目錄：按著下圖順序講解 HelloWorld：專案名 src：自己編寫的程式存放處 gen：系統自動生成的檔案R.java(和res資原始檔關聯，為其子檔案drawable下每個圖片及values下的鍵值

Linux學習之程序通訊（四）

言之者無罪，聞之者足以戒。 ——《詩序》 IPC通訊 IPC通訊有三種：共享記憶體、訊息佇列、訊號燈這個IPC物件，是存在於核心中的。而且使用者空間的檔案系統中沒有IPC檔案型別 IPC物件 IPC和檔案IO函式的比較：檔案I/O

爬蟲庫之BeautifulSoup學習（四）

相關推薦