《Python網絡數據采集》筆記之BeautifulSoup

阿新 • • 發佈：2017-07-23

text 便簽 pip 使用 dal findall con content attribute

一初見網絡爬蟲

都是使用的python3。

一個簡單的例子：

from  urllib.request import urlopen
html = urlopen("http://pythonscraping.com/pages/page1.html")
print(html.read())

在 Python 2.x 裏的 urllib2 庫，在 Python 3.x 裏，urllib2 改名為 urllib，被分成一些子模塊：urllib.request、 urllib.parse 和 urllib.error。

二 BeautifulSoup

1.使用BeautifulSoup

註意：1.通過pip install BeautifulSoup4 安裝模塊

2. 建立可靠的網絡連接，能處理程序可能會發生的異常

如下面這個例子：

from urllib.error import HTTPError
from urllib.request import urlopen
from  bs4 import BeautifulSoup


def getTitle(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return None
    try 
:
        bsobj = BeautifulSoup(html.read())
        title = bsobj.body.h1
    except AttributeError as e:
        return None
    return title
title = getTitle("http://pythonscraping.com/pages/page1.html")
if title == None:
    print("title was not found")
else:
    print(title)

2. 網絡爬蟲可以通過 class 屬性的值,獲得指定的內容

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://pythonscraping.com/pages/warandpeace.html")

bsobj = BeautifulSoup(html)

# 通過bsobj對象，用fillAll函數抽取class屬性為red的span便簽
contentList = bsobj.findAll("span",{"class":"red"})

for content in contentList:
    print(content.get_text())
    print(‘\n‘)

3. 通過導航樹

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://pythonscraping.com/pages/page3.html")
bsobj = BeautifulSoup(html)


#找出子標簽
for child in bsobj.find("table",{"id":"giftList"}).children:
    print(child)

#找出兄弟標簽
for silbling in bsobj.find("table",{"id":"giftList"}).tr.next_siblings:
    print(silbling)

for h2title in bsobj.findAll("h2"):
     print(h2title.get_text())

print(bsobj.find("img",{"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text())

5. 正則表達式和BeautifulSoup

from urllib.request import urlopen
from bs4 import BeautifulSoup
import  re

html = urlopen("http://pythonscraping.com/pages/page3.html")
bsobj = BeautifulSoup(html)
#返回字典對象images
images = bsobj.findAll("img",{"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})
for image in images:  
    print(image["src"])

《Python網絡數據采集》筆記之BeautifulSoup

text 便簽 pip 使用 dal findall con content attribute 一初見網絡爬蟲都是使用的python3。一個簡單的例子： from urllib.request import urlopen html = urlopen("ht

《Python網絡數據采集》讀書筆記（一）

urllib BeautifulSoup 思考“網絡爬蟲”時通常的想法：? 通過網站域名獲取 HTML 數據? 根據目標信息解析數據? 存儲目標信息? 如果有必要，移動到另一個網頁重復這個過程當網絡瀏覽器遇到一個標簽時，比如<img src="cuteKitten.jpg"&

《Python網絡數據采集》讀書筆記（二）

find child descendant sibling parent 1、通過的名稱和屬性查找標簽和之前一樣，抓取整個頁面，然後創建一個BeautifulSoup對象。這裏面“lxml”解析器需要另外下載。pip3 install lxml>>> from urlli

《Python網絡數據采集》讀書筆記（三）

正則 attrs lambda 1、正則表達式常用符號(1)* 匹配前面的字符、子表達式或括號裏的字符0次或多次例如：a*b* 結果：aaa,aaabb,bb(2)+ 匹配前面的字符、子表達式或括號裏的字符至少1次例如：a+b+ 結果：aaab,aabb,a

《Python網絡數據采集》讀書筆記（四）

wiki 維基 scrapy 1、遍歷單個域名維基百科那些指向詞條頁面（不是指向其他內容頁面）的鏈接有三個共同點：? 它們都在id是bodyContent的div標簽裏? URL鏈接不包含分號? URL鏈接都以/wiki/開頭# -*- coding: utf-8 -*- import re fr

《Python網絡數據采集》讀書筆記（六）

CSV1、urllib.request.urlretrieve可以根據文件的URL下載文件：# -*- coding: utf-8 -*- from urllib.request import urlretrieve from urllib.request import urlopen from bs4 im

《Python網絡數據采集》讀書筆記（五）

JSON1、解析JSON數據Python把JSON轉換成字典，JSON數組轉換成列表，JSON字符串轉換成Python字符串。下面的例子演示了使用Python的JSON 解析庫，處理JSON字符串中可能出現的不同數據類型：>>> import json >>> jsonSt

Python網絡數據采集

html now() 數據采集 ont 網絡數據函數網絡 mytag dal 一、正則表達式 * 表匹配0次或者多次 a*b* + 表至少一次 [ ] 匹配任意一個 ( ) 辨識一個編組 {m，n} m或者n 次 [^] 匹配任意不在中括號裏的

Python網絡數據采集pdf

font 安裝mysql 按鈕 2.6 word 時間 tran 3.3 ack 下載地址：網盤下載內容簡介 · · · · · ·本書采用簡潔強大的Python語言，介紹了網絡數據采集，並為采集新式網絡中的各種數據類型提供了全面的指導。第一部分重點介紹網絡數據采集的

《python 網絡數據采集》代碼更新

req 根據跟著 pen spec color another spa specified 《python 網絡數據采集》這本書中會出現很多這一段代碼： 1 from urllib.request import urlopen 2 from bs4 import Bea

《Python網絡數據采集》高清中文版PDF+高清英文版PDF+源代碼

采集 images wow 經典書籍 aid log text oss 詳細下載：https://pan.baidu.com/s/1_SaVqs26iCx9Z-7XMbQWow 《Python網絡數據采集》高清中文版PDF+高清英文版PDF+源代碼高清中文版PDF，帶目

分享《Python網絡數據采集》+PDF+源碼+Ryan Mitchell+陶俊傑

51cto type oss sha 源碼網絡數據經典分享圖片網絡數下載：https://pan.baidu.com/s/1g8coyGGC13YYDrXkHYCmhA更多資料分享：http://blog.51cto.com/14087171 《Python網絡數

python網絡數據抓取二（bing圖片抓取）

.get state 練習 code 請求 lee a-z %d 抓取圖片　　上一回嘗試抓取了百度熱點數據，這次繼續選擇利用bing搜索抓取圖片練習下，代碼放在最下供大家參考。程序需要傳入三個參數，圖片關鍵詞、圖片保存路徑、需要抓取的數量。運行過程中可能會有一些錯誤(大部

python網絡爬蟲-數據采集之遍歷單個爬蟲

target follow ndt 數據采集 http lan python www win 8D湛91G坡嗇1訝Dhttp://www.facebolw.com/space/2102892/following T判捕9墳17猿9PFV瞬http://www.facebo

ArcGIS 網絡分析[4] 網絡數據集深入淺出之連通性、網絡數據集的屬性及轉彎要素

我只三方功能如何使用網絡數據 block 性問題網絡屬性前面介紹完了如何創建網絡數據集、如何使用網絡分析功能，當然還有的讀者會迷惑於一些更深層次的問題，比如網絡數據集的連通性問題等。因為不可能面面俱到，我只能挑重點來闡述，我覺得網絡數據集的連通性、屬性和轉

Python項目實戰：福布斯系列之數據采集

sce nmp mgr 上市 sts nor 頁面數據都差不多 afa 1 數據采集概述開始一個數據分析項目，首先需要做的就是get到原始數據，獲得原始數據的方法有多種途徑。比如：獲取數據集（dataset）文件使用爬蟲采集數據直接獲得excel、

研究生導師布置的作業！利用Python和API收集與分析網絡數據！

顏色 urllib 腳本城市名文件 object http 默認環境猜猜看，下面這一組調查對象是什麽？為什麽會這樣呢？因為我在布置作業的時候，很貼心地給了一個樣例，是我之前寫的一篇教程《如何用R和API免費獲取Web數據？》。於是，多組作業，

Nodejs學習筆記（十一）—數據采集器示例（request和cheerio）

列表意思 9.1 很多 AD 開發 com http undefined 寫在之前　　很多人都有做數據采集的需求，用不同的語言，不同的方式都能實現，我以前也用C#寫過，主要還是發送各類請求和正則解析數據比較繁瑣些，總體來說沒啥不好的，就是效率要差一些，　　用nodej

Python數據采集-開始爬蟲

import ins 過程 ima dom 網絡爬蟲操作循環定義數據一遍歷單個域名網頁爬蟲，就是對目標網頁進行捉取，然後遍歷到數據信息，然後有鏈接的繼續遍歷，如此回調。第一步：將頁面的所有鏈接獲取 1 from urllib.request import

【網絡應用編程學習筆記】3.3網絡數據編碼與解碼

網絡數 src info 編程數據 png 3.3 分享圖片 bubuko 【網絡應用編程學習筆記】3.3網絡數據編碼與解碼

《Python網絡數據采集》筆記之BeautifulSoup

一 初見網絡爬蟲

二 BeautifulSoup

1.使用BeautifulSoup

2. 網絡爬蟲可以通過 class 屬性的值,獲得指定的內容

3. 通過導航樹

5. 正則表達式和BeautifulSoup

相關推薦

一初見網絡爬蟲