python爬蟲（一）BeautifulSoup簡介

阿新 • • 發佈：2019-02-16

BeautifulSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲漫遊仙境》裡的同名詩歌。BeautifulSoup通過定位HTML標籤來格式化和組織複雜的網路資訊，用簡單易用的python物件展現XML結構資訊。

一、安裝Beautifulsoup

1、windows平臺

①安裝pip（安裝python3時選擇安裝）
②利用pip安裝bs4——命令列模式：`pip install BeautifulSoup4

二、執行Beautifulsoup

解析本地網頁

from bs4 import BeautifulSoup #bs4是BeautifulSoup4的簡稱

with open(r'E:\PycharmProjects\web_prase\new_index.html' 
) as web_data:#利用open函式開啟本地網頁檔案
    soup=BeautifulSoup(web_data.read(),'lxml')#利用lxml解析網頁
    print（soup.h2）

輸出結果為：

<h2>Article</h2>

解析線上網頁

from bs4 import BeautifulSoup
import requests

url='https://cn.tripadvisor.com/Attractions-g60763-Activities-New_York_City_New_York.html'
web_data=requests.get(url)#利用requests庫爬取線上網頁 

soup=BeautifulSoup(web_data.text,'lxml')
print（soup）

或者

from bs4 import BeautifulSoup
from urllib.request import urlopen

html=urlopen('https://cn.tripadvisor.com/Attractions-g60763-Activities-New_York_City_New_York.html')#利用urllib模組爬取線上網頁
soup=BeautifulSoup(html.read(),'lxml')

三、可靠的網路連線

html=urlopen('https://cn.tripadvisor.com/Attractions-g60763-Activities-New_York_City_New_York.html' 
)

這行程式碼主要可能會發生兩種異常：

網頁在伺服器上不存在（或者獲取頁面的時候出現錯誤）
伺服器不存在

第一種異常發生時，程式會返回HTTP錯誤。HTTP錯誤可能是“404 Page Not Found”、“500 Internal Sever Error”等。所有類似情形，urlopen都會丟擲“HTTPError”異常。可以用下面的方式處理這種異常：

try:
    html=urlopen('https://cn.tripadvisor.com/Attractions-g60763-Activities-New_York_City_New_York.html')
except HTTPError as e:
    print(e)
    #返回空值，中斷程式，或者執行另一個方案
else：
    #程式繼續。

if html is None:
    print("URL is not found")
else:
    #程式繼續

四、複雜HTML解析

從複雜的網頁中尋覓資訊時，在找到目標資訊之前，需要“敲掉”網頁上那些不需要的資訊。

通過屬性查詢標籤的方法

CSS可以讓HTML元素呈現出差異化，使那些具有完全相同修飾的元素呈現出不同的樣式。比如，有一些標籤看起來是這樣：

<span>class="green"</span>

而另一些標籤看起來是這樣：

<span>class="red"</span>

網路爬蟲可以通過class屬性的值，輕鬆地區分出兩種不同的標籤。

標籤組的使用

標籤解析樹的導航過程

python爬蟲（一）BeautifulSoup簡介

BeautifulSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲漫遊仙境》裡的同名詩歌。BeautifulSoup通過定位HTML標籤來格式化和組織複雜的網路資訊，用簡單易用的python物件展現XML結構資訊。一、安裝Beautifulsoup 1、win

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

Python爬蟲（一）：基本概念

popu 通用字符 spider dai 自身部分螞蟻 people 網絡爬蟲的定義網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用

python爬蟲（一）

返回沒有發現學習內容部分訪問 family 司機獲得 1.首先你需要一些Python的基礎知識和相關的開發環境，沒有相關基礎的同學推薦可以先去網易雲的Mooc觀看學習相關教程 2.什麽是網絡爬蟲？　　我們上網會在瀏覽器中輸入連接，然後服務器會返回給我們相關的信

自學python爬蟲（五）BeautifulSoup庫的介紹

一、概念 BeautifulSoup是靈活又方便的網頁解析庫，處理高效。支援多種直譯器。利用它可以不用編寫正則表示式即可方便地實現網頁資訊的提取。二、解析庫三、例項講解下面用到的程式碼 html = """<html> <head>

自學Python爬蟲（一）認識爬蟲

1、爬蟲的概念這裡就不解析了，可自行百度拋連結： https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin 2、爬蟲的基本流程 2.1發起請求通過HTTP

Python爬蟲（一）：編寫簡單爬蟲之新手入門

最近學習了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的，今天寫一個針對新手入門想要學習爬蟲的文章，希望對想要學習的你能有所幫助~~廢話不多說，進入正文！

python爬蟲（一）---智聯招聘實戰

智聯校園招聘資料爬取 1 本次實驗只爬取一頁內容，適合入門學習xpath，excel檔案寫入。 2 url =‘https://xiaoyuan.zhaopin.com/full/538/0_0_160000_1_0_0_0_1_0’ 3 結尾會附上全部程式碼大神請繞過本部落格

python爬蟲（一）--------selenium+python+PhantomJS的使用

　　最近爬取相關網站時，發現沒有找到js包的地址，我就採用selenium來爬取資訊，相關實戰連結：python爬蟲實戰（一）--------中國作物種質資訊網一、Selenium介紹　　Selenium 是什麼？一句話，自動化測試工具。它支援各種瀏覽器，包括 Chr

python 爬蟲（一）urllib使用demo

import urllib.request #向指定的url地址發起請求，並返回伺服器響應的資料（檔案的物件） response = urllib.request.urlopen("http://www.baidu.com") #直接將檔案寫入指定路徑， filePath = r"C:/Use

Python 爬蟲（一）綜述

開始爬蟲之前先看看這些來打個底吧~ 1.首先，什麼是爬蟲呢？爬蟲（spider），可以理解為在網路上爬行的一隻蜘蛛，爬蟲在網際網路這張網上爬來爬去地找資源，如果它遇到想要的資源，就會把它抓取下來。至於什麼資源是想要的抓取的？這個由你來控制它咯。概括來說

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

python爬蟲（一）urllib庫基本使用

注，以下內容均為python3.5.*程式碼學習爬蟲，首先有學會使用urllib庫，這個庫可以方便的使我們解析網頁的內容，本篇講一下它的主要用法解析網頁 #!/usr/bin/env python3 # coding=utf-8 import u

零基礎入門Python爬蟲（一）

閱讀本篇大概需要 4 分鐘。前言很多人都或多或少聽說過 Python 爬蟲，我也一直很感興趣，所

python爬蟲（一）Urllib使用

爬蟲介紹網路爬蟲就是一個爬行程式，一個抓取網頁的程式。網路爬蟲的基本操作是抓取網頁，但爬蟲概念包括抓取和資料解析兩個部分。爬蟲是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址，然後通過這些連

Python爬蟲（一）--城市公交網路站點資料的爬取

作者：WenWu_Both 出處：http://blog.csdn.net/wenwu_both/article/ 版權：本文版權歸作者和CSDN部落格共有轉載：歡迎轉載，但未經作者同意，必須保留此段聲必須在文章中給出原文連結；否則必究法律責任

Python爬蟲（一）：爬蟲偽裝

1 簡介對於一些有一定規模或盈利性質比較強的網站，幾乎都會做一些防爬措施，防爬措施一般來說有兩種：一種是做身份驗證，直接把蟲子擋在了門口，另一種是在網站設定各種反爬機制，讓蟲子知難而返。 2 偽裝策略我們知道即使是一些規模很小的網站通常也會對來訪者的身份做一下檢查，如驗證請求 Headers，而對於

python手記（五）：requests寫爬蟲（一）：爬蟲簡介

上次將python的圖片處理庫簡單寫了下，也就基本處於玩的地步。哈哈，蠻嘲諷的，這次我嘗試著寫下爬蟲，有多深肯定是不敢保證的，畢竟能力有限。但是我會盡量去從原理上把爬蟲的東西說明白一些。讓大家有個直觀的認識，最後能自己寫出個簡單的定向小爬蟲，爬個小說，爬個圖片，爬首歌曲什麼的

編寫python web框架（一）：簡介

== web 方法 nvi ever pytho 必須 ext sim 編寫一個最簡單的應用： def app(environ, start_response): start_response(‘200 OK‘, [(‘Content-Type‘, ‘tex

python爬蟲（4）——正則表達式（一）

做了 cati 二手房表達發展他能 query nta package 　　　　在前幾篇文章中我們使用了python的urllib模塊，做了一些訪問網頁的工作。現在介紹一個非常強大的工具——正則表達式。在講述正則的時候，我參考了《精通正則表達式（第三版） --

python爬蟲（一）BeautifulSoup簡介

一、安裝Beautifulsoup

1、windows平臺

二、執行Beautifulsoup

解析本地網頁

解析線上網頁

三、可靠的網路連線

四、複雜HTML解析

通過屬性查詢標籤的方法

標籤組的使用

標籤解析樹的導航過程

相關推薦