使用Python的BeautifulSoup庫實現一個可以爬取1000條百度百科數據的爬蟲

阿新 • • 發佈：2018-02-23

otto 提取數據 tps summary 簡介標題格式段落字典如果

BeautifulSoup模塊介紹和安裝

BeautifulSoup
- BeautifulSoup是Python的第三方庫，用於從HTML或XML中提取數據，通常用作於網頁的解析器
- BeautifulSoup官網： https://www.crummy.com/software/BeautifulSoup/
- 官網文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 中文文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

BeautifulSoup安裝很簡單，我們可以直接使用pip來安裝BeautifulSoup，安裝命令如下：

pip install beautifulsoup4

如果使用的IDE是Pycharm的話，安裝更簡單，直接編寫導入模塊的語句：import bs4，然後會報錯，提示模塊不存在，接著按 alt + 回車，會出現錯誤修正提示，最後選擇安裝模塊即可自動安裝。

安裝完成之後編寫一段測試代碼：

import bs4

print(bs4)

如果執行這段代碼，並且正常輸出沒有報錯則代表已經安裝成功。

BeautifulSoup的語法：
技術分享圖片

訪問節點信息：
技術分享圖片

語法格式：

from bs4 import BeautifulSoup
import re

# 根據HTML網頁字符串內容創建BeautifulSoup對象
soup = BeautifulSoup(html_doc,              # HTML文檔字符串
                     ‘html.parser‘,         # HTML解析器
                     from_encoding=‘utf-8‘  # HTML文檔的編碼，在python3中不需要加上這個參數
                     )

# 方法：find_all(name, attrs, string)

# 查找所有標簽為 a 的節點
soup.find_all(‘a‘)

# 查找所有標簽為 a 的節點，並鏈接符合/view/123.html形式的節點
soup.find_all(‘a‘, href=‘/view/123.html‘)
soup.find_all(‘a‘, href=re.compile(‘/view/\d+\.html‘))

# 查找所有標簽為div，class為abc，標簽內容為Python的節點
soup.find_all(‘div‘, class_=‘abc‘, string=‘標簽內容為Python的節點‘)

# 得到節點：<a href=‘1.html‘>Python</a>

# 獲取查找到的節點的標簽名稱
node.name

# 獲取查找到的a節點的href屬性
node[‘href‘]

# 獲取查找到的a節點的鏈接文字
node.get_text()

實際的測試代碼：

from bs4 import BeautifulSoup
import re

html_doc = """
<html><head><title>The Dormouse‘s story</title></head>
<body>
<p class="title"><b>The Dormouse‘s story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

# 創建BeautifulSoup對象
soup = BeautifulSoup(html_doc, ‘html.parser‘)

print("獲取所有的連接")
links = soup.find_all(‘a‘)
for link in links:
    print(link.name, link[‘href‘], link.get_text())

print("\n獲取lacie的連接")
link_node = soup.find(‘a‘, href=‘http://example.com/lacie‘)
print(link_node.name, link_node[‘href‘], link_node.get_text())

print("\n使用正則表達式進行匹配")
link_node = soup.find(‘a‘, href=re.compile(r"ill"))
print(link_node.name, link_node[‘href‘], link_node.get_text())

print("\n獲取p段落文字")
p_node = soup.find(‘p‘, class_="title")
print(p_node.name, p_node.get_text())

實例爬蟲

簡單了解了BeautifulSoup並且完成了BeautifulSoup的安裝後，我們就可以開始編寫我們的爬蟲了。

我們編寫一個簡單的爬蟲一般需要完成以下幾個步驟：

確定目標
- 確定要爬取的網頁，例如本實例要爬取的是百度百科與Python相關的詞條網頁以及標題和簡介
分析目標
- 分析目標網頁的URL格式，避免抓取不相幹的URL
- 分析要抓取的數據格式，例如本實例中要抓取的是標題和簡介等數據
- 分析目標網頁的編碼，不然有可能在使用解析器解析網頁內容時會出現亂碼的情況
編寫代碼
- 分析完目標頁面後就是編寫代碼去進行數據的爬取
執行爬蟲
- 代碼編寫完成之後，自然是執行這個爬蟲，測試能否正常爬取數據

開始分析本實例需要爬取的目標網頁：

目標：百度百科Python詞條相關詞條網頁-標題和簡介
入口頁：https://baike.baidu.com/item/Python/407313
URL格式：
- 詞條頁面URL：/item/name/id 或者 /item/name/，例：/item/C/7252092 或者 /item/Guido%20van%20Rossum
數據格式：
- 標題格式：
  - <dd class="lemmaWgt-lemmaTitle-title"><h1>***</h1>***</dd>
- 簡介格式：
  - <div class="lemma-summary" label-module="lemmaSummary">***</div>
頁面編碼：UTF-8

分析完成之後開始編寫實例代碼

該爬蟲需要完成的目標：爬取百度百科Python詞條相關1000個頁面數據

首先創建一個工程目錄，並在目錄下創建一個python包，在該包下創建相應的模塊文件，如下圖：
技術分享圖片

spider_main：爬蟲調度器程序，也是主入口文件
url_manager：url管理器，管理並存儲待爬取的url
html_downloader：下載器，用於下載目標網頁的內容
html_parser：解析器，解析下載好的網頁內容
html_outputer：輸出器，將解析後的數據輸出到網頁上或控制臺中

爬蟲調度器程序代碼：

‘‘‘
    爬蟲調度器程序，也是主入口文件
‘‘‘

import url_manager, html_downloader, html_parser, html_outputer

class SpiderMain(object):
    # 初始化各個對象
    def __init__(self):
        self.urls = url_manager.UrlManager()  # url管理器
        self.downloader = html_downloader.HtmlDownloader()  # 下載器
        self.parser = html_parser.HtmlParser()  # 解析器
        self.outputer = html_outputer.HtmlOutputer()  # 輸出器

    # 爬蟲調度方法
    def craw(self, root_url):
        # 記錄當前爬取的是第幾個URL
        count = 1
        # 將入口頁面的url添加到url管理器裏
        self.urls.add_new_url(root_url)

        # 啟動爬蟲的循環
        while self.urls.has_new_url():
            try:
                # 獲取待爬取的url
                new_url = self.urls.get_new_url()

                # 每爬取一個頁面就在控制臺打印一下
                print("craw", count, new_url)

                # 啟動下載器來下載該url的頁面內容
                html_cont = self.downloader.download(new_url)

                # 調用解析器解析下載下來的頁面內容，會得到新的url列表及新的數據
                new_urls, new_data = self.parser.parse(new_url, html_cont)

                # 將新的url列表添加到url管理器裏
                self.urls.add_new_urls(new_urls)

                # 收集解析出來的數據
                self.outputer.collect_data(new_data)

                # 當爬取到1000個頁面時則停止爬取
                if count == 1000:
                    break

                count += 1

            except:
                # 爬取時出現異常則在控制臺中輸出一段文字
                print("craw failed")

        # 輸出處理好的數據
        self.outputer.output_html()

# 判斷本模塊是否作為入口文件被執行
if __name__ == "main":
    # 目標入口頁面的URL
    root_url = "https://baike.baidu.com/item/Python/407313"
    obj_spider = SpiderMain()
    # 啟動爬蟲
    obj_spider.craw(root_url)

url管理器代碼：

‘‘‘
    url管理器，管理並存儲待爬取的url。

    url管理器需要維護兩個列表，一個是
    待爬取的url列表，另一個是已爬取的
    url列表。
‘‘‘

class UrlManager(object):
    def __init__(self):
        self.new_urls = set()  # 待爬取的url列表
        self.old_urls = set()  # 已爬取的url列表

    def add_new_url(self, url):
        ‘‘‘
        向管理器中添加新的url，也就是待爬取的url
        :param url: 新的url
        :return:
        ‘‘‘
        # url為空則結束
        if url is None:
            return

        # 該url不在兩個列表中才是新的url
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)

    def add_new_urls(self, urls):
        ‘‘‘
        向管理器中批量添加新的url
        :param urls: 新的url列表
        :return:
        ‘‘‘
        if urls is None or len(urls) == 0:
            return

        for url in urls:
            self.add_new_url(url)

    def has_new_url(self):
        ‘‘‘
        判斷管理器中是否有待爬取的url
        :return: True 或 False
        ‘‘‘
        return len(self.new_urls) != 0

    def get_new_url(self):
        ‘‘‘
        從url管理器中獲取一個待爬取的url
        :return: 返回一個待爬取的url
        ‘‘‘
        # 出棧一個url，並將該url添加在已爬取的列表中
        new_url = self.new_urls.pop()
        self.old_urls.add(new_url)

        return new_url

下載器代碼：

‘‘‘
    下載器，用於下載目標網頁的內容
‘‘‘

from urllib import request

class HtmlDownloader(object):
    def download(self, url):
        ‘‘‘
        下載url地址的頁面內容
        :param url: 需要下載的url
        :return: 返回None或者頁面內容
        ‘‘‘
        if url is None:
            return None

        response = request.urlopen(url)
        if response.getcode() != 200:
            return None

        return response.read()

解析器代碼：

‘‘‘
    解析器，解析下載好的網頁內容
‘‘‘
import re
import urllib.parse

from bs4 import BeautifulSoup

class HtmlParser(object):
    def parse(self, page_url, html_cont):
        ‘‘‘
        解析下載好的網頁內容
        :param page_url: 頁面url
        :param html_cont: 網頁內容
        :return: 返回新的url列表及解析後的數據
        ‘‘‘
        if page_url is None or html_cont is None:
            return

        soup = BeautifulSoup(html_cont, ‘html.parser‘)
        new_urls = self._get_new_urls(page_url, soup)
        new_data = self._get_new_data(page_url, soup)

        return new_urls, new_data

    def _get_new_urls(self, page_url, soup):
        ‘‘‘
        得到新的url列表
        :param page_url:
        :param soup:
        :return:
        ‘‘‘
        new_urls = set()

        # 詞條頁面URL：/item/name/id 或者 /item/name/，例：/item/C/7252092 或者 /item/Guido%20van%20Rossum
        links = soup.find_all(‘a‘, href=re.compile(r"/item/(.*)"))
        for link in links:
            new_url = link[‘href‘]
            # 拼接成完整的url
            new_full_url = urllib.parse.urljoin(page_url, new_url)
            new_urls.add(new_full_url)

        return new_urls

    def _get_new_data(self, page_url, soup):
        ‘‘‘
        解析數據，並返回解析後的數據
        :param page_url:
        :param soup:
        :return:
        ‘‘‘
        # 使用字典來存放解析後的數據
        res_data = {}

        # url
        res_data[‘url‘] = page_url

        # 標題標簽格式：<dd class="lemmaWgt-lemmaTitle-title"><h1>***</h1>***</dd>
        title_node = soup.find(‘dd‘, class_=‘lemmaWgt-lemmaTitle-title‘).find(‘h1‘)
        res_data[‘title‘] = title_node.get_text()

        # 簡介標簽格式：<div class="lemma-summary" label-module="lemmaSummary">***</div>
        summary_node = soup.find(‘div‘, class_=‘lemma-summary‘)
        res_data[‘summary‘] = summary_node.get_text()

        return res_data

輸出器代碼：

‘‘‘
    輸出器，將解析後的數據輸出到網頁上
‘‘‘

class HtmlOutputer(object):
    def __init__(self):
        # 存儲解析後的數據
        self.datas = []

    def collect_data(self, data):
        ‘‘‘
        收集數據
        :param data:
        :return:
        ‘‘‘
        if data is None:
            return

        self.datas.append(data)

    def output_html(self):
        ‘‘‘
        將收集的數據以html的格式輸出到html文件中，我這裏使用了Bootstrap
        :return:
        ‘‘‘
        fout = open(‘output.html‘, ‘w‘, encoding=‘utf-8‘)

        fout.write("<!DOCTYPE html>")
        fout.write("<html>")
        fout.write(‘<head>‘)
        fout.write(‘<meta charset="UTF-8" />‘)
        fout.write(
            ‘<link rel="stylesheet" href="https://cdn.bootcss.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" crossorigin="anonymous"/>‘)
        fout.write(‘</head>‘)
        fout.write("<body>")
        fout.write(
            ‘<div style="width: 1000px;margin: auto" class="bs-example" data-example-id="bordered-table" ><table class="table table-bordered table-striped" >‘)
        fout.write(
            ‘<thead><tr style="height: 70px;font-size: 20px"><th style="text-align: center;vertical-align: middle;width: 60px">#</th><th style="text-align: center;vertical-align: middle;width: 150px">URL & 標題</th><th style="text-align: center;vertical-align: middle;">簡介</th></tr></thead><tbody>‘)

        num = 0
        for data in self.datas:
            fout.write("<tr>")
            fout.write("<th style=‘text-align: center;vertical-align: middle;‘ scope=‘row‘>%d</th>" % num)
            fout.write("<td style=‘text-align: center;vertical-align: middle;‘><a href=%s>%s</a></td>" % (
                data[‘url‘], data[‘title‘]))
            fout.write("<td>%s</td>" % data[‘summary‘])
            fout.write("</tr>")
            num += 1

        fout.write("</tbody></table></div>")
        fout.write("</body>")
        fout.write("</html>")

        fout.close()

運行效果：

控制臺輸出：
技術分享圖片

生成的html文件：
技術分享圖片

至此，我們一個簡單的爬蟲就完成了。

源碼GitHub地址：

https://github.com/Binary-ZeroOne/easy-spider

使用Python的BeautifulSoup庫實現一個可以爬取1000條百度百科數據的爬蟲

otto 提取數據 tps summary 簡介標題格式段落字典如果 BeautifulSoup模塊介紹和安裝 BeautifulSoup BeautifulSoup是Python的第三方庫，用於從HTML或XML中提取數據，通常用作於網頁的解析器 Beauti

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

python3爬取1000個百度百科頁面（二）

五、爬蟲流程六、程式碼結構：爬蟲排程器（入口）--url管理器--url下載器--解析器--輸出器 spider_main.py(入口) from baike_spider import url_manager

python3爬取1000個百度百科頁面（一）

一、基本概念爬蟲：一段自動抓取網際網路資訊的程式二、簡單爬蟲架構１、URL管理器：管理已經爬取和未曾爬取的url，防止重複、迴圈抓取 &

python實現爬取30頁百度校園女神圖片！

dpi 分享圖片 ges pat path lis 校園 one sha 1、以下是源代碼import requestsimport osdef getManyPages(keyword,pages): params=[] for i in range(30,3

股票交易日定時爬取上交所/深交所所有股票行情數據存儲到數據庫

prim bubuko urn 數據存儲 ont 交易 info mon 深圳一、該項目主要分以下三步組成：配置數據庫信息編寫爬蟲腳本配置Jenkins定時任務查看采集結果二、詳細過程 1.配置數據庫信息建表語句, 以其中部分字段為例： CREATE T

百度地圖POI數據爬取，突破百度地圖API爬取數目“400條“的限制11。

XML response city 代碼實現 append api json highlight inf 1.POI爬取方法說明 1.1AK申請　　登錄百度賬號，在百度地圖開發者平臺的API控制臺申請一個服務端的ak,主要用到的是Place API.檢校方式可設置成I

Scrapy爬取豆瓣電影top250的電影數據、海報，MySQL存儲

p地址 rom gin ani char 代碼 pipeline print 關閉數據庫從GitHub得到完整項目（https://github.com/daleyzou/douban.git）1、成果展示數據庫本地海報圖片2、環境（1）已安裝Scrapy的Pycharm

網站爬取-案例二：天貓爬取( 第一卷：首頁數據抓取)

img .com 我想提供商網站 col class scoller bubuko 說到網站數據的爬取，目前為止我見過最復雜的就是天貓了，現在我想對它進行整站的爬取我們先來看下天貓主頁的界面天貓頁面很明顯是動態頁面所以我們需要用selenium模塊首先

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

Python爬蟲爬取OA幸運飛艇平臺獲取數據

sta 獲取數據 status fail attrs color wrapper 排行榜 req 安裝BeautifulSoup以及requests 打開window 的cmd窗口輸入命令pip install requests 執行安裝，等待他安裝完成就可以了 Beaut

Scrapy:虎牙爬取，圖片存儲與數據分析

alt 數據分析 mage 加載 ram data afr frame bubuko 第一次爬取虎牙主播數據，有點小激動 1.共批量爬取的101個主播的，包括頭像主播名字房間號房間鏈接 2.數據規整部分，需要將json數據加載到pandas的Dataframe，

25.爬取去哪兒網的商品數據-2

爬取商品數據註意 alt coo url 獲取配置信息需要註意的問題：1.首先要獲取dep和query參數。2.分析請求的url地址變化，獲取routeCount參數。我配置代碼出現的問題：1.url拼接問題，網站拒絕訪問，模擬請求參數設置user-agen

神級python碼農教你爬取並儲存百度雲資源，你懂得~

網路爬蟲又被稱為網路機器人，網頁蜘蛛，在FOAF社群中間稱為網頁追逐者。是按照一定的規則，自動抓取資訊的程式或者指令碼。這篇文章主要介紹Python爬蟲框實戰之抓取並儲存百度雲資源！免費給廣大python愛好者提供資源！）尋找並分析百度雲的轉存api 首先你得有一個

爬蟲2 urllib3 爬取30張百度圖片

other utf tab class eight find thumb height spa import urllib3 import re # 下載百度首頁頁面的所有圖片 # 1. 找到目標數據 # page_url = ‘http://image.baidu

Scrapy實戰篇（二）之爬取鏈家網成交房源數據（下）

html win64 4.0 https set 爬蟲使用創建鼓樓區在上一小節中，我們已經提取到了房源的具體信息，這一節中，我們主要是對提取到的數據進行後續的處理，以及進行相關的設置。數據處理我們這裏以把數據存儲到mongo數據庫為例。編寫pipelines.p

Scrapy實戰篇（一）之爬取鏈家網成交房源數據（上）

meta pat 分割自定義是不是 rom 創建開始 mat 今天，我們就以鏈家網南京地區為例，來學習爬取鏈家網的成交房源數據。這裏推薦使用火狐瀏覽器，並且安裝firebug和firepath兩款插件，你會發現，這兩款插件會給我們後續的數據提取帶來很大的方便。首先

Python-selenium翻頁爬取csdn博客保存數據入mysql

一個數據截圖代碼 on() 博客 cat utf8 data csdn博客部分截圖博客鏈接：https://blog.csdn.net/kevinelstri/article/list/1? 此次目的是要爬取文章標題，發表文章時間以及閱讀數量 1.瀏覽器

Scrapy實戰篇（九）之爬取鏈家網天津租房數據

房子爬取思路頁面 scrapy more 關心分析網上　　以後有可能會在天津租房子，所以想將鏈家網上面天津的租房數據抓下來，以供分析使用。　　思路：　　1、以初始鏈接https://tj.lianjia.com/zufang/rt200600000001

xpath爬蟲例項，爬取圖片網站百度盤地址和提取碼

某套圖網站，套圖以封面形式展現在頁面，需要依次點選套圖，點選廣告盤連結，最後到達百度網盤展示頁面。這一過程通過爬蟲來實現，收集百度網盤地址和提取碼，採用xpath爬蟲技術 1、首先分析圖片列表頁，該頁按照更新先後順序暫時套圖封面，檢視HTML結構。每一組“li”對應一組套圖。屬

使用Python的BeautifulSoup庫實現一個可以爬取1000條百度百科數據的爬蟲

實例爬蟲

我們編寫一個簡單的爬蟲一般需要完成以下幾個步驟：

開始分析本實例需要爬取的目標網頁：

分析完成之後開始編寫實例代碼

相關推薦