Python BeautifulSoup 爬蟲入門筆記 --- 新聞爬蟲

阿新 • • 發佈：2018-11-11

    BeautifulSoup可以解析html檔案，配合request庫可以簡單快速地爬取一些網頁資訊。
    BeautifulSoup 參考資料：
    https://blog.csdn.net/maverick17/article/details/79610050
    https://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html

如下圖所示，以爬取環球網中國新聞為例，我們需要與“中國”有關的新聞的標題和正文：

首先根據Python中的request庫，定義一個頁面請求函式，該函式可以返回url對應的html頁面的內容：

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
    	print(url)
        print("failed") 

        return ""

然後分析網頁結構：
在這裡插入圖片描述

該頁面是一個搜尋結果頁面，所有的搜尋結果都是一個<li>標籤，並且類名為dotLightBot，並且該標籤下的第一個<a>標籤儲存了該條新聞的連結和標題資訊。那麼定義一個函式爬取該搜尋結果下所有新聞的標題和連結。這裡可使用BeautifulSoup中的html.parser解析頁面內容，根據findAll()、find_all()、find()、select()等一系列函式篩選找到我們所需內容的標籤，然後使用get_text()

直接獲取標籤內容，或者如a['href']直接取得標籤中的屬性值，將其整合成列表後返回。

def findUrls(html):
    ulist = []
    soup = BeautifulSoup(html, "html.parser")

    for item in soup.findAll("li", attrs={"class": "dotLightBot"}):
    	# 忽略掉圖集新聞
        if "圖集" in item.get_text():
            continue
        a = item.find('a')
        try:
              ulist.append({'title': a['title'], 'href': a['href']})
          except:
              print(item)
              print(a)
    return ulist

    此時可得到一系列新聞標題及其對應的超連結，但是我們需要得到新聞的正文，因此需要根據得到的連結再爬取新聞正文，開啟一條新聞的連結對頁面進行分析：
在這裡插入圖片描述
    可以發現正文內容均被封裝在id和class都為text的<div>下的<p>標籤中，此時可根據id或類名篩選出所需<div>即可（最好根據所需標籤的唯一屬性進行設定篩選條件，如果同時得到了其他不需要的標籤，需要進一步篩選）。
    所以可定義一個函式爬取之前獲得的新聞連結裡的正文內容，首先訪問新聞連結，然後篩選得到所需標籤，獲取其文字內容，然後將其拼接或其他處理即可。
    在這個函式中，我將其正文中的空格和回車刪除，拼接成了一長段話。考慮到小標題或者一些其他沒有結尾符的段落，則拼接時對其加上一個句號，防止產生的句子不通順。

def findArticles(ulist):
    atlist = []
    for url in ulist:
        ht = getHTMLText(url['href'])
        soup = BeautifulSoup(ht, "html.parser")
		# 刪除掉所有的指令碼標籤
        [s.extract() for s in soup('script')]
        
        for item in soup.select(".text"):
            text = item.get_text().split()
            ends = ('。', '？', '!', '。”',"？”", "！”")
            article = ""
            for s in text:
                if s=="":
                    continue
                if s.endswith(ends):
                    article += s
                else:
                    article += s + '。'
                    
            at = {'title': url['title']}
            at['article'] = article
            if at['article']!="" and at['title']!="":
                atlist.append(at)
    return atlist

    在這個過程中有一個小問題，比如使用a.get_text()或者a.string都可以獲取標籤內容，但是如果該標籤下仍有子標籤，a.string將會報錯，get_text()會將子標籤的內容一起返回。
    最後，翻頁時只需要修改初始url即可，一般網站搜尋結果的分頁顯示都是url中的一個page引數遞增記錄的。爬取99頁搜尋結果，並且將所有內容轉化成json檔案，得到結果如下：
在這裡插入圖片描述
    所有程式碼如下：

# -*- coding:utf-8 -*-  
import requests
from bs4 import BeautifulSoup
import bs4
import json


def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print(url)
        print("failed")
        return ""

def findUrls(html):
    ulist = []
    soup = BeautifulSoup(html, "html.parser")

    for item in soup.findAll("li", attrs={"class": "dotLightBot"}):
    	# 忽略掉圖集新聞
        if "圖集" in item.get_text():
            continue
        a = item.find('a')
        try:
            ulist.append({'title': a['title'], 'href': a['href']})
        except:
            print(item)
            print(a)
    return ulist

def findArticles(ulist):
    atlist = []
    for url in ulist:
        ht = getHTMLText(url['href'])
        soup = BeautifulSoup(ht, "html.parser")
		# 刪除掉所有的指令碼標籤
        [s.extract() for s in soup('script')]
        
        for item in soup.select(".text"):
            text = item.get_text().split()
            ends = ('。', '？', '!', '。”',"？”", "！”")
            article = ""
            for s in text:
                if s=="":
                    continue
                if s.endswith(ends):
                    article += s
                else:
                    article += s + '。'
                    
            at = {'title': url['title']}
            at['article'] = article
            if at['article']!="" and at['title']!="":
                atlist.append(at)
    return atlist

def main():
    atlist = []
    url = "http://s.huanqiu.com/s/?q=%E4%B8%AD%E5%9B%BD&p="
    for i in range(99):
        print("page is " + str(i+1))
        print("json size is " + str(len(atlist)))
        html = getHTMLText(url + str(i+1))
        ulist = findUrls(html)
        at = findArticles(ulist)
        atlist.extend(at)
    
    print(len(atlist))
    with open("huanqiu.json","w", encoding='utf-8') as fin:
        json.dump(atlist, fin, ensure_ascii=False)

main()

Python BeautifulSoup 爬蟲入門筆記 --- 新聞爬蟲

BeautifulSoup可以解析html檔案，配合request庫可以簡單快速地爬取一些網頁資訊。 BeautifulSoup 參考資料： htt

Python 爬蟲入門筆記1(for myself)

一、requests入門 1. requests的基本內容 request()構造一個請求，支撐一下各個方法的基礎方法 requests.request(method,url,**kwargs) 七種方法 method: 請求方式 requests.request(‘GET’,u

Python爬蟲入門筆記：一個簡單的爬蟲架構

上次我們從對爬蟲進行簡單的介紹，今天我們引入一個簡單爬蟲的技術架構，解釋爬蟲技術架構中的幾個模組，對爬蟲先有一個整體的認知，方便對爬蟲的理解和後面的程式設計。簡單的爬蟲架構：URL管理、網頁下載、網頁解析、輸出部分，如下圖： 1、UR

爬蟲入門筆記

collect head 有一個 cnblogs ted col https 指定爬蟲爬蟲，在網絡中爬行的一只蜘蛛，如遇到資源，就會按指定的規則抓取下來爬蟲爬取HTML代碼後，通過分析和過濾這些HTML代碼，實現對圖片，文字等資源的獲取 URL的格式由三部分組成：　

Python爬蟲入門 | 3 爬蟲必備Python知識

Python Python入門 Pyth這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~ 好啦，正式開始我們的第三節課《爬蟲必備Python知識》

爬蟲入門，爬蟲簡單的入門庫Beautifulsoup庫,解析網頁，簡單用法-案例篇（5）

BeautifulSoup 庫是一個非常流行的Python的模組。通過BeautifulSoup 庫可以輕鬆的解析請求庫請求的網頁，並把網頁原始碼解析為湯文件，以便過濾提取資料

python3 [爬蟲入門實戰]爬蟲之mongoDB資料庫的安裝配置與視覺化

從安裝過程到視覺化工具可檢視資料資訊，歷時兩天，昨天坐了一天的火車，今天早上才到的青島–> 來放鬆心情。前天說是要學習如何使用mongoDB的連結與安裝。到今天過去了將一天，不過還是在函兮的嘮叨下慢慢的安裝好了，確實來之不易，一臉懵逼

11歲表弟寫的Python零基礎入門筆記！

一、Python輸入與輸出輸出：使用print()函式。 print()函式的基本語法格式如下：print(輸出內容)。輸出內容可以是數字和字串（字串需要用引號括起來），也可以是包含運算子的表示式（輸出內容為計算的結果）

Python資料科學入門-筆記01

Python資料科學入門慕課網課程學習筆記學習環境 win10 + 虛擬機器centos7 + python3 第一節 Annconda 基本介紹一、Anaconda 介紹 1.Anaconda 介紹 Anaconda

python3 [爬蟲入門實戰]爬蟲之scrapy爬取中國醫學人才網

自己第一次試著用scrapy進行爬取網頁，總共爬下9240條資料，也就兩分鐘不到，400多頁吧。用的比較簡單，但是爬取成功後感覺成就感滿滿的。來張爬取結果圖爬取欄位： “hospitalName”: “hospitalDesc”

python3 [爬蟲入門實戰]爬蟲之scrapy安裝與配置教程

不得不說，自己經歷過的，才是真的經歷過，有很多網上的教程並不是很好，都是一把辛酸淚啊。網上很多教程都是python2.7的，少有python3的教程，找起資料來還是挺難的。搞了算是蠻久的，一個上午加上半個晚上，不過最終還是搞出來了總結一下：方法對了，安裝的方法還是蠻簡單的前人的經驗，別一開始就上

python課程設計筆記(五) ----Resuests+BeautifulSoup （爬蟲入門）

官方參考文件（中文版）： requests：http://docs.python-requests.org/zh_CN/latest/user/quickstart.html beautifulsoup：https://www.crummy.com/software/BeautifulSoup/bs4/d

Python爬蟲實習筆記 | Week2 Python正則和BeautifulSoup學習與試煉

2018/10/22 23 1.所思所想：今天狀態一直不佳，一是因為自己晚上晚睡，睡眠不足，比較睏倦;二是自己爬蟲基礎還不牢靠，還需要努力學習，比較慚愧;三是之前的專案，組長趙某乃不值得信賴之人物，使得自己多生煩憂，《MySQL》也上交了。。還好下午把學長寫的爬蟲跑通了，今天下午把程式碼理解一遍，然

python爬蟲學習筆記四：BeautifulSoup庫對HTML文字進行操作

只要你提供的資訊是標籤，就可以很好的解析怎麼使用BeautifulSoup庫？ from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data<p>','html.parser'）例如： import

Python學習筆記--Python 爬蟲入門 -18-2 Scrapy-shell

# scrapy-shell - scrapy shell教程 - shell - 啟動 - Linux： ctr+T,開啟終端，然後輸入scrapy shell "url:xxxx" - windows: scrapy shell "url:xxx"

python爬蟲學習筆記-使用BeautifulSoup解析html

之前抓取豆瓣圖書Top250的時候，獲取內容使用的方法是正則表示式匹配，看上去是一種比較簡潔的方法，但問題在於，正則表示式的編寫必須非常細心，一旦出了任何小問題，就會導致得不到想要的結果。熟悉html的話，不難想到可以利用節點之間的結構和層級關係來作區分並進一步獲取節點內想要的文字。於是B

python爬蟲入門八：多程序/多執行緒 python佇列Queue Python多執行緒（2）——執行緒同步機制 python學習筆記——多程序中共享記憶體Value & Array python 之多程序 Python多程序 Python 使用multiprocessing 特別耗記

什麼是多執行緒/多程序引用蟲師的解釋：計算機程式只不過是磁碟中可執行的，二進位制（或其它型別）的資料。它們只有在被讀取到記憶體中，被作業系統呼叫的時候才開始它們的生命期。程序（有時被稱為重量級程序）是程式的一次執行。每個程序都有自己的地址空間，記憶體，資料棧以及其它記錄其執行軌跡的輔助資料

Python BeautifulSoup 爬蟲入門筆記 --- 新聞爬蟲

Python BeautifulSoup 爬蟲入門筆記 --- 新聞爬蟲

Python 爬蟲入門筆記1(for myself)

Python爬蟲入門筆記：一個簡單的爬蟲架構

爬蟲入門筆記

Python爬蟲入門 | 3 爬蟲必備Python知識

爬蟲入門，爬蟲簡單的入門庫Beautifulsoup庫,解析網頁，簡單用法-案例篇（5）

python3 [爬蟲入門實戰]爬蟲之mongoDB資料庫的安裝配置與視覺化

11歲表弟寫的Python零基礎入門筆記！

Python資料科學入門-筆記01

python3 [爬蟲入門實戰]爬蟲之scrapy爬取中國醫學人才網

python3 [爬蟲入門實戰]爬蟲之scrapy安裝與配置教程

python課程設計筆記(五) ----Resuests+BeautifulSoup （爬蟲入門）

Python爬蟲實習筆記 | Week2 Python正則和BeautifulSoup學習與試煉

python爬蟲學習筆記四：BeautifulSoup庫對HTML文字進行操作

Python學習筆記--Python 爬蟲入門 -18-2 Scrapy-shell

python爬蟲學習筆記-使用BeautifulSoup解析html

python爬蟲入門八：多程序/多執行緒 python佇列Queue Python多執行緒（2）——執行緒同步機制 python學習筆記——多程序中共享記憶體Value & Array python 之多程序 Python多程序 Python 使用multiprocessing 特別耗記

python爬蟲學習筆記3：bs4及BeautifulSoup庫學習

python爬蟲入門-Scrapy的安裝

7-13爬蟲入門之BeautifulSoup對網頁爬取內容的解析

Python BeautifulSoup 爬蟲入門筆記 --- 新聞爬蟲

相關推薦