【Python3爬蟲-爬小說】爬取某小說網小說1/2--利用網址順序抓

阿新 • • 發佈：2018-11-20

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。

練習目標：爬取https://b.faloo.com/BuyBook.aspx?id=526024 《我的高中女友門》

解釋請看程式碼註釋：

主要是網頁是xxx/1.html，xxx/2.html這種數字遞增的網頁；小說內容在id=content這個地方。

from bs4 import BeautifulSoup
import urllib.request


def down(url, num):

    # 獲取網頁
    response = urllib.request.urlopen(url)
    html = response.read().decode('gbk')  # 編碼格式gb2312,utf-8,GBK
    html_string = str(html)  # 轉換成string，可以直接向資料庫新增

    soup = BeautifulSoup(html_string, "html.parser")  # 解析網頁標籤

    try:
        # 匹配抓取區域
        # pid = soup.find(attrs={"id": "content"})
        pid = str(soup.findAll('div', {"id": "content"})[0])
        print("當前頁數=" + str(num))
        print(type(pid))

        # 將抓取區域儲存至txt檔案
        fh = open('我的高中女友們.txt', 'a', encoding='utf-8')  # 制定txt編碼，避免中文編碼解析報錯。a可以持續寫入檔案，w每次會覆蓋之前的內容
        fh.write(pid)
        fh.close()
        print("頁數=" + str(num) + "寫入完成")
    except:
        print("報錯頁數=" + str(num))

    pass


# 有多少個該小說網頁
num = 1  # 開始頁
while num <= 50:  # 結束頁
    down("https://b.faloo.com/p/526024/" + str(num) + ".html", num)
    num += 1
    pass
else:
    print("完成")
    pass

【Python3爬蟲-爬小說】爬取某小說網小說1/2--利用網址順序抓

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 練習目標：爬取https://b.faloo.com/BuyBook.aspx?id=526024 《我的高中女友門》 - 解釋請看程式碼註釋：主要是網頁是xxx/1.h

【Python3 爬蟲學習筆記】解析庫的使用 4 —— Beautiful Soup 2

父節點和祖先節點如果要獲取某個節點元素的父節點，可以呼叫parent屬性： html = """ <html> <head> <title>The Dormouse's story</title> </head> <

【Python3 爬蟲學習筆記】解析庫的使用 9 —— 使用pyquery 2

遍歷 pyquery的選擇結果可能是多個節點，也可能是單個節點，型別都是PyQuery型別，並沒有返回像Beautiful Soup那樣的列表。對於單個節點來說，可以直接列印輸出，也可以直接轉成字串： from pyquery import PyQuery as pq doc =

【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存 1

CSV，全稱為Comma-Separated Values，中文可以叫作逗號分隔符或字元分隔值，其檔案以純文字形式儲存表格資料。該檔案時一個字元序列，可以由任意數目的記錄組成，記錄間以某種換行符分隔。每條記錄由欄位組成，欄位間的分隔符是其他字元或字串，最常見的是

【Python3 爬蟲學習筆記】動態渲染頁面爬取 2

動作鏈在互動操作中，一些互動動作都是針對某個節點執行的。比如，對於輸入框，我們就呼叫它的輸入文字和清空文字方法；對於按鈕，就呼叫它的點選方法。其實，還有另外一些操作，它們沒有特定的執行物件，比如滑鼠拖曳、鍵盤按鍵等，這些動作用另一種方式來執行，那就是動作鏈。

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

【Python3 爬蟲學習筆記】動態渲染頁面爬取 3 —— Selenium的使用 3

切換Frame 網頁中有一種節點叫作iframe，也就是子Frame，相當於頁面的子頁面，它的結構和外部頁面的結構完全一致。Selenium開啟頁面後，它預設是在父級Frame裡面操作，而此時如果頁面中海油子Frame，它是不能獲取到子Frame裡面的額節點的。

【python爬蟲自學筆記】-----爬取網易雲歌單中歌曲歌詞

工具：python3.6 ，pycharm 開始對網頁的內容進行爬取的時候，使用requests獲得響應，只傳url，但是沒有獲得響應，使用urllib新增請求頭部，並對response的內容使用utf-8進行解碼，使用BeautifulSoup轉換為html物件，

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

四、抓取貓眼電影排行 4.1 抓取分析需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊，如下圖所示：排名第一的電影是霸王別姬，頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。將網頁滾動到最下方，

【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存

CSV，全稱為Comma-Separated Values，中文可以叫作逗號分隔符或字元分隔值，其檔案以純文字形式儲存表格資料。該檔案時一個字元序列，可以由任意數目的記錄組成，記錄間以某種換行符分隔。每條記錄由欄位組成，欄位間的分隔符是其他字元或字串，最常見的是逗號或製表符。不過所有記錄都有

【Python3 爬蟲學習筆記】基本庫的使用 8—— 正則表示式 1

三、正則表示式 1.例項引入開啟開源中國提供的正則表示式測試工具 http://tool.oschina.net/regex/ ，輸入待匹配的文字，然後選擇常用的正則表示式，就可以得出相應的匹配結果。對於URL來說，可以用下面的正則表示式匹配： [a-zA-z]+://[^\

【Python3 爬蟲學習筆記】基本庫的使用 7 —— 使用requests

抓取二進位制資料前面我們抓取知乎的一個頁面，實際上它返回的是一個HTML文件。如何抓取圖片、音訊、視訊？圖片、音訊、視訊這些檔案本質上都是由二進位制碼組成的，由於有特定的儲存格式和對應的解析方式，我們才可以看到這些形形色色的多媒體，所以要抓取它們，就要拿到它們的二進位制碼。抓取

【Python3 爬蟲學習筆記】基本庫的使用 12—— 正則表示式 5

6. compile() compile()方法可以將正則字串編譯成正則表示式物件，以便在後面的匹配中複用。示例程式碼如下： import re content1 = '2016-12-15 12:00' content2 = '2016-12-17 12:55' content3

【Python3 爬蟲學習筆記】基本庫的使用 11—— 正則表示式 4

4. findall() search()方法可以返回匹配正則表示式的第一個內容，但是如果想要獲取匹配正則表示式的所有內容，就要藉助findall()方法了。該方法會搜尋整個字串，然後返回匹配正則表示式的所有內容。上一節中的HTML文字中，如果想要獲得所有a節點的超連結、歌手和歌名，就

【Python3 爬蟲學習筆記】基本庫的使用 10—— 正則表示式 3

3.search() mathch()方法是從字串的開頭開始匹配的，一旦開頭不匹配，那麼整個匹配就失敗了。因為match()方法在使用時需要考慮到開頭的內容，這在匹配時並不方便。它更適合用來檢測某個字串是否符合某個正則表示式的規則。 search()方法在匹配時會掃描整個字串，然後返回第

【Python3 爬蟲學習筆記】基本庫的使用 9—— 正則表示式 2

1.1 匹配目標如果想從字串中提取出一部分內容，可以用()括號將想提取的子字串括起來。()實際上標記了一個子表示式的開始和結束位置，被標記的每個子表示式會一次對應一個分組，呼叫group()方法傳入分組的索引即可獲取提取的結果。示例如下： import re content =

【Python3 爬蟲學習筆記】解析庫的使用 3 —— Beautiful Soup 1

Beautiful Soup可以藉助網頁的結構和屬性等特性來解析網頁。有了Beautiful Soup，我們不用再去寫一些複雜的正則表示式，只需要簡單的幾條語句，就可以完成網頁中某個元素的提取。 Beautiful Soup是Python的一個HTML或XML的解析庫，可以用它來方便地從

【Python3 爬蟲學習筆記】解析庫的使用 2 —— 使用XPath 2

8. 文字獲取我們使用XPath中的text()方法獲取節點中文字，接下來嘗試獲取前面li節點中的文字，相關程式碼如下： from lxml import etree html = etree.parse('./test.html', etree.HTMLParser()) re

【Python3 爬蟲學習筆記】解析庫的使用 1 —— 使用XPath 1

XPath，全稱XML Path Language，即XML路徑語言，它是一門在XML文件中查詢資訊的於洋。它最初是用來搜尋XML文件的，但它同樣適用於HTML文件的搜尋。 1. XPath概覽 XPath的選擇功能十分強大，它提供了非常簡潔明瞭的路徑選擇表示式。另外，它還提供了超過

【Python3 爬蟲學習筆記】解析庫的使用 7 —— Beautiful Soup 5

CSS選擇器 Beautiful Soup還提供了另外一個選擇器，那就是CSS選擇器。使用CSS選擇器時，只需要呼叫select()方法，傳入相應的CSS選擇器即可，示例如下： html = ''' <div class="panel"> <div class="

【Python3爬蟲-爬小說】爬取某小說網小說1/2--利用網址順序抓

相關推薦