Python爬蟲系列之小說網爬取

阿新 • • 發佈：2018-11-11

今日爬蟲—小說網

再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚

此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。

話不多說，直接上程式碼
歡迎探討

import urllib.request
import re
import os
import time
'''
	@Author:王磊
	@Time  :2018/11/10 15:39:02
'''

def get_html(url):
    '''獲取url介面資料'''
    page = 
 urllib.request.Request(url)
    html = urllib.request.urlopen(page).read().decode("utf-8")
    #print(html)
    return html


def get_all_index():
    '''獲取站點下所有小數的目錄地址以及小說名稱'''
    html = get_html("http://book.zongheng.com/store/c0/c0/b0/u0/p1/v9/s1/t0/u0/i1/ALL.html")
    #print(html)
    # reg = re.compile(r'<div class="bookname"><a href="(.*?)" target="_blank">(.*?)</a></div>' 
)
    reg = re.compile(r'<a href="(http://book.zongheng.com/book/.*?.html)" target="_blank">(.*?)</a>')
    urls_names = re.findall(reg, html)
    res_list = []
    for url_name in urls_names:
        mete_list = []
        html_in = get_html(url_name[0])
        reg_in = re.compile(r'<a class="all-catalog".*?href="(.*?)">' 
)
        url_mete = re.findall(reg_in, html_in)
        url_mete.append(url_name[1])
        res_list.append(url_mete)
    return res_list


def get_urls_titles_list(html):
    '''獲取目錄下當前元素的章節內容地址以及章節名稱'''
    reg = re.compile(r'<a  href="(.*?)" target="_blank".*?>(.*?)</a>')
    urls_titles = re.findall(reg, html)
    #print(urls_titles)
    return urls_titles


def get_content(url):
    '''通過章節內容地址獲取章節內容'''
    html = get_html(url)
    reg1 = re.compile(r'<p>(.*?)</p>')
    # reg1 = re.compile(r'<div class="title_txtbox">(.*?)</div>')
    content = re.findall(reg1, html)[0:-1]
    str1 = ""
    for str0 in content:
        str1 += str0 + "\r\n"
    return str1


def run():
    #獲取站點書名地址目錄資料
    books = get_all_index()
    for book in books:
        # 建立儲存目錄地址
        if not os.path.exists("C:\\Users\\asus\\Desktop\\pc\\story\\" + book[1]):
            os.mkdir("C:\\Users\\asus\\Desktop\\pc\\story\\" + book[1])
        #獲取頁面資料
        html = get_html(book[0])
        #獲取介面地址
        urls_titles_list = get_urls_titles_list(html)
        print("*" * 10 + "開始下載書籍：《%s》" % book[1] + "*" * 10)
        if len(urls_titles_list) != 0:
            list_err = []
            print("開始下載章節！")
            for url_title in urls_titles_list:
                print("正在下載章節:", url_title[1])
                try:
                    content = get_content(url_title[0])
                    with open("C:\\Users\\asus\\Desktop\\pc\\story\\" + book[1] + "\\" + url_title[1] + ".txt", "a", encoding="utf-8") as f:
                        f.write(content)
                        print("章節：%s下載成功!" % url_title[1])
                except Exception as e:
                    list_err.append(url_title[1])
                    print("章節：%s下載失敗!" % url_title[1])
                    continue
                #防止ip過度活躍，降低下載速度
                time.sleep(1)
            if len(list_err) == 0:
                print("《" + book[1] + "》所有章節已經下載完成！沒有失敗下載的章節！")
            else:
                print("《%s》以下章節下載失敗:" % book[1])
                for errdownload in list_err:
                    print(errdownload)
        else:
            print("操作頻繁導致站點黑名單識別或網路異常！請稍後嘗試或更新ip地址！")
        time.sleep(3)


if __name__ == "__main__":
    run()

☞點選這裡與我探討☚

♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪
♪♪後續會更新系列基於Python的爬蟲小例子，歡迎關注。♪♪
♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪

Python爬蟲系列之小說網爬取

今日爬蟲—小說網再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚ 此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。話不多說，直接上程式碼

Java爬蟲系列之實戰：爬取酷狗音樂網 TOP500 的歌曲(附原始碼)

在前面分享的兩篇隨筆中分別介紹了HttpClient和Jsoup以及簡單的程式碼案例： Java爬蟲系列二：使用HttpClient抓取頁面HTML Java爬蟲系列三：使用Jsoup解析HTML 今天就來實戰下，用他們來抓取酷狗音樂網上的 Top500排行榜音樂。接下來的程式碼

Python爬蟲入門之豆瓣短評爬取

採用工具pyCharm，python3，工具的安裝在這就不多說了，之所以採用python3是因為python2只更新維護到2020年。新建python專案 File-Settings-project interpreter，點右上角+號，安裝requests，lx

【Python爬蟲系列】使用requests爬取圖片

Python3常用的爬蟲第三方外掛有requests，urllib.request等。這裡主要介紹使用requests抓取網頁上的圖片，該方法只針對靜態網頁，不考慮js動態載入的網頁。預備知識： requests模組的基本瞭解，包括get，post等方法和status_

Python爬蟲系列之郵編區號爬取

Python爬蟲之<—>全國郵編區號爬取僅供交流探討歡迎提出改進程式碼部分 import re import requests import time import MySQLdb ''' @author:王磊 @time :201

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法若有侵權，請私信刪除此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

文章架構開發場景在日常開發過程中，經常需要參考一些文件。對於線上文件，往往由於網速等原因，用起來總不是那麼（ma）順（fan）心。開發工具 Anaconda Python 2 實現方案基於 bs4 模組標籤解析爬取

python爬蟲系列之爬取百度文庫（一）

一、什麼是selenium 在爬取百度文庫的過程中，我們需要使用到一個工具selenium（瀏覽器自動測試框架），selenium是一個用於web應用程式測試的工具，它可以測試直接執行在瀏覽器中，就像我們平時用瀏覽器上網一樣，支援IE(7，8，9，10，11),firefo

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

需要 tis tca wcf 爬取 html eas request 有用 1.環境 python3.6 需要用到的庫： re、os、requests 2.簡介王者榮耀可以算得上是比較受歡迎的手遊之一了，應該有不少的人都入坑過農藥，我們今天的目的就是要爬取王者榮耀的高

Python爬蟲系列之微信小程式實戰

Python爬蟲系列之微信小程式實戰基於Scrapy爬蟲框架實現對微信小程式資料的爬取首先，你得需要安裝抓包工具，這裡推薦使用Charles，至於怎麼使用後期有時間我會出一個事例最重要的步驟之一就是分析介面，理清楚每一個介面功能，然後連線起來形成介面串思路,再通

python爬蟲學習筆記分析Ajax爬取果殼網文章

有時在使用requests抓取頁面會遇到得到的結果與在瀏覽器中看到的結果不一樣，在瀏覽器檢查元素中可以看到的正常的顯示的網頁資料，但是requests請求得到的結果卻沒有。這是因為requests請求得到的時原始的html文件，而瀏覽器中的介面確實經過JavaScript處理資料生成的結果

python爬蟲(16)使用scrapy框架爬取頂點小說網

本文以scrapy 框架來爬取整個頂點小說網的小說 1.scrapy的安裝這個安裝教程，網上有很多的例子，這裡就不在贅述了 2.關於scrapy scrapy框架是一個非常好的東西，能夠實現非同步爬取，節省時間，其實本文純粹的按照之前的思維來做，也不是不可以，但是感

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

用Python寫爬蟲是很方便的,最近看了xlzd.me的文章，他的文章寫的很到位，提供了很好的思路。因為他的文章部分程式碼省略了。下面是基於他的文章的三個程式碼片段: 基於Python3,Python2的話需要修改下input輸入函式和print的用法。爬取豆瓣電影top250 爬取拉勾網職位資訊模擬

python爬蟲：使用selenium + ChromeDriver爬取途家網

說明本站（途家網https://www.tujia.com）通過常規抓頁面的方法不能獲取資料，可以使用selenium + ChromeDriver來獲取頁面資料。 0 指令碼執行順序與說明 0.1 先執行craw_url.py，獲得所有房子詳情頁的url

小白學 Python 爬蟲（25）：爬取股票資訊

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

Python爬蟲實戰詳解：爬取圖片之家

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理如何使用python去實現一個爬蟲？模擬瀏覽器請求並獲取網站資料在原始資料中提取我們想要的資料資料篩選將篩選完成的資料做儲存完成一個爬蟲需要哪些工具 Python3.6 p

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

Python 爬蟲分布式大數據編程 Python如何才能高效地爬取海量數據我們都知道在互聯網時代，數據才是最重要的，而且如果把數據用用得好的話，會創造很大的價值空間。但是沒有大量的數據，怎麽來創建價值呢？如果是自己的業務每天都能產生大量的數據，那麽數據量的來源問題就解決啦，但是沒有數

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

Python爬蟲初探 - selenium+beautifulsoup4+chromedriver爬取需要登錄的網頁信息

-- pro tag bug gui 結果 .com 工作 ges 目標之前的自動答復機器人需要從一個內部網頁上獲取的消息用於回復一些問題，但是沒有對應的查詢api，於是想到了用腳本模擬瀏覽器訪問網站爬取內容返回給用戶。詳細介紹了第一次探索python爬蟲的坑。準備工作

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python爬蟲系列之小說網爬取

今日爬蟲—小說網

再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚

此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。

相關推薦