Python爬取全書網小說，免費看小說

阿新 • • 發佈：2018-05-20

tle 3.6 tro con fin 保存 get 正在 url地址

技術分享圖片

什麽是網絡爬蟲

網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

環境：Python3.6+Windows

開發工具：你喜歡用哪個就用哪個，你開心就好！

模塊：

1 import urllib.request
2 
3 import re

主要思路：

1 獲取主頁源代碼
2 獲取章節超鏈接
3 獲取章節超鏈接源碼
4 獲取小說內容
5 下載,文件操作

技術分享圖片

Python代碼了解一下

 1 import urllib.request
 
 2 import re
 3 # 1 獲取主頁源代碼
 4 # 2 獲取章節超鏈接
 5 # 3 獲取章節超鏈接源碼
 6 # 4 獲取小說內容
 7 # 5 下載,文件操作
 8 
 9 # 駝峰命名法
10 # 獲取小說內容
11 def getNovertContent():
12     # <http.client.HTTPResponse object at 0x000001DFD017F400>
13     html = urllib.request.urlopen("http://www.quanshuwang.com/book/0/269").read()
14     html = html.decode(" 
gbk")
15     # 不加括號  不匹配
16     # 正則表達式  .*?  匹配所有
17     reg = r‘<li><a href="(.*?)" title=".*?">(.*?)</a></li>‘
18     # 增加效率的
19     reg = re.compile(reg)
20     urls = re.findall(reg,html)
21     # print(urls)
22     # 列表
23     # [(http://www.quanshuwang.com/book/0/269/78850.html,第一章 山邊小村), 

24     # (http://www.quanshuwang.com/book/0/269/78854.html,第二章 青牛鎮)]
25     for url in urls:
26         # 章節的URL地址
27         novel_url = url[0]
28         # 章節標題
29         novel_title = url[1]
30 
31         chapt = urllib.request.urlopen(novel_url).read()
32         chapt_html = chapt.decode("gbk")
33         # r 表示原生字符串   \ \\d  r"\d"
34         reg = r‘</script>&nbsp;&nbsp;&nbsp;&nbsp;(.*?)<script type="text/javascript">‘
35         # S 代表多行匹配
36         reg = re.compile(reg,re.S)
37         chapt_content = re.findall(reg,chapt_html)
38         # print(chapt_content)
39         # 列表["&nbsp;&nbsp;&nbsp;&nbsp二楞子睜大著雙眼，直直望著茅草和爛泥糊成的<br />"]
40 
41         # 第一個參數   要替換的字符串   替換後的字符串
42         chapt_content = chapt_content[0].replace("&nbsp;&nbsp;&nbsp;&nbsp;","")
43         # print(chapt_content)    字符串  二楞子睜大著雙眼，直直望著茅草和爛泥糊成的<br />
44         chapt_content = chapt_content.replace("<br />","")
45 
46         print("正在保存 %s"%novel_title)
47         # w 讀寫模式  wb
48         # f = open("{}.txt".format(novel_title),‘w‘)
49         # f.write(chapt_content)
50 
51         with open("{}.txt".format(novel_title),‘w‘) as f:
52             f.write(chapt_content)
53 
54         # f.close()
55 
56 getNovertContent()

運行結果：

技術分享圖片

Python爬取全書網小說，免費看小說

tle 3.6 tro con fin 保存 get 正在 url地址什麽是網絡爬蟲網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自

Python爬取天氣網歷史天氣數據

ast 信息爬蟲 cmake tex for roc ins fonts 使用Python的requests 和BeautifulSoup模塊，Python 2.7.12可在命令行中直接使用pip進行模塊安裝。爬蟲的核心是利用BeautifulSoup的select語句獲

我用 Python 爬取微信好友，最後發現一個大秘密

代碼我們同學 strong 分享簽名 ast ron tps 前言你身處的環境是什麽樣，你就會成為什麽樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟件，微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣，慢慢你的思想也會變的怎麽樣。最近在學習

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

分手後，小夥怒用Python爬取上萬空姐照片，贏取校花選舉大賽！

代碼美女圖片 pst caption alt .... 不出 ima bee 首先展示下Python爬取到的成果：我做什麽都要爭第一，這次的校花投票選舉大賽也不例外，雖然我是個男的......但是我看到了前女友竟然已經有三百多票排到第三名了，我怎麽能眼睜

Python爬取抖音APP，竟然只需要十行程式碼

環境說明環境： python 3.7.1 centos 7.4 pip 10.0.1 部署 [[email protected] ~]# python3.7 --version Python 3.7.1 [[email protected] ~]#

教你用python爬取喜馬拉雅FM音訊，乾貨分享~

前前言喜馬拉雅已經更換標籤，我重新更新了下程式碼，文章暫時未改，因為思路還是如此，需要的可以掃一下文末公眾號二維碼（本人會在上面發表爬蟲以及java的文章還有送書等資源福利哦），也可以直接搜尋公眾號“ 猿獅的單身日常”，好了廣告結束... 前言之前寫過爬取圖片的一篇文章，這回來看看如

python 爬取豆瓣網搜尋結果同城活動資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 bs4:網頁程式碼解析以下是原始碼： #!coding=utf-8 import requests

Python爬取下載網易雲音樂

from urllib import request import requests import re from bs4 import BeautifulSoup from pprint import pprint import urllib, time def get

利用Python爬取攝影網站圖片，切勿商用

今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，不要用於商業目的，不出意外，蜂鳥是有版權保護的網站。 Python學習資料或者需要程式碼、視訊加Python學習群：9604104

Python爬取房產數據，在地圖上展現！

exc pre 解析 see 爬取註意 app domain 數據庫連接小夥伴，我又來了，這次我們寫的是用python爬蟲爬取烏魯木齊的房產數據並展示在地圖上，地圖工具我用的是 BDP個人版-免費在線數據分析軟件，數據可視化軟件，這個可以導入csv或者excel數據。

Python爬取鬥圖表情，讓你成為鬥圖大佬

話不多說，上結果（只爬了10頁內容）上程式碼：（可直接執行）用到Xpath #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/12/24 15:20 import requests imp

利用Python爬取朋友圈資料，爬到你開始懷疑人生

人生最難的事是自我認知，用Python爬取朋友圈資料，讓我們重新審視自己，審視我們周圍的圈子。文：朱元祿（@資料分析－jacky）哲學的兩大問題：1、我是誰？2、我們從哪裡來？本文 jacky試圖用Python，資料化、聚類化我們的人格標籤，試圖回答"我是誰?

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

Python爬取天氣預報資料，並存入到本地EXCEL中

近期忙裡偷閒，搞了幾天python爬蟲，基本可以實現常規網路資料的爬取，比如糗事百科、豆瓣影評、NBA資料、股票資料、天氣預報等的爬取，整體過程其實比較簡單，有一些HTML+CSS+DOM樹等知識就很easy，我就以天氣預報資料的爬取為例，整理出來。需求：採

Python爬取全站妹子圖片，差點硬碟走火了！

Python爬取全站妹子圖片，差點硬碟走火了！程式設計小道士 2019-01-05 17:03:51 在這嚴寒的冬日，為了點燃我們的熱情，今天小編可是給大家帶來了偷偷收藏了很久的好東西。大家要注意點哈，我第一次使用的時候，大意導致差點壞了大事哈！想學

我用 Python 爬取微信好友，最後發現一個大祕密

前言你身處的環境是什麼樣，你就會成為什麼樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟體，微信更像是虛擬的現實世界。你所處的朋友圈是怎麼樣，慢慢你的思想也會變的怎麼樣。最近在學習 itchat,然後就寫了一個爬蟲，爬取了我所有的微信好友的資料。並對其中的一些資料進行分析，發現了一些很有

Python爬取知乎日報，推送到kindle

最近刷知乎上癮，剛好手頭有一臺kindle，搞一波事情。 1.分析頁面知乎日報的網頁端結果比較清晰，每篇的文章的連結都在 link-button 這個 a 標籤中。用requests + BeautifulSoup 庫可以比較輕鬆的解析。 i

Python爬取妹子網圖片

提取文章標題 import requests from bs4 import BeautifulSoup url = 'http://www.mzitu.com/26685' header = {'User-Agent': 'Mozilla/5.0 (

python 爬取知網url

由於知網存在非同步載入，爬取需要獲得queryid，cookies等程式碼如下： #coding:utf-8 ''' Created on 2016-8-15 @author: 劉帥 ''' import urllib2 from bs4 impor

Python爬取全書網小說，免費看小說

什麽是網絡爬蟲

Python代碼了解一下

運行結果：

相關推薦