爬蟲抓取網頁來下載小說

阿新 • • 發佈：2018-02-13

程序 rip compile pla ons pos 獲取 except res

利用Python3 編寫爬蟲，從筆趣閣抓個小說下載。

import re
import urllib.request
import time
import easygui as g

# 輸入地址
g.msgbox("利用Python3 編寫爬蟲，從筆趣閣抓個小說下載到手機查看")
msg = "輸入小說地址，例如http://www.biquge.com.tw/0_213/"
title = ‘爬蟲‘
root = g.enterbox(msg,title)

# 偽造瀏覽器
headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64)  
‘                          ‘AppleWebKit/537.36 (KHTML, like Gecko)‘                         ‘ Chrome/62.0.3202.62 Safari/537.36‘}

req = urllib.request.Request(url=root, headers=headers)

with urllib.request.urlopen(req, timeout=1) as response:
    # 大部分的涉及小說的網頁都有charset=‘gbk‘，所以使用gbk編碼
    htmls = response.read().decode(‘ 
gbk‘)

# 匹配所有目錄http://www.biquge.com.tw/0_213/"
story_id = root.lstrip("http://www.biquge.com.tw/")

dir_req = re.compile(r‘<a href="/%s(\d+?.html)">‘%story_id)
dirs = dir_req.findall(htmls)

# 創建文件流，將各個章節讀入內存
with open(‘E:\一念永恒.txt‘, ‘w‘) as f:
    for dir in dirs:
        # 組合鏈接地址，即各個章節的地址
        url = root + dir
         
# 有的時候訪問某個網頁會一直得不到響應，程序就會卡到那裏，我讓他0.6秒後自動超時而拋出異常
        while True:
            try:
                request = urllib.request.Request(url=url, headers=headers)
                with urllib.request.urlopen(request, timeout=0.6) as response:
                    html = response.read().decode(‘gbk‘)
                    break
            except:
                # 對於抓取到的異常，讓程序停止1.1秒，再循環重新訪問這個鏈接，訪問成功時退出循環
                time.sleep(1.1)

        # 匹配文章標題
        title_req = re.compile(r‘<h1>(.+?)</h1>‘)
        # 匹配文章內容，內容中有換行，所以使flags=re.S
        content_req = re.compile(r‘<div id="content">(.+?)</div>‘, re.S, )
        # 獲取標題
        title = title_req.findall(html)[0]
        # 獲取內容
        content_test = content_req.findall(html)[0]
        # 篩除不需要的的html元素
        strc = content_test.replace(‘&nbsp;‘, ‘ ‘)
        content = strc.replace(‘<br />‘, ‘\n‘)
        print(‘抓取章節>‘ + title)
        f.write(title + ‘\n‘)
        f.write(content + ‘\n\n‘)

程序運行圖如下：

技術分享圖片

爬蟲抓取網頁來下載小說

程序 rip compile pla ons pos 獲取 except res 利用Python3 編寫爬蟲，從筆趣閣抓個小說下載。 import re import urllib.request import time import easygui as g # 輸

node.js 小爬蟲抓取網頁資料（2）

node.js 小爬蟲抓取網頁資料在原來的基礎上，採用了promise的模組，使其可以一次性多頁面的爬取網頁資料。 var http = require('http') var Promise = require('promise') var cheerio = re

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

java演算法-網路爬蟲抓取網頁並儲存

從一個URL中讀取網頁,如果是同一個網站的就儲存,URL裡面包含URL列表,繼續抓取,抓完全部使用多執行緒 A執行緒讀取URL內容 B執行緒存檔案 C執行緒解析URL 發現新URL從A執行緒讀取完的內容可以放到一個佇列裡面,B執行緒來讀取,C執行緒解析URL 問題,如果這個佇列

Python抓取網頁&批量下載檔案方法初探（正則表示式+BeautifulSoup）

最近兩週都在學習Python抓取網頁方法，任務是批量下載網站上的檔案。對於一個剛剛入門python的人來說，在很多細節上都有需要注意的地方，以下就分享一下我在初學python過程中遇到的問題及解決方法。一、用Python抓取網頁基本方法： import urllib

記錄一次python抓取網頁下載視訊

最近看了電影狂暴巨獸，連結是那種不固定的http連結，有可能隨時就打不開了，然後想下載下來留著，但是網頁不提供下載，所以就自己抓取了相關視訊，然後下載。廢話不多說，直接上乾貨。用fiddle抓取主要的視訊。下圖就是抓取時候產生的相關資訊。逐條進行分析，然後找到電影的包的地址。 http

python 爬蟲如何用selenium抓取網頁內容

使用selenium爬取動態網頁資訊 Python selenium自動控制瀏覽器對網頁的資料進行抓取，其中包含按鈕點選、跳轉頁面、搜尋框的輸入、頁面的價值資料儲存、mongodb自動id標識等等等。首先介紹一下 Python selenium —自動化測試工

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

爬蟲有多好玩？所見即所爬！抓取網頁、圖片、文章！無所不爬！

一，首先看看Python是如何簡單的爬取網頁的 1，準備工作專案用的BeautifulSoup4和chardet模組屬於三方擴充套件包，如果沒有請自行pip安裝，我是用pycharm來做的安裝，下面簡單講下用pycharm安裝chardet和BeautifulSou

利用正則表示式抓取網頁上郵箱的小程式

使用方法：把自己在網上儲存下來含有郵箱的網頁所在硬碟的路徑，拷到對應位置即可，此程式用eclipse-luna-64位測試已通過程式最終來源為馬上兵老師釋出的視訊及原始碼，本人是用來學習，並和大家分享視訊連結：http://pan.baidu.com/s/1jIE5qC

Python3爬蟲（一）抓取網頁的html

因為程式碼只有幾行，所以可以先貼程式碼： import urllib.request url = r'http://douban.com' res = urllib.request.urlopen(url) html = res.read().decode('utf-

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述以下的程式碼是使用python實現的網路爬蟲，抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。本人對於Python學習建立了一個小小的學習圈子，為各位提供了

JAVA抓取網頁圖片並下載到本地

package com.yong.util; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.net.URL; import jav

Java實現網路爬蟲001-抓取網頁

package com.okayisoft.okayspider.demo; import org.apache.commons.httpclient.HttpClient; import org.

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F

java爬蟲（使用jsoup設定代理，抓取網頁內容）

jsoup 簡介 jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來

玩玩小爬蟲——抓取動態頁面

在ajax橫行的年代，很多網頁的內容都是動態載入的，而我們的小爬蟲抓取的僅僅是web伺服器返回給我們的html，這其中就跳過了js載入的部分，也就是說爬蟲抓取的網頁是殘缺的，不完整的，下面可以看下部落格園首頁從首頁載入中我們看到，在頁面呈現後，還會有5

爬蟲抓取網頁來下載小說

相關推薦