【Python】網路爬蟲(靜態網站)例項

阿新 • • 發佈：2018-12-15

本爬蟲的特點：

1.目標：靜態網站

2.級數：二級

3.執行緒：單執行緒（未採用同步，為了避免順序錯亂，因此採用單執行緒）

4.結果：爬取一部網路小說，將分散的各章節合併成一個txt文字檔案

獲取網頁模板：

def get_url(url):
    try:
        response = requests.get(url)
        print(response.encoding)
        print(response.apparent_encoding)
        response.encoding = response.apparent_encoding
        if response.status_code == 200:
            return response.text
        else:
            print("url Error:", url)
    except RequestException:
        print("URL RequestException Error:", url)
        return None

解析儲存函式：

def parse_url(html):
    count = 0
    essay = ""
    pattern = re.compile('<td class="L"><a href="(.*?)">(.*?)</a></td>', re.S)
    items = re.findall(pattern, html)
    pattern_page = re.compile('<meta property="og:url" content="(.*?)"/>', re.S)
    item_page = re.findall(pattern_page, html)
    print(items)
    print(items.__len__())
    for item in items:
        count += 1
        if count <= 2416:
            continue
        this_url = item_page[0] + item[0]
        this_title = item[1]
        essay = get_book(this_url, this_title).replace("\ufffd", "*")
        try:
            if count % 100 == 1:
                file = open(sys.path[0]+"凡人修仙傳.txt", "a")
            file.write(essay)
            if count % 100 == 0 or count == items.__len__():
                file.close()
                print("前"+str(count)+"章儲存完畢！")
            print("下載到第 " + str(count) + "章", item, count / items.__len__() * 100, "%")
        except RequestException:
            # print("Error", item)
            print(essay)

完整程式碼：

import requests
from requests.exceptions import RequestException
import re
import sys
from multiprocessing import Pool
import sqlite3
import os


def get_url(url):
    try:
        response = requests.get(url)
        print(response.encoding)
        print(response.apparent_encoding)
        response.encoding = response.apparent_encoding
        if response.status_code == 200:
            return response.text
        else:
            print("url Error:", url)
    except RequestException:
        print("URL RequestException Error:", url)
        return None


def parse_url(html):
    count = 0
    essay = ""
    pattern = re.compile('<td class="L"><a href="(.*?)">(.*?)</a></td>', re.S)
    items = re.findall(pattern, html)
    pattern_page = re.compile('<meta property="og:url" content="(.*?)"/>', re.S)
    item_page = re.findall(pattern_page, html)
    print(items)
    print(items.__len__())
    for item in items:
        count += 1
        if count <= 2416:
            continue
        this_url = item_page[0] + item[0]
        this_title = item[1]
        essay = get_book(this_url, this_title).replace("\ufffd", "*")
        try:
            if count % 100 == 1:
                file = open(sys.path[0]+"凡人修仙傳.txt", "a")
            file.write(essay)
            if count % 100 == 0 or count == items.__len__():
                file.close()
                print("前"+str(count)+"章儲存完畢！")
            print("下載到第 " + str(count) + "章", item, count / items.__len__() * 100, "%")
        except RequestException:
            # print("Error", item)
            print(essay)


def get_book(url, title):
    data = "\n" + str(title) + "\n"
    pattern = re.compile('<dd id="contents">(.*?)</dd>', re.S)
    essay = re.findall(pattern, get_url(url))
    essay_str = str(essay[0])
    data = data + essay_str.replace("&nbsp;", " ").replace("<br />", "\n")
    return data


if __name__ == '__main__':
    parse_url(get_url("https://www.x23us.com/html/0/328/"))

【Python】網路爬蟲(靜態網站)例項

本爬蟲的特點： 1.目標：靜態網站 2.級數：二級 3.執行緒：單執行緒（未採用同步，為了避免順序錯亂，因此採用單執行緒） 4.結果：爬取一部網路小說，將分散的各章節合併成一個txt文字檔案獲取網頁模板： def get_url(url): try:

【專欄】- 網路爬蟲那點事

部落格公告該部落格內容僅代表個人意見，方便作者日後查閱和學習之用。無私分享到網際網路，希望給有需要的朋友一點點幫助。但作者寫作等各方面的能力有限，若有寫得不妥的地方從而給各位朋友帶來麻煩那又怎麼樣，來揍我啊。 (a

【python】區域性變數，全部變數，類變數，例項變數，類方法，例項方法，靜態方法的使用

一：區域性變數函式內部的變數名如果第一次出現，即被視為定義一個區域性變數，不管全域性域中有沒有用到該變數名，函式中使用的將是區域性變數，區域性變數只能在作用域內使用，也就是函式內部使用二：全域性變數在模組中使用，其在函式和類的外面定義的定義的變數。如果函式中沒有定於相同變數名的區域

【Python】簡單網路爬蟲實現

引言網路爬蟲（英語：web crawler），也叫網路蜘蛛（spider），是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。 --維基百科網路爬蟲可以將自己所訪問的頁面儲存下來，以便搜尋引擎事後生成索引供使用者搜尋。一般有兩個步驟：1.獲取網頁內

【python爬蟲筆記】網路爬蟲之實戰

Unit7 re庫入門操作符說明例項 . 表示任何單個字元 [ ] 字符集，對單個字元給出取值範圍 [abc]表

【python爬蟲筆記】網路爬蟲之提取

unit 4 BeautifulSoup庫入門 BeautifulSoup庫是解析、遍歷、維護“標籤樹”的功能庫 … 標籤 tag … name(成對出現) attributes(0或多個) beautifulSoup對應一個html/xml文件的全

【python爬蟲筆記】網路爬蟲之規則

WEEK1 Unit 1 Requests庫入門 Requests庫的get()方法 Requests庫的7個主要方法 reqest() 構造一個請求，支撐一下各方法的基礎方法 get() 獲取html網頁的主要方法，對應於http的get head

【Python】例項方法、類方法、靜態方法之間區別（轉）

面相物件程式設計中，類方法和靜態方法是經常用到的兩個術語。邏輯上講：類方法是隻能由類名呼叫；靜態方法可以由類名或物件名進行呼叫。在C++中，靜態方法與類方法邏輯上是等價的，只有一個概念，不會混淆。而在Python中，方法分為三類例項方法、類方法、靜態方法。程

【Python】爬蟲與反爬蟲大戰

公司學校爬取 nbsp 識別防止 toc 壓力自動爬蟲與發爬蟲的廝殺，一方為了拿到數據，一方為了防止爬蟲拿到數據，誰是最後的贏家？重新理解爬蟲中的一些概念爬蟲:自動獲取網站數據的程序反爬蟲：使用技術手段防止爬蟲程序爬取數據誤傷：反爬蟲技術將普通用戶識別為爬蟲，

【Python】python3中urllib爬蟲開發

urlopen 狀態碼 tco processor span agent cond urllib 聲明以下是三種方法 ①First Method 最簡單的方法 ②添加data,http header 使用Request對象 ③CookieJar import urllib

【Python】爬蟲-Scrapy

組件廣泛 quest edi 支持聯網 sched 取出 strong 【Scrapy】　　Python開發的一個快速,高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。　　Scrapy用途廣泛，可以用於數據挖掘、監測和自動化測試。　

【Python】爬蟲-1

css encode HA res htm 引用 pre 響應 con #練習1：獲取搜狐網頁上所有的URL並且把與籃球有關的內容篩選出來 #算法： #1、獲取搜狐網站所有內容 #2、判斷哪些是鏈接，獲取URL格式有效的鏈接 #3、獲取每個有效URL網頁的內容 #4、判斷

【Python】Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜

round b+ param 有意做了你會 lib extra 補充本文轉載自：https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%B

【Python】從0開始寫爬蟲——開發環境

stdin charm ready indicate importlib mirror upgrade war change 　　　　python小白，稍微看了點語法而已，連字典的切片都永不順的那種。本身是寫java的，其實java也寫得菜，每天下了班不是太想寫ja

【Python】從0開始寫爬蟲——扒狗東先流產了

https 數據圖片 rip 取數據很好 strip use str 上回寫到一半臨時有事，竟然沒有保存到！！！。這幾天也是因為家人過來玩。。我也不知道寫到哪兒了。我發現狗東這個奸賊很多數據是請求請求再請求，然後才拿到我們看到的數據顯示上去的。我嘗試了一下找齊這個數據確

【Python】從0開始寫爬蟲——豆瓣電影

for tag pes wing 信息 kit headers 自動動畫 1. 最近略忙。。java在搞soap，之前是用工具自動生成代碼的。最近可能會寫一個soap的java調用 2. 這個豆瓣電影的爬蟲。扒信息的部分暫時先做到這了。扒到的信息如下 from s

【Python】改進Hopfield網路程式碼實現

Hopfield網路 Hopfield網路由美國加州理工學院物理學教授J. J. Hopfield於1982年提出[1] 網路從輸出到輸入有反饋連線，在輸入的激勵下，會產生不斷的狀態變化，是一種單層反饋神經網路，也可以被視為一種迴圈神經網路 Hopfield神經網路是反饋網路中最

【python】爬蟲篇：python使用psycopg2批量插入資料（三）

本人菜雞，有什麼錯誤，還望大家批評指出，最近在更新python的爬蟲系列，○( ＾皿＾)っHiahiahia… 該系列暫時總共有3篇文章，連線如下【python】爬蟲篇：python連線postgresql（一）：https://blog.csdn.net/lsr40/article/de

【python】爬蟲篇：python對於html頁面的解析（二）

我，菜雞，有什麼錯誤，還望大家批評指出！！前言：根據自己寫的上一篇文章，我繼續更第二部分的內容，詳情請點選如下連結【python】爬蟲篇：python連線postgresql（一）：https://blog.csdn.net/lsr40/article/details/833118

【python】爬蟲篇：python連線postgresql（一）

本文記錄一下最近在做的事情，會把思考過程和解決問題的方案寫出來。當然，由於本人技術有限，所以可能並不是最好的方案，還請大家見諒！（黑貓白貓只要抓到老鼠，不就是好喵？~）前言：事情是這樣的，有一些文章，我要根據文章內容做分類，具體怎麼分我會單獨開一篇文章來講這件事情，這篇文章的重點不是分類

【Python】網路爬蟲(靜態網站)例項

相關推薦