python爬蟲爬取全站url，完美小demo（可防止連結到外網等各種強大篩選）

阿新 • • 發佈：2018-12-12

上次完成的url爬取專案並不能滿足需求，在此完成了一個更為強大的爬取程式碼，有需要的可以直接執行，根據自己爬取的網站更改部分正則和形參即可。前排提示：執行需要耐心，因為幾千個url爬完的話，還是建議花生瓜子可樂電影準備好。

話不多說，直接上程式碼，程式碼有註釋，很容易理解。

# -*- coding: utf-8 -*-
"""
Created on Wed Sep 29 16:09:28 2018

@author: ESionJL資料貓

question:1.當前url若爬取到的pagelinks為[]，則將其移除visited列表。
         2.spiderpage()函式中，當前url爬取到的網頁為UNknown，會報錯，如何規避，並將此url移除。
         3.返回title為空
         4.網站不可載入
         5.過期網站，垃圾網站

"""

import re
import requests
from bs4 import BeautifulSoup
from urllib import request
from urllib import error


#此測試首頁是否可以連結
def url_get(num_retries=5):
#    url = input("請輸入要爬取的首頁url:")
    url = "http://www.newchinalife.com/ncl/cn/new/index/index.shtml"
#    url = "http://www.newchinalife.comindex.html/"
    try:
        # 做一個user-agent模擬瀏覽器傳送請求,也可以加入其它欄位
        kv = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko'}
        requests.get(url, headers=kv)
        return url
    except error.URLError or error.HTTPError as e:
        if num_retries > 0:
            if hasattr(e,'code') and 500 <= e.code < 600:
                url_get(num_retries-1)
        print("url無法連線")


#此函式用於提取各連結網站下的所有連結
def spiderpage(url):
    try:
        kv = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'}
        r = requests.get(url, headers=kv)
        r.encoding = r.apparent_encoding
        pagetext = r.text
        # 正則表示式表示要爬取的是<a href="和"中的內容,"或'都可以,即當前頁面下所有的連結url,返回列表
        pagelinks = re.findall(r'(?<=<a href=\").*?(?=\")|(?<=href=\').*?(?=\')', pagetext)
    #    print(pagelinks)
        return pagelinks
    except:
        pagelinks = ['http://www.newchinalife.com/ncl/cn/new/index/index.shtml']
        print("這個網站有點東西")
        return pagelinks

#此函式用來檢測連結是否為外網連結或者不合格連結
def getTitle(url):
    # 檢驗是否為本站連結，防止死迴圈爬取，如連結跳出本站則不進行操作
    headers = {'Accept': '*/*',
               'Accept-Language': 'en-US,en;q=0.8',
               'Cache-Control': 'max-age=0',
               'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
               'Connection': 'keep-alive',
               'Referer': 'http://www.baidu.com/'
               }
    print(url)
    req = request.Request(url, headers=headers)
    html = None
    try: 
        response = request.urlopen(req)
        html = response.read().decode('utf-8')
        soup = BeautifulSoup(html, "html.parser")
        if soup.body is not None:
            url_list = soup.head.title       
            title = url_list.string
            print(title)
            if title != None:
                return title  
            else:
                return "這網站沒有靈性"
        else:
            title = "不可載入"
            return title 
#    except error.URLError or error.HTTPError or error.UnicodeDecodeError:
    except:
        print("這網站沒有靈性")
        return "不可載入"   

#正則刪選函式
def url_filtrate(pagelinks):
    same_target_url = []
        
    try:
        for murl in pagelinks:
            murl = re.sub(r'\s+','', murl)
                 
            if re.findall("^java",murl) or re.findall("^jse",murl) or re.findall("^ALL",murl) or re.findall("pdf$",murl) or re.findall("^login",murl) or re.findall("css$",murl) or re.findall("@",murl):
                pagelinks.remove(murl)
                
            elif re.findall("^http",murl) and re.findall("newchinalife",murl):
                murl = str(murl)
                same_target_url.append(murl)
                
            elif re.findall("^java",murl) or re.findall("^jse",murl) or re.findall("^ALL",murl) or re.findall("pdf$",murl) or re.findall("^login",murl):
                pagelinks.remove(murl)
                
            elif re.findall("gsp$",murl) or re.findall("shtml$",murl) or re.findall("[0-9]*$",murl):
                murl = "https://www.newchinalife.com" + str(murl)
                same_target_url.append(murl)
                
            elif re.findall("^/",murl):
                murl = "https://www.newchinalife.com" + str(murl)
                same_target_url.append(murl)
           
            else:
                pass 
    except ValueError as e:
        pass
    # 去除重複url
    unrepect_url = []
    for l in same_target_url:
        if l not in unrepect_url:
            unrepect_url.append(l)
    print(unrepect_url)
    return unrepect_url


class linkQuence:
    def __init__(self):
        # 已訪問的url集合
        self.visited = []
        # 待訪問的url集合
        self.unvisited = []

    # 獲取訪問過的url佇列
    def getvisitedurl(self):
        return self.visited

    # 獲取未訪問的url佇列
    def getunvisitedurl(self):
        return self.unvisited

    # 新增url到訪問過得佇列中
    def addvisitedurl(self, url):
        return self.visited.append(url)

    # 移除訪問過得url
    def removevisitedurl(self, url):
        return self.visited.remove(url)

    # 從未訪問佇列中取一個url
    def unvisitedurldequence(self):
        try:
            return self.unvisited.pop()
        except:
            return None

    # 新增url到未訪問的佇列中
    def addunvisitedurl(self, url):
        if url != "" and url not in self.visited and url not in self.unvisited:
            return self.unvisited.insert(0, url)

    # 獲得已訪問的url數目
    def getvisitedurlount(self):
        return len(self.visited)

    # 獲得未訪問的url數目
    def getunvistedurlcount(self):
        return len(self.unvisited)

    # 判斷未訪問的url佇列是否為空
    def unvisitedurlsempty(self):
        return len(self.unvisited) == 0

class Spider():
    def __init__(self, url):
        self.linkQuence = linkQuence()  # 將佇列引入本類
        self.linkQuence.addunvisitedurl(url)  # 傳入待爬取的url,即爬蟲入口
    

    #真正的爬取連結函式
    def crawler(self,urlcount):
        # 子頁面過多,為測試方便加入迴圈控制子頁面數量
        x = 1
        while self.linkQuence.unvisited or x==urlcount:
            # 若子頁面不是很多,可以直接使用佇列中的未訪問列表非空作為迴圈條件
            # while not self.linkQuence.unvisitedurlsempty():
            if x > 1:
                print(f"第{x-1}個url,開始爬")
            visitedurl = self.linkQuence.unvisitedurldequence()  # 從未訪問列表中pop出一個url
            if visitedurl is None or visitedurl == '':
                continue
            title = getTitle(visitedurl)
            if re.findall("新華保險",title):  #如果跳出本站則pass              
                initial_links = spiderpage(visitedurl)  # 爬出該url頁面中所有的連結
                right_links = url_filtrate(initial_links)  # 篩選出合格的連結
                if not right_links:
                    pass
                else:             
                    self.linkQuence.addvisitedurl(visitedurl)  # 將該url放到訪問過的url佇列中
                    for link in right_links:  # 將篩選出的連結放到未訪問佇列中
                        self.linkQuence.addunvisitedurl(link)
                    x += 1
            else:
                pass
        print(f"爬完了")
        return self.linkQuence.visited

#寫檔案函式
def writetofile(urllist):
    #寫入網站並計數
    x=1
    for url in urllist:
        # Furls.txt用於儲存連結
        file = open('Furls.txt', 'a', encoding='utf8')
        file.write(f'{url}\n')
        x += 1
    file.close()
    print(f'寫入已完成,總計{x-1}個網頁的子連結')

#主迴圈
if __name__ == '__main__':
    url = url_get()
    spider = Spider(url)
    #傳入要爬取的子連結數量
    urllist = spider.crawler(5000)
    writetofile(urllist)

還是希望大家自己學會比較好，只是貼上畢竟學不到東西，這個主題框架不是我寫的，但是真正的實現函式都是我自己一點一點寫的，遇到很多困難也都解決了，能學到不少東西。

python爬蟲爬取全站url，完美小demo（可防止連結到外網等各種強大篩選）

上次完成的url爬取專案並不能滿足需求，在此完成了一個更為強大的爬取程式碼，有需要的可以直接執行，根據自己爬取的網站更改部分正則和形參即可。前排提示：執行需要耐心，因為幾千個url爬完的話，還是建議花生瓜子可樂電影準備好。話不多說，直接上程式碼，程式碼有註釋，很容易理解。

python爬蟲爬取淘寶，羅蘭電鋼琴和雅馬哈電鋼琴（參考崔大）

淘寶網上有很多商品，這些商品的資訊就是一個很不錯的資料來源，於是我參考資料後依葫蘆畫瓢弄了一個爬蟲程式來爬一爬夢寐以求的電鋼琴。宣告一下：電鋼琴和電子琴是兩種不同的琴，我在正則表示式裡面設定了只要含有電子琴這個詞語一律不抓取。同時淘寶商家的很多商品欄都是重複的，不加篩選前

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

Python爬蟲-爬取騰訊QQ招聘崗位資訊（Beautiful Soup）

爬取騰訊招聘資訊-Beautiful Soup --------------------------------------- ============================================ =================================

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

簡易python爬蟲爬取boss直聘職位，並寫入excel

python爬蟲寫入excel1，默認城市是杭州，代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat

python爬蟲爬取QQ說說並且生成詞雲圖，回憶滿滿！

運維開發網絡分析 matplot 容易 jieba 編程語言提示框然而 Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

這次利用python設計一個爬取百度圖片上的圖片的原始碼，其中利用的是python的urllib，如果沒有裝的，可以使用Anconda在環境裡進行安裝或者 pip install urllib 這兩種方式都可以安裝，長話短說，上圖吧，點選執行後，輸入你要下載的圖片型別：比如，熊貓？美女？

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(ur

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

Django實戰: Python爬蟲爬取鏈家上海二手房資訊，存入資料庫並在前端顯示

好久沒寫Django實戰教程了，小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用，前端使用者可以根據行政區劃，房廳數和價格區間選擇需要爬取的二手房房源資訊，後臺Python開始爬取資料。爬取資料完成後，通過Django將爬來的資料存入資料庫

用python爬蟲爬取去哪兒4500個熱門景點，看看國慶不能去哪兒

前言：本文建議有一定Python基礎和前端(html,js)基礎的盆友閱讀。金秋九月，丹桂飄香，在這秋高氣爽，陽光燦爛的收穫季節裡，我們送走了一個個暑假餘額耗盡哭著走向校園的孩籽們，又即將迎來一年一度偉大祖國母親的生日趴體(無心上班，迫不及待想為祖國母親

Python爬蟲---爬取騰訊動漫全站漫畫

[TOC] ##操作環境 1. 編譯器：pycharm社群版 2. python 版本：anaconda python3.7.4 3. 瀏覽器選擇：Google瀏覽器 4. 需要用到的第三方模組：requests , lxml , selenium , time , bs4,os ##網頁分析 ###明確目標

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python爬蟲爬取頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白列表 ngs python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架首先定義一個變量html，變量值為一段HTML代碼 >&

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

python爬蟲爬取海量病毒文件

tle format nbsp contex logs request spl tde __name__ 因為工作需要，需要做深度學習識別惡意二進制文件，所以爬一些資源。 # -*- coding: utf-8 -*- import requests import re

python爬蟲——爬取古詩詞

爬蟲古詩詞實現目標 1.古詩詞網站爬取唐詩宋詞 2.落地到本地數據庫頁面分析通過firedebug進行頁面定位：源碼定位：根據lxml etree定位div標簽：# 通過 lxml進行頁面分析 response = etree.HTML(data

python爬蟲爬取全站url，完美小demo（可防止連結到外網等各種強大篩選）

相關推薦