【爬蟲入門】【正則表示式】抓取糗事百科的段子2.0

阿新 • • 發佈：2019-01-09

在原有基礎上，增加寫入資料庫操作和網頁翻頁操作

import sqlite3, re
from urllib.request import Request, urlopen


class DBTool(object):
    """
    將資料儲存到資料庫的工具類，主要負責資料庫的增刪改查操作。
    """
    connect = None  # 類屬性需要先宣告
    cursor = None

    # 操作資料庫：
    #   1.建立資料庫的連線物件，建立遊標，這兩個物件一般連線一次即可；2.資料的增刪改查;3.關閉資料庫物件、關閉遊標物件，一般都是在資料儲存完畢之後關閉即可。
    @classmethod
    def create_db_cursor(cls):
        cls.connect = sqlite3.connect('qsbk.db')  # 連線資料庫
        cls.cursor = cls.connect.cursor()  # 建立遊標

    @classmethod
    def insert_sql(cls, tuple_data):
        """
        執行資料插入sql語句的函式
        :param tuple_data: 使用DataTool工具類整理過後的資料
        :return:
        """
        sql_str = 'INSERT INTO qs(nick_name,level,content,vote_number,connent_number) values ("%s","%s","%s","%s","%s")' % (
        tuple_data[0], tuple_data[1], tuple_data[2], tuple_data[3],tuple_data[4])
        # 開始執行sql語句
        cls.cursor.execute(sql_str)
        cls.connect.commit()

    @classmethod
    def close_db_cursor(cls):
        cls.cursor.close()
        cls.connect.close()

修改QSBKSpider類的parse_list_html(self, html)函式為

class QSBKSpider(object):
    """
    爬蟲類
    """
        def parse_list_html(self, html):
        """
        解析上一個函式請求的html原始碼
        :param html: 列表頁的網頁原始碼
        :return:
        """
        if html:
            # 使用正則表示式解析網頁原始碼
            # 寫正則注意事項：
            # 1.儘量找到要匹配的零散的資料所在的標籤，而且這個標籤必須和這些零散的資料一樣能夠迴圈。因為findall（）函式在迴圈匹配資料的時候，是按照整個正則表示式規則迴圈匹配的。
            # 2.在參考網頁中"審查元素"來設定正則匹配規則的時候，一定要確認是否和"網頁原始碼"中的標籤順序、屬性順序等保持一致，如果不一致的話，必須參考"網頁原始碼"來設定正則匹配規則。因為"審查元素"中的Html程式碼是經過Js渲染之後的原始碼。
            pattern = re.compile(
                r'<div class="article block.*?>.*?<div class="author clearfix">.*?<h2>(.*?)</h2>.*?<div class="articleGender.*?">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>.*?<i class="number">(.*?)</i>',
                re.S)
            results_list = re.findall(pattern, html)
            for data in results_list:
                new_data = self.tool.process_tuple_data(data)
                # print(new_data)
                DBTool.insert_sql(new_data)
        else:
            print("html原始碼為None")

呼叫修改為

# 建立資料庫物件、遊標物件
DBTool.create_db_cursor()

obj = QSBKSpider()
#迴圈爬取多頁資料
for x in range(1,10):
    #range()取[1，10）之間的整數，能取1，無法取到10
    html = obj.get_list_html(x)
    obj.parse_list_html(html)

# 關閉資料庫物件、遊標物件
DBTool.close_db_cursor()

爬蟲實戰1--抓取糗事百科段子

爬蟲1.提取某一頁的所有段子 # -*- coding:utf-8 -*- import urllib import urllib2 import re page = 1 url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page) user_agen

【爬蟲入門】【正則表示式】抓取糗事百科的段子3.0

在原有基礎上，增加寫入偽造瀏覽器的UserAgent fake_user_agent: pip install fake-useragent//這個第三方庫，維護了各種主流瀏覽器的UA標識，並且會定時更新這個庫，淘汰一些過期的UA。首先，在pycharm中安裝fake_userag

【爬蟲入門】【正則表示式】抓取糗事百科的段子2.0

在原有基礎上，增加寫入資料庫操作和網頁翻頁操作 import sqlite3, re from urllib.request import Request, urlopen class DBTool(object): """ 將資料儲存到資料庫的工具類，主要負責資料庫

【爬蟲入門】抓取糗事百科的段子1.0

爬取糗事百科資訊注意：爬取任何一個網站，首先要確定的就是這個網站是靜態網站還是動態網站。其次看看這個GET請求是否攜帶了特殊的引數。最後需要留意請求頭中的Cookie資訊。 class QSBKSpider(object): """ 爬蟲類 """

Python爬蟲入門七之正則表示式

在前面我們已經搞定了怎樣獲取頁面的內容，不過還差一步，這麼多雜亂的程式碼夾雜文字我們怎樣把它提取出來整理呢？下面就開始介紹一個十分強大的工具，正則表示式！ 1.瞭解正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

【爬蟲入門】【正則表示式】【非同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 # 多執行緒/多程序：提高程式碼的執行效率，放在爬蟲中就是提高爬取效率。因為可以使用多個程序同時對多個頁面發起請求。 # 之前的糗事百科/51job同步執行：按照先後順序一個一個執行。 from urllib.request import urlopen from ur

【爬蟲入門】【正則表示式】【同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 from urllib.request import urlopen from urllib.error import HTTPError import re, sqlite3 class RRCSpider(object): """ 人人車爬蟲類

【爬蟲入門】【正則表示式】抓取白敬亭貼吧某個帖子下的圖片2.0

在原有基礎上新增異常處理模組，防止訪問正則表示式提取的東西的時候出現異常修改def getImg (html)函式 def getImg(html): #此處修改 for imgurl in imglist: try: url

【爬蟲入門】【正則表示式】【Json】抓取CSDN最新文章

爬取csdn文章的JSON資料資料庫分為關係型資料庫和關係型資料庫，關係型資料庫需要通過建立表與表之間的關係來進行資料的儲存和查詢，比如一對一、一對多、多對多關係，表與表之間的關係比較緊密。而非關係型資料庫中，表與表之間是不存在關聯的，每一個表都是獨立儲存資料的。 mongodb屬於非

【C++】regex 正則表示式

正則表示式是一種描述字元序列的方法，是C++11標準庫中新加入的強大工具。正則表示式是一種用於字串處理的微型語言，適用於一些與字串相關的操作。C++11包含了對以下幾種語法的支援：ECMAScript、basic、extended、awk、grep和egrep。C++

【javascript】使用正則表示式驗證

管理系統專案上用到的正則表示式驗證：一、驗證手機號碼最新的手機號驗證。 function checkMobilePhone(str){ var reg = /^(13[0-9]|14[579]|15[0-3,5-9]|16[6]|17[0135678]|18[0-9]|1

【LeetCode】#10正則表示式匹配(Regular Expression Matching)

【LeetCode】#10正則表示式匹配(Regular Expression Matching) 題目描述給定一個字串 (s) 和一個字元模式 §。實現支援 ‘.’ 和 ‘’ 的正則表示式匹配。 ‘.’ 匹配任意單個字元。 '’ 匹配零個或多個前面的元素。匹配應該覆蓋整個字串

【PHP】PHP正則表示式驗證表單

以下內容轉載自：https://www.jb51.net/article/93375.htm 模式匹配符： \：轉義字元例如：\b轉義了b ^：正則表示式開始符號 $：正則表示式結束符號 *：匹配前面的字元出現0次或者n次 +：匹配前面的字元出現1次或者n次 ?：匹配前面的字元出現

一些我經過驗證的-有效的-【正則表示式】-JAVA

在開發中，我們經常需要對引數做驗證。需要用到一些正則表示式。這裡我整理寫我驗證過的正則表示式。一： /** * <p>shang</p> * <p>判斷email格式是否正確</p> */ p

【語法12】Python正則表示式

正則表示式正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。 Python 自1.5版本起增加了re 模組，它提供 Perl 風格的正則表示式模式。 re 模組使 Python 語言擁有全部的正則表示式功能。 compile 函式

【python 正則表示式】python正則表示式提取郵箱、網址、手機號、ip地址

要從文字中提取電子郵件、url、手機號、ip地址等，我們可以使用殺手鐗正則表示式。下面是我封裝的函式，方便以後拿來直接用。 # encoding: utf-8 import re # 自定義獲取文

【正則表示式】Python3中的正則表示式

介紹 \quad\quad正則表示式(Regular Expression)是一種文字模式，包括普通字元（例如，a 到 z 之間的字母）和特殊字元（稱為"元字元"）。 \quad\quad正則表示式使用單個字串來描述、匹配一系列匹配某個句法規則的字串（一個特殊的

135.Python修煉之路【140-前端-JQuery-正則表示式】2018.08.04

正則表示式 1、什麼是正則表示式：能讓計算機讀懂的字串匹配規則。 2、正則表示式的寫法： var re=new RegExp('規則', '可選引數'); var re=/規則/引數; 3、規則中的字元 1）普通字元匹配：如：/a/ 匹配字元 ‘a’，/a,b

【java 正則表示式】java正則表示式匹配圖片個數

Java 正則表示式和 Perl 的是最為相似的。 java.util.regex 包主要包括以下三個類： 1、Pattern 類： pattern 物件是一個正則表示式的編譯表示。Pattern 類沒

【爬蟲入門】【正則表示式】抓取糗事百科的段子2.0

在原有基礎上，增加寫入資料庫操作和網頁翻頁操作

相關推薦