【爬蟲入門】抓取糗事百科的段子1.0

阿新 • • 發佈：2019-01-09

爬取糗事百科資訊

注意：爬取任何一個網站，首先要確定的就是這個網站是靜態網站還是動態網站。其次看看這個GET請求是否攜帶了特殊的引數。最後需要留意請求頭中的Cookie資訊。

class QSBKSpider(object):
    """
    爬蟲類
    """

    def __init__(self):
        # 將各個頁面通用的路徑，不變的路徑宣告為屬性，呼叫方便，直接在這個屬性後面拼接頁碼
        self.base_url = "https://www.qiushibaike.com/hot/page/"
        # 初始化請求頭，偽造瀏覽器請求頭中的User-Agent欄位值，如果不修改這個欄位值，有一個預設的值：User-Agent：python-3.7 XXX。
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
        }
        #例項化工具類DataTool的物件
        self.tool=DataTool()

    def get_list_html(self, page_num):
        """
        獲取每一個列表頁的html網頁原始碼（這個獲取的原始碼就是"右鍵-網頁原始碼"）中的內容
        page_num:表示將要請求的頁面的頁碼
        :return:
        """
        # 構造每一頁的url地址
        page_url = self.base_url + str(page_num)
        # 向page_url傳送GET請求，開始獲取當前頁page_num的網頁原始碼
        # 先構造Request請求物件
        request = Request(page_url, headers=self.headers)
        try:
            response = urlopen(request)
        except Exception as e:
            print(page_url + "請求失敗,原因是" + e)
            return None
        else:
            # try語句中的請求沒有出現異常，就會執行else語句，如果出現異常了就不會執行else語句了。
            # print(response)
            return response.read().decode()

    def parse_list_html(self, html):
        """
        解析上一個函式請求的html原始碼
        :param html: 列表頁的網頁原始碼
        :return:
        """
        if html:
            # 使用正則表示式解析網頁原始碼
            # 寫正則注意事項：
            # 1.儘量找到要匹配的零散的資料所在的標籤，而且這個標籤必須和這些零散的資料一樣能夠迴圈。因為findall（）函式在迴圈匹配資料的時候，是按照整個正則表示式規則迴圈匹配的。
            # 2.在參考網頁中"審查元素"來設定正則匹配規則的時候，一定要確認是否和"網頁原始碼"中的標籤順序、屬性順序等保持一致，如果不一致的話，必須參考"網頁原始碼"來設定正則匹配規則。因為"審查元素"中的Html程式碼是經過Js渲染之後的原始碼。
            pattern = re.compile(
                r'<div class="article block.*?>.*?<div class="author clearfix">.*?<h2>(.*?)</h2>.*?<div class="articleGender.*?">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>.*?<i class="number">(.*?)</i>',
                re.S)
            results_list = re.findall(pattern, html)
            for data in results_list:
                new_data=self.tool.process_tuple_data(data)
                print(new_data)
            pass
        else:
            print("html原始碼為None")

import sqlite3, re
from urllib.request import Request, urlopen


class DataTool(object):
    """
    工具類：對提取的元祖中的資料，進行整理，刪除無效的字元（\n,<br/>）
    """
    # 定義刪除\n字元的正則表示式
    pattern_n = re.compile(r'\n', re.S)
    # 定義刪除<br/>字元的正則表示式
    pattern_br = re.compile(r'<br/>', re.S)

    def process_tuple_data(self, orgin_tuple_data):
        """
        用於對提取的原始元祖進行資料處理的函式
        :param orgin_tuple_data: 原始資料元祖
        :return: 返回整理之後的元祖
        """
        # 需要處理的資料：使用者暱稱、段子內容
        # sub()是正則表示式中的替換資料的方法，需要將\n這個字元替換成空字元
        # 引數：1.替換規則 2.替換結果 3.要匹配的字串
        nick_name = re.sub(self.pattern_n, '', orgin_tuple_data[0])

        # 處理段子內容
        content = re.sub(self.pattern_n, '', orgin_tuple_data[2])
        content = re.sub(self.pattern_br, '', content)

        #將處理後的資料再封裝成一個元祖，返回
        data=(nick_name,orgin_tuple_data[1],content,orgin_tuple_data[3])
        return data

obj = QSBKSpider()
html = obj.get_list_html(3)
obj.parse_list_html(html)

【爬蟲入門】抓取糗事百科的段子1.0

爬取糗事百科資訊注意：爬取任何一個網站，首先要確定的就是這個網站是靜態網站還是動態網站。其次看看這個GET請求是否攜帶了特殊的引數。最後需要留意請求頭中的Cookie資訊。 class QSBKSpider(object): """ 爬蟲類 """

【爬蟲入門】【正則表示式】抓取糗事百科的段子3.0

在原有基礎上，增加寫入偽造瀏覽器的UserAgent fake_user_agent: pip install fake-useragent//這個第三方庫，維護了各種主流瀏覽器的UA標識，並且會定時更新這個庫，淘汰一些過期的UA。首先，在pycharm中安裝fake_userag

【爬蟲入門】【正則表示式】抓取糗事百科的段子2.0

在原有基礎上，增加寫入資料庫操作和網頁翻頁操作 import sqlite3, re from urllib.request import Request, urlopen class DBTool(object): """ 將資料儲存到資料庫的工具類，主要負責資料庫

【爬蟲入門】抓取白敬亭貼吧某個帖子下的圖片1.0

import urllib.request import re import os import urllib # 根據給定的網址來獲取網頁詳細資訊，得到的html就是網頁的原始碼 def getHtml(url): page = urllib.request.urlopen(ur

【爬蟲入門】抓取今日頭條的街拍搜尋頁的圖片，並儲存到資料庫和本地

使用多程序對街拍圖片進行下載，並將圖片相關資訊儲存到mongodb資料庫中。 import requests, re, json, pymongo from multiprocessing import Pool from urllib.parse import urlencode f

爬蟲實戰1--抓取糗事百科段子

爬蟲1.提取某一頁的所有段子 # -*- coding:utf-8 -*- import urllib import urllib2 import re page = 1 url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page) user_agen

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

HtmlAgilityPack抓取糗事百科內容

console lag node document 24小時 ner readline collect ldo 本文實例講述了C#使用HtmlAgilityPack抓取糗事百科內容的方法。分享給大家供大家參考。具體實現方法如下： Console.WriteLine("**

bs4抓取糗事百科

tps quest mpi block ntp lap closed resp pan 抓取糗事百科內容及評論，不包含圖片信息。user-agent填入瀏覽器的即可。user-agent對應的value，360極速瀏覽器的話，可以在地址欄輸入about:version，回車

python抓取糗事百科文字內容

最近用python處理了蠻多資料，也自己稍微學習爬取了一些資料。主要是用requests和BeautifulSoup。以下例子是糗事百科的內容爬取，儲存的格式為：(user_name, user_picture, qiushi, [good_cmt])，good_cmt可能不存在。程式碼如

用python抓取糗事百科的小程式

直接上程式碼和執行結果 #by suwenhao #QQ 2487872782 import urllib import urllib2 import re page = 1 url = 'http

爬蟲--使用scrapy爬取糗事百科並在txt文件中持久化存儲

max color 圖片得到 acc deb ould ins ant 工程目錄結構　spiders下的first源碼　　 # -*- coding: utf-8 -*- import scrapy from firstBlood.items imp

Python 爬取糗事百科段子

爬蟲 Python 百科段子直接上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib.request def gettext(url,page): headers=("User-Agen

Python :爬取糗事百科段子

原始碼： import urllib import random def JokeSet(Url,UserAgent) ''' Url ：動態url網址 UserAgent :動態請求頭 ''' #設定請求頭 Headers ={ "User-Agent" : UserAgent

用BeautifulSoup爬取糗事百科段子

from bs4 import BeautifulSoup import lxml import requests import html import time import html5lib import re def crawl_joke_list_usebs4(pag

NO.33——XPath選擇器爬取糗事百科段子

程式碼實戰： # -*- coding:utf-8 -*- import urllib import requests import re import chardet from lxml import etree page = 2 url = 'ht

【爬蟲入門】【正則表示式】抓取白敬亭貼吧某個帖子下的圖片2.0

在原有基礎上新增異常處理模組，防止訪問正則表示式提取的東西的時候出現異常修改def getImg (html)函式 def getImg(html): #此處修改 for imgurl in imglist: try: url

【爬蟲入門】【正則表示式】【Json】抓取CSDN最新文章

爬取csdn文章的JSON資料資料庫分為關係型資料庫和關係型資料庫，關係型資料庫需要通過建立表與表之間的關係來進行資料的儲存和查詢，比如一對一、一對多、多對多關係，表與表之間的關係比較緊密。而非關係型資料庫中，表與表之間是不存在關聯的，每一個表都是獨立儲存資料的。 mongodb屬於非

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

Python爬蟲從入門到精通(3): BeautifulSoup用法總結及多執行緒爬蟲爬取糗事百科

本文是Python爬蟲從入門到精通系列的第3篇。我們將總結BeautifulSoup這個解析庫以及常用的find和select方法。我們還會利用requests庫和BeauitfulSoup來爬取糗事百科上的段子, 並對比下單執行緒爬蟲和多執行緒爬蟲的爬取效率。什麼是

【爬蟲入門】抓取糗事百科的段子1.0

爬取糗事百科資訊

注意：爬取任何一個網站，首先要確定的就是這個網站是靜態網站還是動態網站。其次看看這個GET請求是否攜帶了特殊的引數。最後需要留意請求頭中的Cookie資訊。

相關推薦