Python爬取多頁糗事百科

阿新 • • 發佈：2018-11-11

這次帶來的是如何爬取糗事百科且寫入txt文件

大家都知道，糗事百科可以帶給大家很多快樂。
在這裡，我們將實現對其內容的爬取，將這些好笑的段子記錄下來，可以讓我們打發無聊或沒網時的時間。

當爬取我們想要的內容時，幾乎都離不開這幾個步驟：
1、網站地址；
2、獲取其原始碼；
3、匹配想要的內容

一、網站地址
我們爬取的是糗事百科裡的段子，所以糗事百科的網址奉上(https://www.qiushibaike.com/hot/)

二、獲取原始碼

 request = urllib2.Request(finallyurl,headers = headers)
 response = urllib2.urlopen(request)
 content = response.read().decode('utf-8')

這裡用的是urllib庫獲取的html，若你的python環境是python3以上，可以檢視我的上一篇部落格(https://blog.csdn.net/m0_43445668/article/details/83153946)
那裡面有python3以上版本獲取原始碼的步驟

三、匹配內容
通過正則匹配我們所需要的內容，括號裡的(.*?)是非貪婪匹配，也是我們一會兒輸出的內容
正則很重要，一定要好好學啊
這個正則你也可以自己試著寫寫哦，鍛鍊一下自己
這裡面re.S的作用是：使 . 匹配包括換行在內的所有字元

re.compile(r'<div.*?author clearfix">.*?</a>.*?h2>(.*?)</h2>.*?'+'<div.*?content">.*?<span>(.*?)</span>(.*?)'+'<div class="stats.*?class="number">(.*?)</i>',re.S)

有的段子中含有圖，在爬取的時候，可以去掉，圖太佔地方，以下程式碼就是去圖的，可以看下

for item in items:
    haveImg = re.search("img",item[2])
    if not haveImg:
        substance = item[1].replace('<br/>', '\n').replace('\n','')

四、寫入TXT文件

fo = open('duanzi.txt','a')
fo.write(end)
fo.close()

五、完整程式碼

# -*- coding:utf-8 -*-
import urllib2
import re
url = 'https://www.qiushibaike.com/hot/'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'
headers = {'User-Agent': user_agent}
def title(finallyurl):
    try:
        request = urllib2.Request(finallyurl,headers = headers)
        response = urllib2.urlopen(request)
        content = response.read().decode('utf-8')
        pattern = re.compile(r'<div.*?author clearfix">.*?</a>.*?h2>(.*?)</h2>.*?'+'<div.*?content">.*?<span>(.*?)</span>(.*?)'+'<div class="stats.*?class="number">(.*?)</i>',re.S)
        items = re.findall(pattern, content)
        fo = open('duanzi.txt', 'a')
        fo.write("*******************************************第%s頁*****************************************" % i)
        for item in items:
            haveImg = re.search("img",item[2])
            if not haveImg:
                substance = item[1].replace('<br/>', '\n').replace('\n','')
                end = '\n' + '釋出者：' +item[0].encode('UTF-8') + '內容：' + substance.encode('UTF-8') + '\n' + '點贊數：' +item[3].encode('UTF-8') + '\n'
                # 讀取糗事百科的內容寫入txt文件
                fo = open('duanzi.txt','a')
                fo.write(end)
                fo.close()
                print "釋出人: ", item[0], "內容:", substance, "點贊數:", item[3]
    except urllib2.URLError,e:
        if hasattr(e, "code"):
            print e.code
        if hasattr(e, "reason"):
            print e.reason
    return
#遍歷獲取多頁糗事百科的內容
for i in range(1,25):
    finallyurl = url + 'page/' + str(i) + '/'
    print "第%s頁" % i
    title(finallyurl)

結果展示

Python爬取多頁糗事百科

這次帶來的是如何爬取糗事百科且寫入txt文件大家都知道，糗事百科可以帶給大家很多快樂。在這裡，我們將實現對其內容的爬取，將這些好笑的段子記錄下來，可以讓我們打發無聊或沒網時的時間。當爬取我們想要的內容時，幾乎都離不開這幾個步驟： 1、網站地址； 2、獲取其原始碼； 3、匹配

python 爬蟲（五）爬取多頁內容

import urllib.request import ssl import re def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5

Python簡單爬蟲爬取多頁圖片

初學爬蟲簡單的爬了爬貼吧圖片 #!/usr/bin/python # coding utf-8 import re import time import urllib def getHtml():

Python爬蟲(十七)_糗事百科案例

exce html str window path {} zh-cn use src 糗事百科實例爬取糗事百科段子，假設頁面的URL是: http://www.qiushibaike.com/8hr/page/1 要求：使用requests獲取頁面信息，用XPath/

python爬蟲基礎案例之糗事百科

alt 依靠 webdriver pytho 糗事百科代碼 web 分享圖片 sel 關於爬蟲也是剛接觸，案例是基於python3做的，依靠selenium的webdriver做的，所以python3必須有selenium這個包，如果是基於谷歌瀏覽器的話需要下載谷歌瀏

爬蟲（GET）——爬取多頁的html

調度不同 odin 新建文件內容存儲 rom 寫入 adp 工具：python3 目標：將編寫的代碼封裝，不同函數完成不同功能，爬取任意頁數的html 新學語法：with open as 除了有更優雅的語法，with還可以很好的處理上下文環境產生的

爬取多頁資訊——爬取自己CSDN部落格

在學完莫煩B站的爬蟲視訊的3.3節之後，我完成了這個專案，感覺收穫還是不小的。體會是自己練手感覺進步挺快，能做出一個小專案給了我一些自信心，中間幾個棘手的問題： 1如何獲取下一頁：分析我的主頁的HTML，發現有一個總的文章數、有pagesize（每頁最多顯示幾篇文章），有此兩值就可以得到總

scrapy爬取多頁資料

初始化一個專案新建一個爬蟲檔案要爬取的網頁 - 在a標籤上右鍵 copy >>> copy xPath 複製到剪下板的是如下內容 /html/body/div[2]/div[2]/div[1]/div[4]/u

使用python的requests、xpath和多執行緒爬取糗事百科的段子

程式碼主要使用的python中的requests模組、xpath功能和threading多執行緒爬取了糗事百科中段子的內容、圖片和閱讀數、段子作者的性別，年齡和頭像。 # author: aspiring import requests from lxml import

Python爬蟲從入門到精通(3): BeautifulSoup用法總結及多執行緒爬蟲爬取糗事百科

本文是Python爬蟲從入門到精通系列的第3篇。我們將總結BeautifulSoup這個解析庫以及常用的find和select方法。我們還會利用requests庫和BeauitfulSoup來爬取糗事百科上的段子, 並對比下單執行緒爬蟲和多執行緒爬蟲的爬取效率。什麼是

python—多協程爬取糗事百科熱圖

wow64 monk 根據 list 網址 real span 本地 uil 今天在使用正則表達式時未能解決實際問題，於是使用bs4庫完成匹配，通過反復測試，最終解決了實際的問題，加深了對bs4.BeautifulSoup模塊的理解。爬取流程前奏：分析糗事百科熱圖板塊

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

利用python爬取糗事百科的用戶及段子

我們什麽 roo urlopen gen 文件 addheader find 正則匹配最近正在學習python爬蟲，爬蟲可以做很多有趣的事，本文利用python爬蟲來爬取糗事百科的用戶以及段子，我們需要利用python獲取糗事百科一個頁面的用戶以及段子，就需要匹配兩次，

Python 爬取糗事百科段子

爬蟲 Python 百科段子直接上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib.request def gettext(url,page): headers=("User-Agen

案例_(多線線程)爬取糗事百科

false 內容圖片 nbsp strip 5.0 mpat 交流 strong 1 # 使用了線程庫 2 import threading 3 # 隊列 4 from queue import Queue 5 # 解析庫 6 from lxml

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

Python :爬取糗事百科段子

原始碼： import urllib import random def JokeSet(Url,UserAgent) ''' Url ：動態url網址 UserAgent :動態請求頭 ''' #設定請求頭 Headers ={ "User-Agent" : UserAgent

Python爬蟲爬取糗事百科(xpath+re)

爬取糗事百科，用xpath、re提取 =================================================== ===================================================== 1 ''' 2 爬取醜事百科，頁面

python爬取糗事百科資料並儲存到sqlite中，命令列讀出

import requests import sqlite3 from bs4 import BeautifulSoup class QSBK: def __init__(self): self.page=0 self.items=[

爬取糗事百科1到5頁的圖片並下載到本地

safari pre url height 入參取圖參數 user 使用思路如下：首先找到圖片的節點<div class="thumb"> <a href="/article/121672165" target="_blank"> &

Python爬取多頁糗事百科

相關推薦