Python資料爬蟲學習筆記（13）爬取微信文章資料

阿新 • • 發佈：2018-12-13

一、需求：在微信搜尋網站中,通過設定搜尋關鍵詞以及搜尋頁面數，爬取出所有符合條件的微信文章：

二、搜尋頁URL分析階段：

1、在搜尋框中輸入任意關鍵詞，在出現的搜尋結果頁面點選下一頁，將每一頁的URL複製下來進行觀察：

2、注意到頁碼由page=X決定，搜尋關鍵詞由query=X決定，URL中的其它變數可以通過逐個刪除測試的方式探究是否為必要變數，注意儘量不要使用QQ瀏覽器，由於QQ瀏覽器對於微信過於“智慧”，URL在錯誤的情況下仍有可能出現正常的網頁。

三、搜尋結果的元素網頁URL分析階段：

1、觀察搜尋結果頁面的原始碼：

注意到，搜尋結果的元素網頁的網址被<a target="_blank" href=".......“所包圍。

2、但是發現，原始碼中的URL開啟時（注意要通過複製URL至網址欄，再回車的方式，不要在原始碼介面點選URL開啟），會提示引數錯誤：

與手動搜尋的網頁URL比對注意到，原始碼中的URL多了”&“，刪除之後URL開啟正常，因此爬取出的URL需要搜尋出該段字元進行刪除。

四、編寫程式碼：

import re
import urllib.request
import time
import urllib.error
import urllib.request
#自定義函式，功能為使用代理伺服器爬一個網址
def use_proxy(proxy_addr,url):
    #建立異常處理機制
    try:
        req=urllib.request.Request(url)
        #瀏覽器偽裝
        req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6726.400 QQBrowser/10.2.2265.400")
        proxy= urllib.request.ProxyHandler({'http':proxy_addr})  
        opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)  
        urllib.request.install_opener(opener)
        data = urllib.request.urlopen(req).read()
        return data
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
        #若為URLError異常，延時10秒執行
        time.sleep(10)
    except Exception as e:
        print("exception:"+str(e))
        #若為Exception異常，延時1秒執行
        time.sleep(1)

#設定關鍵詞            
key="Python"
#設定代理伺服器，該代理伺服器有可能失效，讀者需要換成新的有效代理伺服器
proxy="127.0.0.1:8888"
#爬多少頁
for i in range(0,10):
    key=urllib.request.quote(key)
    thispageurl="http://weixin.sogou.com/weixin?type=2&query="+key+"&page="+str(i)
    thispagedata=use_proxy(proxy,thispageurl)
    #檢驗是否爬取到了資料
    print(len(str(thispagedata)))
    pat1='<a target="_blank" href="(.*?)"'
    rs1=re.compile(pat1,re.S).findall(str(thispagedata))
    if(len(rs1)==0):
        print("此次（"+str(i)+"頁）沒成功")
        continue
    for  j in range(0,len(rs1)):
        thisurl=rs1[j]
        thisurl=thisurl.replace("amp;","")
        file="F:/weixin/第"+str(i)+"頁第"+str(j)+"篇文章.html"
        thisdata=use_proxy(proxy,thisurl)
        try:
            fh=open(file,"wb")
            fh.write(thisdata)
            fh.close()
            print("第"+str(i)+"頁第"+str(j)+"篇文章成功")
        except Exception as e:
            print(e)
            print("第"+str(i)+"頁第"+str(j)+"篇文章失敗")

感謝韋瑋老師的指導

Python資料爬蟲學習筆記（13）爬取微信文章資料

一、需求：在微信搜尋網站中,通過設定搜尋關鍵詞以及搜尋頁面數，爬取出所有符合條件的微信文章：二、搜尋頁URL分析階段： 1、在搜尋框中輸入任意關鍵詞，在出現的搜尋結果頁面點選下一頁，將每一頁的URL複製下來進行觀察： 2、注意到頁碼由page=X決定，搜尋關鍵

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

Python資料爬蟲學習筆記（11）爬取千圖網圖片資料

需求：在千圖網http://www.58pic.com中的某一板塊中，將一定頁數的高清圖片素材爬取到一個指定的資料夾中。分析：以數碼電器板塊為例 1.檢視該板塊的每一頁的URL：注意到第一頁是“0-1.html”，第二頁是“0-2.html”，由

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

原 Python資料爬蟲學習筆記（15）Scrapy常見命令及專案檔案介紹

一、Scrapy常見命令提示符CMD命令：（1）scrapy -h 檢視指令幫助。（2）scrapy fetch http://baidu.com 直接爬取特定網頁。（3）scrapy runspider scrapytest.py 執行特定爬蟲（前提要使用cd

Python資料爬蟲學習筆記（17）Scrapy糗事百科自動爬蟲

一、需求：在糗事百科主頁下，無需設定頁碼，自動爬取所有段子詳情頁的段子完整內容。（1）糗事百科主頁：（2）段子詳情頁：二、Scrapy實現思路：在糗事百科主頁上自動提取出所有段子的詳情連結，在每個段字詳情頁中爬取段子內容。三、網頁原始

Python資料爬蟲學習筆記（1）讀取併合並Excel

需求：寫一個Python程式，實現多個Excel表格的合併。準備：在E盤3個待合併的測試檔案，如下所示：在每個檔案中的sheet1和sheet2中隨便寫點東西。（1）簡便方法： import openpyxl wb1 = openpyxl.load

Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

一、需求：在豆瓣官網中，使用Scrapy實現模擬登入，並爬取登入後的個人中心介面中的使用者名稱及日記資訊資料。二、實現思路： 1、關於使用者名稱與密碼以及其提交網址：觀察登入網頁的原始碼，注意到使用者名稱與密碼都使用不同name屬性的input來輸入

Scrapy學習筆記（3）爬取知乎首頁問題及答案

目標：爬取知乎首頁前x個問題的詳情及問題指定範圍內的答案的摘要 power by: Python 3.6 Scrapy 1.4 json pymysql Step 1——相關簡介 Step 2——模擬登入知乎如果不登入

【Python 3 爬蟲學習筆記】使用Python3 爬取貓眼《西虹市首富》

轉自微信公眾號《資料森麟》直接上程式碼： # 呼叫相關包 import json import random import requests import time import pandas as pd import os from pyecharts im

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

Python爬蟲學習筆記（二）——requests庫的使用

pip 安裝 .text rep 瀏覽器 ror clas ade 學習筆記準備工作 requests庫不是python自帶的庫，可以用pip安裝。在使用時導入requests即可。基本用法 GET請求 r = requests.get(url) print(r.tex

Python爬蟲學習筆記（三）——正則表達式

斜杠這一 seh 爬蟲 class 學習常用方法部分介紹介紹正則表達式是一種處理字符串的強大工具，能實現字符串的檢索、替換、匹配驗證等。在爬蟲中，正則表達式主要用於從HTML裏提取所需要的信息常用的匹配規則模式描述 \w 匹配字母、數字及下劃

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

Python資料分析學習筆記（1）numpy模組基礎入門

numpy模組可以進行高效的資料處理，並提供了陣列的支援，很多模組都依賴他，比如pandas、scipy、matplotlib等，因此這個模組是基礎。（1）匯入： import numpy （2）建立一維和二維陣列： #建立一維陣列 x=numpy.

Python資料分析學習筆記（6）資料規約實戰--以主成分分析PCA為例

一、相關理論： 1、資料規約：產生更小且保持資料完整性的新資料集。意義在於降低無效、錯誤資料；降低儲存成本；少量且具有代表性的資料大幅加快，主要分為以下兩類： ①屬性規約：屬性合併或刪除無關維，目標是尋找最小子集使子集概率分佈儘可能與原來相同。常用方法：（

深度學習caffe實戰筆記（13）利用MATLAB視覺化mnist資料集

之前的部落格中介紹過利用MATLAB視覺化影象特徵，因為最近在看《深度學習21天實戰caffe》，裡面有一章節是關於視覺化的，所以把視覺化mnist資料集的程式碼共享一下，在這裡要感謝趙永科老師 clc; clear; close all; image_fil

python爬蟲學習筆記（二）——基礎篇之爬蟲基本原理

包括 for .py 非關系型原理 sof 301跳轉 close bsp 1.什麽是爬蟲？　　請求網站並提取數據的自動化程序 2.爬蟲基本流程　2.1發起請求　　通過HTTP庫向目標站點發起請求，即發起一個Request，請求可以包含額外的headers等信息，等

python學習筆記（一）執行，輸入輸出，資料型別

開學到現在6個星期過去了，前段時間真的是太忙了一直沒有時間更新自己的部落格。最近比較空，計劃把學的python跟opengl好好總結一下。 python執行方式互動模式命令列下直

神箭手爬蟲學習筆記（二）

暫存自動表達 eve doc 常用學習數據 .sh 一，可以使用神劍手已經做好的爬蟲市場直接跑，不需要自己定義爬取規則二，爬蟲市場裏沒有的網站，需要自己去定義規則來爬數據。三，爬取的數據可以先存放在神劍手，也可以放到七牛暫存。（提醒下，網站需要數據備份如果數量不

Python資料爬蟲學習筆記（13）爬取微信文章資料

感謝韋瑋老師的指導

相關推薦