python通過手機抓取微信公眾號

阿新 • • 發佈：2018-12-20

使用 Fiddler 抓包分析公眾號

開啟微信隨便選擇一個公眾號，檢視公眾號的所有歷史文章列表

在 Fiddler 上已經能看到有請求進來了，說明公眾號的文章走的都是HTTPS協議，這些請求就是微信客戶端向微信伺服器傳送的HTTP請求。

模擬微信請求

1、伺服器的響應結果，200 表示伺服器對該請求響應成功
2、請求協議，微信的請求協議都是基於HTTPS 的，所以Fiddle一定要配置好，不然你看不到 HTTPS 的請求。
3、請求路徑，包括了請求方法（GET），請求協議（HTTP/1.1），請求路徑（/mp/profile_ext...後面還有很長一串引數）

4、包括Cookie資訊在內的請求頭。

5、微信伺服器返回的響應資料。

確定微信公眾號的請求HOST是 mp.weixin.qq.com 之後，我們可以使用過濾器來過濾掉不相關的請求。

爬蟲的基本原理就是模擬瀏覽器傳送 HTTP 請求，然後從伺服器得到響應結果，現在我們就用 Python 實現如何傳送一個 HTTP 請求。這裡我們使用 requests 庫來發送請求。

拷貝URL和請求頭

1：找到完整URL請求地址
2：找到完整的請求頭（headers）資訊，Headers裡面包括了cookie、User-agent、Host 等資訊。

我們直接從 Fiddler 請求中拷貝 URL 和 Headers，右鍵 -> Copy -> Just Url/Headers Only

url = 'https://mp.weixin.qq.com/mp/profile_ext' \
      '?action=home' \
      '&__biz=MzA5MTAxMjEyMQ==' \
      '&scene=126' \
      '&bizpsid=0' \
      '&devicetype=android-23' \
      '&version=2607033c' \
      '&lang=zh_CN' \
      '&nettype=WIFI' \
      '&a8scene=3' \
      '&pass_ticket=LvcLsR1hhcMXdxkZjCN49DcQiOsCdoeZdyaQP3m5rwXkXVN7Os2r9sekOOQULUpL' \
      '&wx_header=1'

因為 requests.get 方法裡面的 headers 引數必須是字典物件，所以，先要寫個函式把剛剛拷貝的字串轉換成字典物件。

def headers_to_dict(headers):
    """
    將字串
    '''
    Host: mp.weixin.qq.com
    Connection: keep-alive
    Cache-Control: max-age=
    '''
    轉換成字典物件
    {
        "Host": "mp.weixin.qq.com",
        "Connection": "keep-alive",
        "Cache-Control":"max-age="
    }
    :param headers: str
    :return: dict
    """
    headers = headers.split("\n")
    d_headers = dict()
    for h in headers:
        if h:
            k, v = h.split(":", 1)
            d_headers[k] = v.strip()
    return d_headers

公眾號歷史文章資料就在 response.text 中。如果返回的內容非常短，而且title標籤是<title>驗證</title>，

那麼說明你的請求引數或者請求頭有誤，最有可能的一種請求就是 Headers 裡面的 Cookie 欄位過期，

從手機微信端重新發起一次請求獲取最新的請求引數和請求頭試試

 response = requests.get(url, headers=headers_to_dict(headers), verify=False)
    print(response.text)
    if '<title>驗證</title>' in response.text:
        raise Exception("獲取微信公眾號文章失敗，可能是因為你的請求引數有誤，請重新獲取")
# with open("weixin_history.html", "w", encoding="utf-8") as f:
#     f.write(response.text)

歷史文章封裝在叫 msgList 的陣列中（實際上該陣列包裝在字典結構中），這是一個 Json 格式的資料，但是裡面還有 html 轉義字元需要處理

寫一個方法提取出歷史文章資料，分三個步驟，首先用正則提取資料內容，然後 html 轉義處理，最終得到一個列表物件，返回最近釋出的10篇文章

def extract_data(html_content):
    """
    從html頁面中提取歷史文章資料
    :param html_content 頁面原始碼
    :return: 歷史文章列表
    """
    import re
    import html
    import json

    rex = "msgList = '({.*?})'"  # 正則表達
    pattern = re.compile(pattern=rex, flags=re.S)
    match = pattern.search(html_content)
    if match:
        data = match.group(1)
        data = html.unescape(data)  # 處理轉義
        # print('data: {}'.format(data))
        data = json.loads(data)
        articles = data.get("list")
        for item in articles:
            print(item)
        return articles

最終提取出來的資料總共有10條，就是最近發表的10條資料，我們看看每條資料返回有哪些欄位。

傳送時間對應comm_msg_info.datetime，app_msg_ext_info中的欄位資訊就是第一篇文章的欄位資訊，分別對應：

title：文章標題
content_url：文章連結
source_url：原文連結，有可能為空
digest：摘要
cover：封面圖
datetime：推送時間

後面幾篇文章以列表的形式儲存在 multi_app_msg_item_list 欄位中。

詳細程式碼

import requests

url = 'https://mp.weixin.qq.com/mp/profile_ext' \
      '?action=home' \
      '&__biz=MzA5MTAxMjEyMQ==' \
      '&scene=126' \
      '&bizpsid=0' \
      '&devicetype=android-23' \
      '&version=2607033c' \
      '&lang=zh_CN' \
      '&nettype=WIFI' \
      '&a8scene=3' \
      '&pass_ticket=LvcLsR1hhcMXdxkZjCN49DcQiOsCdoeZdyaQP3m5rwXkXVN7Os2r9sekOOQULUpL' \
      '&wx_header=1'


headers ='''
Host: mp.weixin.qq.com

Connection: keep-alive

User-Agent: Mozilla/5.0 (Linux; Android 6.0.1; OPPO R9s Build/MMB29M; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/6.2 TBS/044405 Mobile Safari/537.36 MMWEBID/5576 MicroMessenger/6.7.3.1360(0x2607033C) NetType/WIFI Language/zh_CN Process/toolsmp

x-wechat-key: d2bc6fe213fd0db717e11807caca969ba1d7537e57fc89f64500a774dba05a4f1a83ae58a3d039efc6403b3fa70ebafb52cfd737b350b58d0dca366b5daf92027aaefcb094932df5a18c8764e98703dc

x-wechat-uin: MTA1MzA1Nzk4Mw%3D%3D

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,image/wxpic,image/sharpp,image/apng,image/tpg,/;q=0.8

Accept-Encoding: gzip, deflate

Accept-Language: zh-CN,en-US;q=0.8

Q-UA2: QV=3&PL=ADR&PR=WX&PP=com.tencent.mm&PPVN=6.7.3&TBSVC=43620&CO=BK&COVC=044405&PB=GE&VE=GA&DE=PHONE&CHID=0&LCID=9422&MO= OPPOR9s &RL=1080*1920&OS=6.0.1&API=23

Q-GUID: edb298c301f35e6c59298f2313b788cb

Q-Auth: 31045b957cf33acf31e40be2f3e71c5217597676a9729f1b
'''


def headers_to_dict(headers):
    """
    將字串
    '''
    Host: mp.weixin.qq.com
    Connection: keep-alive
    Cache-Control: max-age=
    '''
    轉換成字典物件
    {
        "Host": "mp.weixin.qq.com",
        "Connection": "keep-alive",
        "Cache-Control":"max-age="
    }
    :param headers: str
    :return: dict
    """
    headers = headers.split("\n")
    d_headers = dict()
    for h in headers:
        if h:
            k, v = h.split(":", 1)
            d_headers[k] = v.strip()
    return d_headers


# with open("weixin_history.html", "w", encoding="utf-8") as f:
#     f.write(response.text)


def extract_data(html_content):
    """
    從html頁面中提取歷史文章資料
    :param html_content 頁面原始碼
    :return: 歷史文章列表
    """
    import re
    import html
    import json

    rex = "msgList = '({.*?})'"  # 正則表達
    pattern = re.compile(pattern=rex, flags=re.S)
    match = pattern.search(html_content)
    if match:
        data = match.group(1)
        data = html.unescape(data)  # 處理轉義
        # print('data: {}'.format(data))
        data = json.loads(data)
        articles = data.get("list")

        return articles


def crawl():
    """
     爬取文章
    :return:
    """
    response = requests.get(url, headers=headers_to_dict(headers), verify=False)
    print(response.text)
    if '<title>驗證</title>' in response.text:
        raise Exception("獲取微信公眾號文章失敗，可能是因為你的請求引數有誤，請重新獲取")
    data = extract_data(response.text)
    for item in data:
        print(item['app_msg_ext_info'])

if __name__ == '__main__':
    crawl()

python通過手機抓取微信公眾號

使用 Fiddler 抓包分析公眾號開啟微信隨便選擇一個公眾號，檢視公眾號的所有歷史文章列表在 Fiddler 上已經能看到有請求進來了，說明公眾號的文章走的都是HTTPS協議，這些請求就是微信客戶端向微信伺服器傳送的HTTP請求。模擬微信請求 1

python爬蟲(17)爬出新高度_抓取微信公眾號文章（selenium+phantomjs）（上）

抓取微信公眾號的文章一.思路分析目前所知曉的能夠抓取的方法有： 1、微信APP中微信公眾號文章連結的直接抓取（http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&am

python爬蟲（17）爬出新高度_抓取微信公眾號文章（selenium+phantomjs）（下）（windows版本）

前兩天在linux 上面寫了一版爬取微信公眾號的文章今天重新修改一下，讓它在windows上面也能執行執行下面的程式碼需要安裝以下內容： pip install pyquery pip install requests pip install selenium

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

利用搜狗抓取微信公眾號文章

微信一直是一個自己玩的小圈子，前段時間搜狗推出的微信搜尋帶來了一絲曙光。搜狗搜尋推出了內容搜尋和公眾號搜尋兩種，利用後者可以抓取微信公眾號的最新內容，看了下還是比較及時的。每個公眾號都有一個openid，最早可以直接利用http://weixin.sogou

python使用webdriver爬取微信公眾號資訊

# -*- coding: utf-8 -*- from selenium import webdriver import time import json import requests import re import random #微信公眾號賬號 user=""

python 多線程方法爬取微信公眾號文章

微信爬蟲多線程爬蟲本文在上一篇基礎上增加多線程處理（http://blog.51cto.com/superleedo/2124494 ）執行思路：1，規劃好執行流程，建立兩個執行線程，一個控制線程2，線程1用於獲取url，並寫入urlqueue隊列3，線程2，通過線程1的url獲取文章內容，並保

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

Python爬取微信公眾號歷史文章進行資料分析

思路： 1. 安裝代理AnProxy，在手機端安裝CA證書，啟動代理，設定手機代理； 2. 獲取目標微信公眾號的__biz; 3. 進入微信公眾號的歷史頁面； 4. 使用Monkeyrunner控制滑屏；獲取更多的歷史訊息； 5. 記錄文章標題，摘要，建立時間，創作型別，地

用python爬取微信公眾號文章

本文通過微信提供的公眾號文章呼叫介面，實現爬取公眾號文章的功能。 # -*- coding: utf-8 -*- from selenium import webdriver import time import json import reques

記一次企業級爬蟲系統升級改造（四）：爬取微信公眾號文章（通過搜狗與新榜等第三方平臺）

首先表示抱歉，年底大家都懂的，又涉及SupportYun系統V1.0上線。故而第四篇文章來的有點晚了些~~~對關注的朋友說聲sorry! SupportYun系統當前一覽：　　首先說一下，文章的進度一直是延後於系統開發進度的。　　當前系統V1.0 已經正式上線服役了，這

使用anyproxy+安卓模擬器自動爬取微信公眾號資料-包括閱讀數和點贊數

本文並非作者原創，本文來自 zsyoung 的CSDN 部落格，全文地址請點選：https://blog.csdn.net/zsyoung/article/details/78849982?utm_source=copy 在這裡只是把相關步驟清晰明化一下： 1.安裝node.js &n

Python快速搭建自動回覆微信公眾號

Python快速搭建自動回覆微信公眾號在之前的一篇文章 Python利用 AIML 和 Tornado 搭建聊天機器人微信訂閱號中用 aiml 實現了一個簡單的英文聊天機器人訂閱號。但是隻能處理英文訊息，現在用圖靈機器人來實現一箇中文的聊天機器人訂閱號。這裡主要介紹如何

python-post-json 中文問題---微信公眾號中遇到的問題

轉載自http://my.oschina.net/yangyanxing/blog/159211 import urllib2 02 import json 03 04 html = urllib2.urlopen(r'http://api.do

爬取微信公眾號

1.抓取公眾號歷史記錄首先利用Fiddler4抓包，監聽手機流量 .手機電腦連線同一網路，手機需設定代理，伺服器為電腦ip，埠號為8888，fiddler也需要設定，不會百度看看點選手機公眾號“檢視歷史訊息”。注意fiddler抓的請求，第二個即為歷史訊息那個請求，

python3 scrapy爬取微信公眾號及歷史資訊V1.0

環境： python3 scrapy 目的寫這篇文章主要是做一下紀念，畢竟是搞了快兩天的東西了，今天加大了量，使用scrapy爬取100多個微信公眾號，然後出現IP被封的情況下，當然了，這種情況並不是沒有辦法解決，只需要在scr

輿情監控系統——step1.爬取微信公眾號文章

小明醬於2018年元旦更新，寫的還是很糙，如果你在爬蟲問題中遇到問題，歡迎交流哦，評論區隨時為你開放！實習兩週過去了，目前任務量還不是很大。我的老闆很nice，是個軍校生，給我安排的任務也比我預想的要貼近我的研究方向，做的是微信公眾號文章的輿情監控系統，以下

php利用curl爬蟲爬取微信公眾號，防止ip封鎖

前段時間遇到一個需求，是定向抓取一批微信公眾號，於是找到了搜狗搜尋引擎比較好，下面貼出原始碼，各位可以試下 public function test(){ //搜狗抓取微信公眾號 $url="http://weixin.sogou.com/weixin?type=1&

python3 scrapy爬取微信公眾號及歷史資訊V2.0

程式碼部分，日後補充： # -*- coding: utf-8 -*- # @Time : 2018/2/25 14:24 # @Author : 蛇崽 # @Email : [email protected] # @File

爬取微信公眾號內容——繪製詞雲

寫在前面的話前段時間寫了一篇通過搜狗引擎獲取微信公眾號的文章，最近又看了一個網易雲歌詞繪製詞雲的程式然後我就想，能否把這兩者結合起來呢還好經歷幾多波折終於把這個東西給弄出來了。其實中間的實現不是很難，關鍵是環境搭建實在是太困難了好了，先把程式碼以及效果圖奉

python通過手機抓取微信公眾號

使用 Fiddler 抓包分析公眾號

拷貝URL和請求頭

相關推薦