1. 程式人生 > >用python爬取微信公眾號文章

用python爬取微信公眾號文章

本文通過微信提供的公眾號文章呼叫介面,實現爬取公眾號文章的功能。

# -*- coding: utf-8 -*-

from selenium import webdriver
import time
import json
import requests
import re
import random

#微信公眾號賬號
user="你的公眾號賬號"
#公眾號密碼
password="你的公眾號密碼"
#設定要爬取的公眾號列表
gzlist=['要爬取的公眾號名字']

#登入微信公眾號,獲取登入之後的cookies資訊,並儲存到本地文字中
def weChat_login():
    #定義一個空的字典,存放cookies內容
post={} #用webdriver啟動谷歌瀏覽器 print("啟動瀏覽器,開啟微信公眾號登入介面") driver = webdriver.Chrome(executable_path='C:\chromedriver.exe') #開啟微信公眾號登入頁面 driver.get('https://mp.weixin.qq.com/') #等待5秒鐘 time.sleep(5) print("正在輸入微信公眾號登入賬號和密碼......") #清空賬號框中的內容 driver.find_element_by_xpath("./*//input[@id='account']"
).clear() #自動填入登入使用者名稱 driver.find_element_by_xpath("./*//input[@id='account']").send_keys(user) #清空密碼框中的內容 driver.find_element_by_xpath("./*//input[@id='pwd']").clear() #自動填入登入密碼 driver.find_element_by_xpath("./*//input[@id='pwd']").send_keys(password) # 在自動輸完密碼之後需要手動點一下記住我 print("請在登入介面點選:記住賬號"
) time.sleep(10) #自動點選登入按鈕進行登入 driver.find_element_by_xpath("./*//a[@id='loginBt']").click() # 拿手機掃二維碼! print("請拿手機掃碼二維碼登入公眾號") time.sleep(20) print("登入成功") #重新載入公眾號登入頁,登入之後會顯示公眾號後臺首頁,從這個返回內容中獲取cookies資訊 driver.get('https://mp.weixin.qq.com/') #獲取cookies cookie_items = driver.get_cookies() #獲取到的cookies是列表形式,將cookies轉成json形式並存入本地名為cookie的文字中 for cookie_item in cookie_items: post[cookie_item['name']] = cookie_item['value'] cookie_str = json.dumps(post) with open('cookie.txt', 'w+', encoding='utf-8') as f: f.write(cookie_str) print("cookies資訊已儲存到本地") #爬取微信公眾號文章,並存在本地文字中 def get_content(query): #query為要爬取的公眾號名稱 #公眾號主頁 url = 'https://mp.weixin.qq.com' #設定headers header = { "HOST": "mp.weixin.qq.com", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0" } #讀取上一步獲取到的cookies with open('cookie.txt', 'r', encoding='utf-8') as f: cookie = f.read() cookies = json.loads(cookie) #登入之後的微信公眾號首頁url變化為:https://mp.weixin.qq.com/cgi-bin/home?t=home/index&lang=zh_CN&token=1849751598,從這裡獲取token資訊 response = requests.get(url=url, cookies=cookies) token = re.findall(r'token=(\d+)', str(response.url))[0] #搜尋微信公眾號的介面地址 search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?' #搜尋微信公眾號介面需要傳入的引數,有三個變數:微信公眾號token、隨機數random、搜尋的微信公眾號名字 query_id = { 'action': 'search_biz', 'token' : token, 'lang': 'zh_CN', 'f': 'json', 'ajax': '1', 'random': random.random(), 'query': query, 'begin': '0', 'count': '5' } #開啟搜尋微信公眾號介面地址,需要傳入相關引數資訊如:cookies、params、headers search_response = requests.get(search_url, cookies=cookies, headers=header, params=query_id) #取搜尋結果中的第一個公眾號 lists = search_response.json().get('list')[0] #獲取這個公眾號的fakeid,後面爬取公眾號文章需要此欄位 fakeid = lists.get('fakeid') #微信公眾號文章介面地址 appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?' #搜尋文章需要傳入幾個引數:登入的公眾號token、要爬取文章的公眾號fakeid、隨機數random query_id_data = { 'token': token, 'lang': 'zh_CN', 'f': 'json', 'ajax': '1', 'random': random.random(), 'action': 'list_ex', 'begin': '0',#不同頁,此引數變化,變化規則為每頁加5 'count': '5', 'query': '', 'fakeid': fakeid, 'type': '9' } #開啟搜尋的微信公眾號文章列表頁 appmsg_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data) #獲取文章總數 max_num = appmsg_response.json().get('app_msg_cnt') #每頁至少有5條,獲取文章總的頁數,爬取時需要分頁爬 num = int(int(max_num) / 5) #起始頁begin引數,往後每頁加5 begin = 0 while num + 1 > 0 : query_id_data = { 'token': token, 'lang': 'zh_CN', 'f': 'json', 'ajax': '1', 'random': random.random(), 'action': 'list_ex', 'begin': '{}'.format(str(begin)), 'count': '5', 'query': '', 'fakeid': fakeid, 'type': '9' } print('正在翻頁:--------------',begin) #獲取每一頁文章的標題和連結地址,並寫入本地文字中 query_fakeid_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data) fakeid_list = query_fakeid_response.json().get('app_msg_list') for item in fakeid_list: content_link=item.get('link') content_title=item.get('title') fileName=query+'.txt' with open(fileName,'a',encoding='utf-8') as fh: fh.write(content_title+":\n"+content_link+"\n") num -= 1 begin = int(begin) begin+=5 time.sleep(2) if __name__=='__main__': try: #登入微信公眾號,獲取登入之後的cookies資訊,並儲存到本地文字中 weChat_login() #登入之後,通過微信公眾號後臺提供的微信公眾號文章介面爬取文章 for query in gzlist: #爬取微信公眾號文章,並存在本地文字中 print("開始爬取公眾號:"+query) get_content(query) print("爬取完成") except Exception as e: print(str(e))

相關推薦

PK10平臺開發與python公眾文章

網址 谷歌瀏覽器 pytho google http 開發 微信 安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口,實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

python公眾文章

本文通過微信提供的公眾號文章呼叫介面,實現爬取公眾號文章的功能。 # -*- coding: utf-8 -*- from selenium import webdriver import time import json import reques

python 多線程方法公眾文章

微信爬蟲 多線程爬蟲 本文在上一篇基礎上增加多線程處理(http://blog.51cto.com/superleedo/2124494 )執行思路:1,規劃好執行流程,建立兩個執行線程,一個控制線程2,線程1用於獲取url,並寫入urlqueue隊列3,線程2,通過線程1的url獲取文章內容,並保

Python公眾歷史文章進行資料分析

思路: 1. 安裝代理AnProxy,在手機端安裝CA證書,啟動代理,設定手機代理; 2. 獲取目標微信公眾號的__biz; 3. 進入微信公眾號的歷史頁面; 4. 使用Monkeyrunner控制滑屏;獲取更多的歷史訊息; 5. 記錄文章標題,摘要,建立時間,創作型別,地

Python爬蟲】公眾文章資訊準備工作

有一天發現我關注了好多微信公眾號,那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來,而且還想將一些文章的精彩評論一起搞下來。參考了一些文章,通過幾天的研究基本上實現了自己的要求,現在記錄一下自己的一些心得。 整個研究過程如下: 1.瞭解微信公眾號文章連結的組成,歷史文章API組成,單個文章

記一次企業級爬蟲系統升級改造(四):公眾文章(通過搜狗與新榜等第三方平臺)

首先表示抱歉,年底大家都懂的,又涉及SupportYun系統V1.0上線。故而第四篇文章來的有點晚了些~~~對關注的朋友說聲sorry! SupportYun系統當前一覽:   首先說一下,文章的進度一直是延後於系統開發進度的。   當前系統V1.0 已經正式上線服役了,這

輿情監控系統——step1.公眾文章

小明醬於2018年元旦更新,寫的還是很糙,如果你在爬蟲問題中遇到問題,歡迎交流哦,評論區隨時為你開放! 實習兩週過去了,目前任務量還不是很大。我的老闆很nice,是個軍校生,給我安排的任務也比我預想的要貼近我的研究方向,做的是微信公眾號文章的輿情監控系統,以下

python爬蟲(17)出新高度_抓公眾文章(selenium+phantomjs)(上)

抓取微信公眾號的文章 一.思路分析 目前所知曉的能夠抓取的方法有: 1、微信APP中微信公眾號文章連結的直接抓取(http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&am

python爬蟲(17)出新高度_抓公眾文章(selenium+phantomjs)(下)(windows版本)

前兩天在linux 上面寫了一版爬取微信公眾號的文章 今天重新修改一下,讓它在windows上面也能執行 執行下面的程式碼需要安裝以下內容: pip install pyquery pip install requests pip install selenium

python使用webdriver公眾資訊

# -*- coding: utf-8 -*- from selenium import webdriver import time import json import requests import re import random #微信公眾號賬號 user=""

Python 好友,最後發現一個大秘密

代碼 我們 同學 strong 分享 簽名 ast ron tps 前言 你身處的環境是什麽樣,你就會成為什麽樣的人。現在人們日常生活基本上離不開微信,但微信不單單是一個即時通訊軟件,微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣,慢慢你的思想也會變的怎麽樣。最近在學習

使用anyproxy+安卓模擬器自動公眾資料-包括閱讀數和點贊數

本文並非作者原創,本文來自 zsyoung 的CSDN 部落格 ,全文地址請點選:https://blog.csdn.net/zsyoung/article/details/78849982?utm_source=copy 在這裡只是把相關步驟清晰明化一下: 1.安裝node.js &n

Python 好友,最後發現一個大祕密

前言你身處的環境是什麼樣,你就會成為什麼樣的人。現在人們日常生活基本上離不開微信,但微信不單單是一個即時通訊軟體,微信更像是虛擬的現實世界。你所處的朋友圈是怎麼樣,慢慢你的思想也會變的怎麼樣。最近在學習 itchat,然後就寫了一個爬蟲,爬取了我所有的微信好友的資料。並對其中的一些資料進行分析,發現了一些很有

公眾

1.抓取公眾號歷史記錄 首先利用Fiddler4抓包,監聽手機流量 .手機電腦連線同一網路,手機需設定代理,伺服器為電腦ip,埠號為8888,fiddler也需要設定,不會百度看看 點選手機公眾號“檢視歷史訊息”。注意fiddler抓的請求 , 第二個即為歷史訊息那個請求,

python3 scrapy公眾及歷史資訊V1.0

環境: python3 scrapy 目的 寫這篇文章主要是做一下紀念,畢竟是搞了快兩天的東西了,今天加大了量,使用scrapy爬取100多個微信公眾號,然後出現IP被封的情況下,當然了,這種情況並不是沒有辦法解決,只需要在scr

php利用curl爬蟲公眾,防止ip封鎖

前段時間遇到一個需求,是定向抓取一批微信公眾號,於是找到了搜狗搜尋引擎比較好,下面貼出原始碼,各位可以試下 public function test(){ //搜狗抓取微信公眾號 $url="http://weixin.sogou.com/weixin?type=1&

python3 scrapy公眾及歷史資訊V2.0

程式碼部分,日後補充: # -*- coding: utf-8 -*- # @Time : 2018/2/25 14:24 # @Author : 蛇崽 # @Email : [email protected] # @File

公眾內容——繪製詞雲

寫在前面的話 前段時間寫了一篇通過搜狗引擎獲取微信公眾號的文章,最近又看了一個網易雲歌詞繪製詞雲的程式然後我就想,能否把這兩者結合起來呢還好經歷幾多波折終於把這個東西給弄出來了。其實中間的實現不是很難, 關鍵是環境搭建實在是太困難了好了,先把程式碼以及效果圖奉

pythom公眾最新部分文章(可執行程式碼)

執行下面的程式碼需要安裝以下內容: pip install pyquery pip install requests pip install selenium pip install pyExcelerator pip install

python wxpy管理公眾,並利用獲取自己的開源資料。

之前瞭解到itchat 乃至於 wxpy時 是利用tuling聊天機器人的介面。呼叫介面並儲存雙方的問答結果可以作為自己的問答詞庫的一個數據庫累計。這些資料可以用於自己訓練。 而最近希望獲取一些語音資源,用於卷積神經網路的訓練。。     首先wxpy是itchat的升級版,通