1. 程式人生 > >python使用webdriver爬取微信公眾號資訊

python使用webdriver爬取微信公眾號資訊

# -*- coding: utf-8 -*-
from selenium import webdriver
import time
import json
import requests
import re
import random

#微信公眾號賬號
user=""
#公眾號密碼
password=""
#設定要爬取的公眾號列表
gzlist=['香河微服務']

#登入微信公眾號,獲取登入之後的cookies資訊,並儲存到本地文字中
def weChat_login():
    #定義一個空的字典,存放cookies內容
post={}

    #用webdriver啟動谷歌瀏覽器
print("啟動瀏覽器,開啟微信公眾號登入介面") driver = webdriver.Chrome(executable_path='E:\\program\\chromedriver.exe') #開啟微信公眾號登入頁面 driver.get('https://mp.weixin.qq.com/') #等待5秒鐘 time.sleep(5) print("正在輸入微信公眾號登入賬號和密碼......") #清空賬號框中的內容 driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[1]/div[1]/div/span/input"
).clear() #自動填入登入使用者名稱 driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[1]/div[1]/div/span/input").send_keys(user) #清空密碼框中的內容 driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[1]/div[2]/div/span/input").clear() #自動填入登入密碼 driver.find_element_by_xpath("//*[@id=\"header
\"]/div[2]/div/div/form/div[1]/div[2]/div/span/input").send_keys(password) # 在自動輸完密碼之後需要手動點一下記住我 print("請在登入介面點選:記住賬號") time.sleep(10) #自動點選登入按鈕進行登入 driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[4]/a").click() # 拿手機掃二維碼! print("請拿手機掃碼二維碼登入公眾號") time.sleep(20) print("登入成功") #重新載入公眾號登入頁,登入之後會顯示公眾號後臺首頁,從這個返回內容中獲取cookies資訊 driver.get('https://mp.weixin.qq.com/') #獲取cookies cookie_items = driver.get_cookies() #獲取到的cookies是列表形式,將cookies轉成json形式並存入本地名為cookie的文字中 for cookie_item in cookie_items: post[cookie_item['name']] = cookie_item['value'] cookie_str = json.dumps(post) with open('cookie.txt', 'w+') as f: f.write(cookie_str) print("cookies資訊已儲存到本地") #爬取微信公眾號文章,並存在本地文字中 def get_content(query): #query為要爬取的公眾號名稱 #公眾號主頁 url = 'https://mp.weixin.qq.com' #設定headers header = { "HOST": "mp.weixin.qq.com", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0" } #讀取上一步獲取到的cookies with open('cookie.txt', 'r') as f: cookie = f.read().decode("UTF-8") cookies = json.loads(cookie) #登入之後的微信公眾號首頁url變化為:https://mp.weixin.qq.com/cgi-bin/home?t=home/index&lang=zh_CN&token=1849751598,從這裡獲取token資訊 response = requests.get(url=url, cookies=cookies) token = re.findall(r'token=(\d+)', str(response.url))[0] #搜尋微信公眾號的介面地址 search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?' #搜尋微信公眾號介面需要傳入的引數,有三個變數:微信公眾號token、隨機數random、搜尋的微信公眾號名字 query_id = { 'action': 'search_biz', 'token' : token, 'lang': 'zh_CN', 'f': 'json', 'ajax': '1', 'random': random.random(), 'query': query, 'begin': '0', 'count': '5' } #開啟搜尋微信公眾號介面地址,需要傳入相關引數資訊如:cookies、params、headers search_response = requests.get(search_url, cookies=cookies, headers=header, params=query_id) #取搜尋結果中的第一個公眾號 lists = search_response.json().get('list')[0] #獲取這個公眾號的fakeid,後面爬取公眾號文章需要此欄位 fakeid = lists.get('fakeid') #微信公眾號文章介面地址 appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?' #搜尋文章需要傳入幾個引數:登入的公眾號token、要爬取文章的公眾號fakeid、隨機數random query_id_data = { 'token': token, 'lang': 'zh_CN', 'f': 'json', 'ajax': '1', 'random': random.random(), 'action': 'list_ex', 'begin': '0',#不同頁,此引數變化,變化規則為每頁加5 'count': '5', 'query': '', 'fakeid': fakeid, 'type': '9' } #開啟搜尋的微信公眾號文章列表頁 appmsg_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data) #獲取文章總數 max_num = appmsg_response.json().get('app_msg_cnt') #每頁至少有5條,獲取文章總的頁數,爬取時需要分頁爬 num = int(int(max_num) / 5) #起始頁begin引數,往後每頁加5 begin = 0 while num + 1 > 0 : query_id_data = { 'token': token, 'lang': 'zh_CN', 'f': 'json', 'ajax': '1', 'random': random.random(), 'action': 'list_ex', 'begin': '{}'.format(str(begin)), 'count': '5', 'query': '', 'fakeid': fakeid, 'type': '9' } print('正在翻頁:--------------',begin) #獲取每一頁文章的標題和連結地址,並寫入本地文字中 query_fakeid_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data) fakeid_list = query_fakeid_response.json().get('app_msg_list') for item in fakeid_list: content_link=item.get('link') content_title=item.get('title') fileName=query+'.txt' # with open('e://xhwfw.txt','a') as fh: # fh.write(content_title+":\n"+content_link+"\n") print content_title+":\n"+content_link+"\n" num -= 1 begin = int(begin) begin+=5 time.sleep(2) if __name__=='__main__': try: #登入微信公眾號,獲取登入之後的cookies資訊,並儲存到本地文字中 weChat_login() #登入之後,通過微信公眾號後臺提供的微信公眾號文章介面爬取文章 for query in gzlist: #爬取微信公眾號文章,並存在本地文字中 print("開始爬取公眾號:"+query) get_content(query) print("爬取完成") except Exception as e: print(str(e))