pythom爬取微信公眾號最新部分文章（可執行程式碼）

阿新 • • 發佈：2019-02-19

執行下面的程式碼需要安裝以下內容：

pip install pyquery  
pip install requests  
pip install selenium    
pip install pyExcelerator  
pip install json

下面附上，利用微信公眾號在搜狗微信裡面搜尋得到的部分公眾號文章的爬取程式碼：

同時需要下載 phantomjs-2.1.1-windows，解壓可以直接用。

#!/usr/bin/python  
# coding: utf-8  

''''' 
總的來說就是通過搜狗搜尋中的微信搜尋入口來爬取 
2017-04-13 by Jimy_fengqi 
''' 
  

#這三行程式碼是防止在python2上面編碼錯誤的，在python3上面不要要這樣設定  
import sys  
reload(sys)  
sys.setdefaultencoding('utf-8')  

from urllib import quote  
from pyquery import PyQuery as pq  
from selenium import webdriver  
from pyExcelerator import * #匯入excel相關包  

import requests  
import time  
import re  
import 
 json  
import os  


class weixin_spider:  

    def __init__(self, keywords):  
        ' 建構函式 '  
        self.keywords = keywords  
        # 搜狐微信搜尋連結入口  
        #self.sogou_search_url = 'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_=' % quote(self.keywords)   

        self.sogou_search_url = 'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_=' % quote(self.keywords)  

        # 爬蟲偽裝頭部設定  
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'}  

        # 設定操作超時時長  
        self.timeout = 5  

        # 爬蟲模擬在一個request.session中完成  
        self.s = requests.Session()  

        #excel 第一行資料  
        self.excel_data=[u'編號',u'時間',u'文章標題',u'文章地址',u'文章簡介']  
        #定義excel操作控制代碼  
        self.excle_w=Workbook()  


    #搜尋入口地址，以公眾為關鍵字搜尋該公眾號     
    def get_search_result_by_keywords(self):  
        self.log(u'搜尋地址為：%s' % self.sogou_search_url)  
        return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).content  

    #獲得公眾號主頁地址  
    def get_wx_url_by_sougou_search_html(self, sougou_search_html):  
        doc = pq(sougou_search_html)  
        #print doc('p[class="tit"]')('a').attr('href')  
        #print doc('div[class=img-box]')('a').attr('href')  
        #通過pyquery的方式處理網頁內容，類似用beautifulsoup，但是pyquery和jQuery的方法類似，找到公眾號主頁地址  
        return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')  

    #使用webdriver 載入公眾號主頁內容，主要是js渲染的部分  
    def get_selenium_js_html(self, url):  
        browser = webdriver.PhantomJS(executable_path=r'D:\Python2.7\Scripts\phantomjs.exe')   

        browser.get(url)   
        time.sleep(3)   
        # 執行js得到整個頁面內容  
        html = browser.execute_script("return document.documentElement.outerHTML")  
        browser.close()  
        return html  
    #獲取公眾號文章內容  
    def parse_wx_articles_by_html(self, selenium_html):  
        doc = pq(selenium_html)  
        print u'開始查詢內容msg'  
        return doc('div[class="weui_media_box appmsg"]')  

        #有的公眾號僅僅有10篇文章，有的可能多一點  
        #return doc('div[class="weui_msg_card"]')#公眾號只有10篇文章文章的  


    #將獲取到的文章轉換為字典  
    def switch_arctiles_to_list(self, articles):  
        #定義存貯變數  
        articles_list = []  
        i = 1  

        #以當前時間為名字建表  
        excel_sheet_name=time.strftime('%Y-%m-%d')  
        excel_content=self.excle_w.add_sheet(excel_sheet_name)  

        #遍歷找到的文章，解析裡面的內容  
        if articles:  
            for article in articles.items():  
                self.log(u'開始整合(%d/%d)' % (i, len(articles)))  
                #處理單個文章  
                articles_list.append(self.parse_one_article(article,i,excel_content))  
                i += 1  
        return articles_list  
    #解析單篇文章  
    def parse_one_article(self, article,i,excel_content):  
        article_dict = {}  

        #獲取標題  
        title = article('h4[class="weui_media_title"]').text().strip()  
        self.log(u'標題是： %s' % title)  
        #獲取標題對應的地址  
        url = 'http://mp.weixin.qq.com' + article('h4[class="weui_media_title"]').attr('hrefs')  
        self.log(u'地址為： %s' % url)  
        #獲取概要內容  
        summary = article('.weui_media_desc').text()  
        self.log(u'文章簡述： %s' % summary)  
        #獲取文章發表時間  
        date = article('.weui_media_extra_info').text().strip()  
        self.log(u'發表時間為： %s' % date)  
        #獲取封面圖片  
        pic = self.parse_cover_pic(article)  
        #獲取文章內容  
        content = self.parse_content_by_url(url).html()  
        #儲存文章到本地  
        contentfiletitle = self.keywords+'/'+title+'_'+date+'.html'  
        self.save_content_file(contentfiletitle,content)  

        #將這些簡單的資訊儲存成excel資料  
        cols=0  
        tempContent=[i,date,title,url,summary]  
        for data in self.excel_data:  
            excel_content.write(0,cols,data)  
            excel_content.write(i,cols,tempContent[cols])  

            cols +=1  
        self.excle_w.save(self.keywords+'/'+self.keywords+'.xls')  


        #返回字典資料  
        return {  
            'title': title,  
            'url': url,  
            'summary': summary,  
            'date': date,  
            'pic': pic,  
            'content': content  
        }  

    #查詢封面圖片，獲取封面圖片地址  
    def parse_cover_pic(self, article):  
        pic = article('.weui_media_hd').attr('style')  

        p = re.compile(r'background-image:url(.∗?)')  
        rs = p.findall(pic)  
        self.log( u'封面圖片是：%s ' % rs[0] if len(rs) > 0 else '')  

        return rs[0] if len(rs) > 0 else ''  
    #獲取文章頁面詳情  
    def parse_content_by_url(self, url):  
        page_html = self.get_selenium_js_html(url)  
        return pq(page_html)('#js_content')  

    #儲存文章到本地      
    def save_content_file(self,title,content):  
        with open(title, 'w') as f:  
            f.write(content)  

    #存貯json資料到本地      
    def save_file(self, content):  
        ' 資料寫入檔案 '  
        with open(self.keywords+'/'+self.keywords+'.txt', 'w') as f:  
            f.write(content)  
    #自定義log函式，主要是加上時間  
    def log(self, msg):  
        print u'%s: %s' % (time.strftime('%Y-%m-%d_%H-%M-%S'), msg)  
    #驗證函式  
    def need_verify(self, selenium_html):  
        ' 有時候對方會封鎖ip，這裡做一下判斷，檢測html中是否包含id=verify_change的標籤，有的話，代表被重定向了，提醒過一陣子重試 '  
        return pq(selenium_html)('#verify_change').text() != ''  
    #建立公眾號命名的資料夾  
    def create_dir(self):  
        if not os.path.exists(self.keywords):    
            os.makedirs(self.keywords)   

    #爬蟲主函式  
    def run(self):  
        ' 爬蟲入口函式 '  
        #Step 0 ：  建立公眾號命名的資料夾  
        self.create_dir()  

        # Step 1：GET請求到搜狗微信引擎，以微信公眾號英文名稱作為查詢關鍵字  
        self.log(u'開始獲取，微信公眾號英文名為：%s' % self.keywords)  
        self.log(u'開始呼叫sougou搜尋引擎')  
        sougou_search_html = self.get_search_result_by_keywords()  

        # Step 2：從搜尋結果頁中解析出公眾號主頁連結  
        self.log(u'獲取sougou_search_html成功，開始抓取公眾號對應的主頁wx_url')  
        wx_url = self.get_wx_url_by_sougou_search_html(sougou_search_html)  
        self.log(u'獲取wx_url成功，%s' % wx_url)  


        # Step 3：Selenium+PhantomJs獲取js非同步載入渲染後的html  
        self.log(u'開始呼叫selenium渲染html')  
        selenium_html = self.get_selenium_js_html(wx_url)  

        # Step 4: 檢測目標網站是否進行了封鎖  
        if self.need_verify(selenium_html):  
            self.log(u'爬蟲被目標網站封鎖，請稍後再試')  
        else:  
            # Step 5: 使用PyQuery，從Step 3獲取的html中解析出公眾號文章列表的資料  
            self.log(u'呼叫selenium渲染html完成，開始解析公眾號文章')  
            articles = self.parse_wx_articles_by_html(selenium_html)  
            self.log(u'抓取到微信文章%d篇' % len(articles))  

            # Step 6: 把微信文章資料封裝成字典的list  
            self.log(u'開始整合微信文章資料為字典')  
            articles_list = self.switch_arctiles_to_list(articles)  

            ''''' 
            json 資料，需要分析json資料的可以把這些註釋開啟 
            # Step 7: 把Step 5的字典list轉換為Json 
            self.log(u'整合完成，開始轉換為json') 
            data_json = json.dumps(articles_list) 

            # Step 8: 寫檔案 
            self.log(u'轉換為json完成，開始儲存json資料到檔案') 
            self.save_file(data_json) 
            '''  
            self.log(u'儲存完成，程式結束')  

# main  
#幾個可供參考的公眾號  
#DataBureau    
#python6359  
#ArchNotes  
if __name__ == '__main__':  
    print u''''' 
            **************************************************  
            **    Welcome to Spider of weixin gongzhonghao  **  
            **         Created on 2017-04-13                **  
            **         @author: Jimy _Fengqi                **  
            ************************************************** 
    '''  
    prompt=u'Please input weixin_gongzhonghao that you find:'  
    gongzhonghao=raw_input(prompt)  
    if not gongzhonghao:  
        gongzhonghao=u'DataBureau'  
    weixin_spider(gongzhonghao).run()

pythom爬取微信公眾號最新部分文章（可執行程式碼）

執行下面的程式碼需要安裝以下內容： pip install pyquery pip install requests pip install selenium pip install pyExcelerator pip install

python 多線程方法爬取微信公眾號文章

微信爬蟲多線程爬蟲本文在上一篇基礎上增加多線程處理（http://blog.51cto.com/superleedo/2124494 ）執行思路：1，規劃好執行流程，建立兩個執行線程，一個控制線程2，線程1用於獲取url，並寫入urlqueue隊列3，線程2，通過線程1的url獲取文章內容，並保

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

Python爬取微信公眾號歷史文章進行資料分析

思路： 1. 安裝代理AnProxy，在手機端安裝CA證書，啟動代理，設定手機代理； 2. 獲取目標微信公眾號的__biz; 3. 進入微信公眾號的歷史頁面； 4. 使用Monkeyrunner控制滑屏；獲取更多的歷史訊息； 5. 記錄文章標題，摘要，建立時間，創作型別，地

使用anyproxy+安卓模擬器自動爬取微信公眾號資料-包括閱讀數和點贊數

本文並非作者原創，本文來自 zsyoung 的CSDN 部落格，全文地址請點選：https://blog.csdn.net/zsyoung/article/details/78849982?utm_source=copy 在這裡只是把相關步驟清晰明化一下： 1.安裝node.js &n

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

用python爬取微信公眾號文章

本文通過微信提供的公眾號文章呼叫介面，實現爬取公眾號文章的功能。 # -*- coding: utf-8 -*- from selenium import webdriver import time import json import reques

爬取微信公眾號

1.抓取公眾號歷史記錄首先利用Fiddler4抓包，監聽手機流量 .手機電腦連線同一網路，手機需設定代理，伺服器為電腦ip，埠號為8888，fiddler也需要設定，不會百度看看點選手機公眾號“檢視歷史訊息”。注意fiddler抓的請求，第二個即為歷史訊息那個請求，

記一次企業級爬蟲系統升級改造（四）：爬取微信公眾號文章（通過搜狗與新榜等第三方平臺）

首先表示抱歉，年底大家都懂的，又涉及SupportYun系統V1.0上線。故而第四篇文章來的有點晚了些~~~對關注的朋友說聲sorry! SupportYun系統當前一覽：　　首先說一下，文章的進度一直是延後於系統開發進度的。　　當前系統V1.0 已經正式上線服役了，這

python3 scrapy爬取微信公眾號及歷史資訊V1.0

環境： python3 scrapy 目的寫這篇文章主要是做一下紀念，畢竟是搞了快兩天的東西了，今天加大了量，使用scrapy爬取100多個微信公眾號，然後出現IP被封的情況下，當然了，這種情況並不是沒有辦法解決，只需要在scr

輿情監控系統——step1.爬取微信公眾號文章

小明醬於2018年元旦更新，寫的還是很糙，如果你在爬蟲問題中遇到問題，歡迎交流哦，評論區隨時為你開放！實習兩週過去了，目前任務量還不是很大。我的老闆很nice，是個軍校生，給我安排的任務也比我預想的要貼近我的研究方向，做的是微信公眾號文章的輿情監控系統，以下

php利用curl爬蟲爬取微信公眾號，防止ip封鎖

前段時間遇到一個需求，是定向抓取一批微信公眾號，於是找到了搜狗搜尋引擎比較好，下面貼出原始碼，各位可以試下 public function test(){ //搜狗抓取微信公眾號 $url="http://weixin.sogou.com/weixin?type=1&

python3 scrapy爬取微信公眾號及歷史資訊V2.0

程式碼部分，日後補充： # -*- coding: utf-8 -*- # @Time : 2018/2/25 14:24 # @Author : 蛇崽 # @Email : [email protected] # @File

爬取微信公眾號內容——繪製詞雲

寫在前面的話前段時間寫了一篇通過搜狗引擎獲取微信公眾號的文章，最近又看了一個網易雲歌詞繪製詞雲的程式然後我就想，能否把這兩者結合起來呢還好經歷幾多波折終於把這個東西給弄出來了。其實中間的實現不是很難，關鍵是環境搭建實在是太困難了好了，先把程式碼以及效果圖奉

python使用webdriver爬取微信公眾號資訊

# -*- coding: utf-8 -*- from selenium import webdriver import time import json import requests import re import random #微信公眾號賬號 user=""

微信公眾號開發---步驟1（生成java專案）

登陸測試賬號生成java專案 <code class="hljs avrasm has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-bo

微信公眾號對接第三方平臺（全網釋出 java）

目錄目錄背景第三方平臺程式碼開發結束語背景由於平臺對接的使用者不斷增加，微信會進行一個檢測。如果你對接的微信公眾平臺多次使用同一個地址進行開發者對接。那麼它會認為你這個網站存在風險-官方解釋，或者你對接微信公眾號平臺

使用微信公眾號模板訊息傳送（基於.NET開發）

使用微信公眾號模板訊息傳送，能夠在使用者操作網站時對指定使用者傳送訊息提示，不僅能夠及時反饋，還能使用者一個好的體驗，還可以節約短息推送的成本；下面是比較重要的部分我做了一個擷取展示，詳細介面介紹請移步到，微信官網地址：https://mp

微信公眾號開發--伺服器配置（傻瓜入門教程）

<?php //定義TOKEN金鑰 define("TOKEN", "yeyu"); //例項化微信物件 $wechatObj = new wechatCallbackapiTest(); if(isset($_GET['echostr'])){ $wechatObj->valid();

python爬蟲(17)爬出新高度_抓取微信公眾號文章（selenium+phantomjs）（上）

抓取微信公眾號的文章一.思路分析目前所知曉的能夠抓取的方法有： 1、微信APP中微信公眾號文章連結的直接抓取（http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&am

pythom爬取微信公眾號最新部分文章（可執行程式碼）

相關推薦