【python爬蟲-爬微博】爬取王思聰所有微博資料

阿新 • • 發佈：2018-11-24

1. 準備：

代理IP 。網上有很多免費代理ip，如西刺免費代理IP http://www.xicidaili.com/，自己可找一個可以使用的進行測試；
抓包分析。通過抓包獲取微博內容地址。當然web下的api地址可以通過瀏覽器獲得。

以下是通過瀏覽器除錯獲得的介面：

個人資訊介面：

微博列表介面：

2. 完整程式碼：

import urllib.request
import json
import time

id = '1826792401'  # 定義要爬取的微博id。王思聰微博https://m.weibo.cn/u/1826792401
proxy_addr = "122.241.72.191:808"  # 設定代理IP


# 定義頁面開啟函式
def use_proxy(url,proxy_addr):
    req = urllib.request.Request(url)
    req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
    proxy = urllib.request.ProxyHandler({'http': proxy_addr})
    opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
    data = urllib.request.urlopen(req).read().decode('utf-8', 'ignore')
    return data


# 獲取微博主頁的containerid，爬取微博內容時需要此id
def get_containerid(url):
    data = use_proxy(url, proxy_addr)
    content = json.loads(data).get('data')
    for data in content.get('tabsInfo').get('tabs'):
        if(data.get('tab_type') == 'weibo'):
            containerid = data.get('containerid')
    return containerid


# 獲取微博使用者的基本資訊，如：微博暱稱、微博地址、微博頭像、關注人數、粉絲數、性別、等級等
def get_userInfo(id):
    url = 'https://m.weibo.cn/api/container/getIndex?type=uid&value='+id  # 個人資訊介面
    data = use_proxy(url, proxy_addr)
    content = json.loads(data).get('data')
    profile_image_url = content.get('userInfo').get('profile_image_url')
    description = content.get('userInfo').get('description')
    profile_url = content.get('userInfo').get('profile_url')
    verified = content.get('userInfo').get('verified')
    guanzhu = content.get('userInfo').get('follow_count')
    name = content.get('userInfo').get('screen_name')
    fensi = content.get('userInfo').get('followers_count')
    gender = content.get('userInfo').get('gender')
    urank = content.get('userInfo').get('urank')

    print("微博暱稱："+name+"\n"+"微博主頁地址："+profile_url+"\n"+"微博頭像地址："+profile_image_url+"\n"+"是否認證："+str(verified)+"\n"+"微博說明："+description+"\n"+"關注人數："+str(guanzhu)+"\n"+"粉絲數："+str(fensi)+"\n"+"性別："+gender+"\n"+"微博等級："+str(urank)+"\n")

    pass


# 獲取微博內容資訊,並儲存到文字中，內容包括：每條微博的內容、微博詳情頁面地址、點贊數、評論數、轉發數等
def get_weibo(id, file):
    i = 1
    while True:
        url = 'https://m.weibo.cn/api/container/getIndex?type=uid&value='+id
        weibo_url = 'https://m.weibo.cn/api/container/getIndex?type=uid&value='+id+'&containerid='+get_containerid(url)+'&page='+str(i)
        print(url)
        print(weibo_url)
        try:
            data = use_proxy(weibo_url, proxy_addr)
            content = json.loads(data).get('data')
            cards = content.get('cards')
            if(len(cards)>0):
                for j in range(len(cards)):
                    print("第"+str(i)+"頁，第"+str(j)+"條微博")
                    card_type = cards[j].get('card_type')
                    if(card_type == 9):
                        mblog = cards[j].get('mblog')
                        attitudes_count = mblog.get('attitudes_count')
                        comments_count = mblog.get('comments_count')
                        created_at = mblog.get('created_at')
                        reposts_count = mblog.get('reposts_count')
                        scheme = cards[j].get('scheme')
                        text = mblog.get('text')
                        with open(file, 'a', encoding='utf-8') as fh:
                            fh.write("第"+str(i)+"頁，第"+str(j)+"條微博"+"\n")
                            fh.write("微博地址："+str(scheme)+"\n"+"釋出時間："+str(created_at)+"\n"+"微博內容："+text+"\n"+"點贊數："+str(attitudes_count)+"\n"+"評論數："+str(comments_count)+"\n"+"轉發數："+str(reposts_count)+"\n")
                            pass
                        pass
                    pass
                i += 1
                time.sleep(0.05)
                pass
            else:
                break
        except Exception as e:
            print(e)
            pass
        pass

    pass


if __name__ == "__main__":
    print('開始---')
    file = id+".txt"
    get_userInfo(id)
    get_weibo(id, file)
    print('完成---')
pass

3. 原博主認為：

一般做爬蟲爬取網站，首選的都是m站，其次是wap站，最後考慮PC站。當然，這不是絕對的，有的時候PC站的資訊最全，而你又恰好需要全部的資訊，那麼PC站是你的首選。一般m站都以m開頭後接域名，所以本文開搞的網址就是 m.weibo.cn。

感謝原博主的偉大貢獻，真實還原了微博api的思路和介面。

【python爬蟲-爬微博】爬取王思聰所有微博資料

1. 準備：代理IP 。網上有很多免費代理ip，如西刺免費代理IP http://www.xicidaili.com/，自己可找一個可以使用的進行測試；抓包分析。通過抓包獲取微博內容地址。當然web下的api地址可以通過瀏覽器獲得。以下是通過瀏覽器除錯獲得

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

【Python爬蟲學習筆記10】多線程中的生產者消費者模式

其中因此問題共享 and 生產者消費者模式共享問題由於接下來在多線程編程中，最經典的模式是生產者消費者模式。其中，生產者是專門用來生產數據的線程，它把數據存放在一個中間變量中；而消費者則從這個中間變量取出數據進行消費。由於生產者和消費者共享中間變量，這些變量大

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

推薦｜23個Python爬蟲開源專案程式碼：爬取微信、淘寶、豆瓣、知乎、微博等

今天為大家整理了23個Python爬蟲專案。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有連結指向GitHub，祝大家玩的愉快 1、WechatSogou [1]– 微信公眾號爬蟲。基於搜狗微信搜尋的微信公眾號爬蟲介面，可以擴充套件成基於搜狗搜尋的爬

【python爬蟲】關於403問題的反爬處理

今天在學習小甲魚的python爬蟲，遇到下面問題首先，貼上今天找到的一個技巧在python報錯之後，定位c：之前的那個語句基本上就是出錯的地方。 1.urllib.error.HTTPError: HTTP Error 403: Forbidden 這個問題是由於

【Python爬蟲】表弟用Python爬下今日頭條上萬美女照片，玩的不亦樂乎！

我們的學習爬蟲的動力是什麼？有人可能會說：如果我學好了，我可以找一個高薪的工作。有人可能會說：我學習程式設計希望能夠為社會做貢獻（手動滑稽）有人可能會說：為了妹子！ ..... 其實我們會發現妹子才是第一生產力呀！今天咱們就是爬取今日頭條，你要問我為

【Python爬蟲系列】使用requests爬取圖片

Python3常用的爬蟲第三方外掛有requests，urllib.request等。這裡主要介紹使用requests抓取網頁上的圖片，該方法只針對靜態網頁，不考慮js動態載入的網頁。預備知識： requests模組的基本瞭解，包括get，post等方法和status_

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

【Python爬蟲第二彈】基於爬蟲爬取豆瓣書籍的書籍資訊查詢

爬蟲學了有半個月的時間了，其實這半個月真正學到的東西也不過就是requsets和beautifulsoup的用法，慚愧，收穫不太大，還沒有接觸scrapy框架，但是光這個beautifulsoup可以完成的事情已經很多了，然後簡單的使用了pandas可以將爬取到

【python爬蟲自學筆記】-----爬取網易雲歌單中歌曲歌詞

工具：python3.6 ，pycharm 開始對網頁的內容進行爬取的時候，使用requests獲得響應，只傳url，但是沒有獲得響應，使用urllib新增請求頭部，並對response的內容使用utf-8進行解碼，使用BeautifulSoup轉換為html物件，

【Python爬蟲】按時爬取京東幾類自營手機型號價格引數並存入資料庫

一、最近剛好想換手機，然後就想知道京東上心儀的手機價格如何，對比手機價格如何，以及相應的歷史價格，然後就用Python requests+MySQLdb+smtplib爬取相關的資料二、關於實現的主要步驟： 1、根據京東搜尋頁面，搜尋某型號（

【Python爬蟲】下載微信公眾號圖片

大家用爬蟲下載圖片時肯定遇到過https://demo?wx_fmt=jpeg連結的圖片，常見的就是微信公眾號的圖片。遇到連結圖片用普通的方式是無法爬取下來的，我們可以用urllib.request進

【Python爬蟲實戰】獲取2018年重慶智博會參會企業名單，用於市場洞察

【背景】做市場洞察，經常需要分析某個行業的Top客戶，通常會通過某種活動或某種機構獲取名單。網站上也能收集到，但是手工收集比較麻煩。下面通過Python網路爬蟲獲取2018年重慶智博會參會企業的名單來體驗，如何批量獲取目標網頁的名單。【操作步驟】 1、分析網頁

【Python爬蟲】微信公眾號歷史文章和文章評論API分析

上一篇文章爬取微信公眾號文章資訊準備工作介紹了微信公眾號歷史文章和文章評論API的組成情況，歷史文章API格式：https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MjM5NjAxOTU4MA==&f=json&

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

Python 爬蟲分布式大數據編程 Python如何才能高效地爬取海量數據我們都知道在互聯網時代，數據才是最重要的，而且如果把數據用用得好的話，會創造很大的價值空間。但是沒有大量的數據，怎麽來創建價值呢？如果是自己的業務每天都能產生大量的數據，那麽數據量的來源問題就解決啦，但是沒有數

【Python爬蟲】Requests庫的安裝

comm AS imp pypi pan span douban OS host 1.按照普通的pip不能行，說find不能有位小傑控的大牛說了一句：換一個國內的更新源吧， pip install requests -i http://pypi.douban.com/si

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

需要 tis tca wcf 爬取 html eas request 有用 1.環境 python3.6 需要用到的庫： re、os、requests 2.簡介王者榮耀可以算得上是比較受歡迎的手遊之一了，應該有不少的人都入坑過農藥，我們今天的目的就是要爬取王者榮耀的高

【python爬蟲-爬微博】爬取王思聰所有微博資料

相關推薦