利用Python爬取朋友圈資料，爬到你開始懷疑人生

阿新 • • 發佈：2019-01-05

人生最難的事是自我認知，用Python爬取朋友圈資料，讓我們重新審視自己，審視我們周圍的圈子。

文：朱元祿（@資料分析－jacky）

哲學的兩大問題：1、我是誰？2、我們從哪裡來？

本文 jacky試圖用Python，資料化、聚類化我們的人格標籤，試圖回答"我是誰?"這個哲學問題。

（一）確定資料來源

自我認知，很難，必須它證。

物以類聚，人以群分。每個人的社交圈，家庭圈，朋友圈的屬性，基本我們人格的特徵屬性。我們所處的階級，在別人眼中的印象，在我們的朋友圈中都會得到印證。

朋友圈資料中最具人格屬性的因素是個性簽名，那麼下面我們就把所有好友的個性簽名作為我們的研究物件，以此出發爬取資料。

（二）使用Python的itchat 包對好友的個性簽名資料進行分析

這裡我們用到Python一個比較冷門的庫——itchat，它很好的相容了wechat個人賬號的API介面，讓我們能更加便捷的爬取wechat資料，itchat的功能很強大，這裡我們僅用它爬取wechat中我們每個好友的個性簽名。

之後，我們要分析出自定義詞雲圖中個性簽名使用的高頻詞語是什麼。

最後，生成視覺化詞雲圖，直觀的給出洞察結果。

原始碼如下：

# coding:utf-8
import itchat
import re
itchat.login()
friends = itchat.get_friends(update=True)[0:]
tList = []
for i in friends:
    signature = i["Signature"].replace(" ", "").replace("span", "").replace("class", "").replace("emoji", "")
    rep = re.compile("1f\d.+")
    signature = rep.sub("", signature)
    tList.append(signature)
    # 拼接字串
    text = "".join(tList)
# jieba分詞
import jieba
wordlist_jieba = jieba.cut(text, cut_all=True)
wl_space_split = " ".join(wordlist_jieba)
# wordcloud詞雲
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator
import os import numpy as np
import PIL.Image as Image
d= os.path.dirname(os.path.abspath( __file__ ))
alice_coloring = np.array(Image.open(os.path.join(d, "wechat.jpg")))
my_wordcloud = WordCloud(background_color="white", max_words=2000,mask=alice_coloring,max_font_size=400, random_state=420,font_path='/Users/sebastian/Library/Fonts/Arial Unicode.ttf').generate(wl_space_split)
image_colors = ImageColorGenerator(alice_coloring)
plt.imshow(my_wordcloud.recolor(color_func=image_colors))
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

下面對於程式碼的解析，僅跟初學 Python的朋友提示三點：

1）程式碼第24行，其他網路版本的程式碼為d= os.path.dirname(__file__)，最好換成jacky這個版本的：

d=os.path.dirname(os.path.abspath(__file__))，具體原因jacky就不做過多解釋了；

2）程式碼第25行，一定要提前在環境路徑下建立wechat.jpg的圖片，這樣雲圖才能順利生成，並生成你希望的形狀。

3）提前在終端安裝jieba,matplotlib,wordcloud,numpy包

注意以上三點，想不執行成功都難。

執行上面的程式碼，得到下面的雲圖：

（三）資料洞察

以jacky的朋友圈為例，在雲圖中，我們可以看見，高頻詞有：自己，創始人，電商，成功，努力，營銷，網際網路，資料，夢想，生活，諮詢，我們，未來。

其實，這些詞jacky還可以繼續用機器學習演算法搞一下,但到這就淺嘗則止吧。

從這些具體的資訊中，可以抽象出我的個人人格標籤，具體解析：

自己，我們：說明我很自我，很自大，很自以為是；

努力，未來，夢想：說明我想通過努力來實現自己的價值；

創始人：說明我的社交圈還OK；

網際網路，資料：說明我的能力屬性；

營銷，諮詢：說明了我賴以生存的飯碗；

代理：這... ... 不好說了... ...

End

轉載請註明出處

利用Python爬取朋友圈資料，爬到你開始懷疑人生

人生最難的事是自我認知，用Python爬取朋友圈資料，讓我們重新審視自己，審視我們周圍的圈子。文：朱元祿（@資料分析－jacky）哲學的兩大問題：1、我是誰？2、我們從哪裡來？本文 jacky試圖用Python，資料化、聚類化我們的人格標籤，試圖回答"我是誰?

微信好友大揭祕，使用Python抓取朋友圈資料，通過人臉識別全面分析好友，一起看透你的“朋友圈”

微信：一個提供即時通訊服務的應用程式，更是一種生活方式，超過數十億的使用者，越來越多的人選擇使用它來溝通交流。不知從何時起，我們的生活離不開微信，每天睜開眼的第一件事就是開啟微信，關注著朋友圈裡好友的動態，而朋友圈中或虛或實的狀態更新，似乎都在證明自己的“有趣

用Python抓取朋友圈資料，通過人臉識別全面分析好友！看透朋友圈

微信：一個提供即時通訊服務的應用程式，更是一種生活方式，超過數十億的使用者，越來越多的人選擇使用它來溝通交流。不知從何時起，我們的生活離不開微信，每天睜開眼的第一件事就是開啟微信，關注著朋友圈裡好友的動態，而朋友圈中或虛或實的狀態更新，似乎都在證明自己的“有趣”，尋找那份

微信好友大揭秘，使用Python抓取朋友圈數據，通過人臉識別全面分析好友，一起看透你的“朋友圈”

類型 get ads pid 地圖文本文 .json image pack 微信：一個提供即時通訊服務的應用程序，更是一種生活方式，超過數十億的使用者，越來越多的人選擇使用它來溝通交流。不知從何時起，我們的生活離不開微信，每天睜開眼的第一件事就是打開微信，關註著朋友圈裏

Python爬取天氣預報資料，並存入到本地EXCEL中

近期忙裡偷閒，搞了幾天python爬蟲，基本可以實現常規網路資料的爬取，比如糗事百科、豆瓣影評、NBA資料、股票資料、天氣預報等的爬取，整體過程其實比較簡單，有一些HTML+CSS+DOM樹等知識就很easy，我就以天氣預報資料的爬取為例，整理出來。需求：採

Python爬取鬥圖表情，讓你成為鬥圖大佬

話不多說，上結果（只爬了10頁內容）上程式碼：（可直接執行）用到Xpath #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/12/24 15:20 import requests imp

送你五套朋友圈模板，助你在2019布局好個人號月入過萬

.com 分享產生以及 https -o 密碼模塊每天對於我們每一個人來說，微信朋友圈其實是一個再好不過的營銷點，我們每個人都有機會在微信生態裏時代創業，在微信生態時代中賺錢。但是，99%的人都不知道怎麽發朋友圈才能賺錢！那麽，朋友圈該發什麽內容呢？我總結五個朋友

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

Python 利用BeautifulSoup和正則表示式來爬取旅遊網資料

import re import requests import time from bs4 import BeautifulSoup url = ‘http://www.cntour.cn/’ r = requests.get(url) print(r.encoding,len(r.t

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

這次利用python設計一個爬取百度圖片上的圖片的原始碼，其中利用的是python的urllib，如果沒有裝的，可以使用Anconda在環境裡進行安裝或者 pip install urllib 這兩種方式都可以安裝，長話短說，上圖吧，點選執行後，輸入你要下載的圖片型別：比如，熊貓？美女？

利用python爬蟲技術動態爬取地理空間資料雲中的元資料（selenium）

python爬取地理空間資料雲selenium動態點選爬取的網址秀一下：爬取的資訊是什麼呢？這個資訊的爬取涉及到右邊按鈕的點選，這屬於動態爬取的範疇，需要用到selenium 好了，那麼開始寫程式碼吧首先匯入selenium from seleni

利用Python爬取攝影網站圖片，切勿商用

今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，不要用於商業目的，不出意外，蜂鳥是有版權保護的網站。 Python學習資料或者需要程式碼、視訊加Python學習群：9604104

python利用pandas直接爬取表格類資料

table型的表格可以直接利用pandas的read_html一句話抓取，而不需依賴requests等爬蟲庫嘗試爬取A股上市公司資料，參照了上面的文章，並做了一些改進。針對原文pandas爬取的程式碼有幾個問題： 1、預設保留了所有頁的標題列，這樣爬取完之後

Python 爬取 B 站資料分析，宋智孝李光洙誰最受中國粉絲喜愛

作者 | 左伊雅責編 | 胡巍巍《Running Man》是韓國SBS電視臺在《星期天真好》單元

NO.15——使用Appium自動化測試爬取微信朋友圈資料

一、解析過程本人使用錘子手機做測試，型號是YQ601，首先開啟開發者模式確保手機能與mac相連，開啟Appium客戶端，配置引數如圖可以理解為Appuim繼承自web端的selenium，同樣可以執行一些自動化操作。Appium自帶了一個XPATH選擇器，給使用者提

Selenium學習三——利用Python爬取網頁表格資料並存到excel

利用Python爬取網頁表格資料並存到excel 1、具體要求：讀取教務系統上自己的成績單，並儲存到本地的excel中 2、技術要求：利用Selenium+Python獲取網頁，自動登陸並操作到成績單頁面通過xlwt模組，將表格儲存到本地excel （其中xlwt

利用Python破解Vip高品質音樂，完美攻破了其vip音樂爬取方式！

綜述利用酷狗的搜尋和無損音樂下載的介面，然後加上我們的Python，做出一個網路爬蟲。此教程利用了flask框架，在網頁源內容中搜尋關鍵字，然後利用爬蟲採集相關資料，並且把資料前端呈現； windows python 2，Python 3 的話自己稍微更改下程

我用 Python 爬取微信好友，最後發現一個大秘密

代碼我們同學 strong 分享簽名 ast ron tps 前言你身處的環境是什麽樣，你就會成為什麽樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟件，微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣，慢慢你的思想也會變的怎麽樣。最近在學習

Python爬取全書網小說，免費看小說

tle 3.6 tro con fin 保存 get 正在 url地址什麽是網絡爬蟲網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自

分手後，小夥怒用Python爬取上萬空姐照片，贏取校花選舉大賽！

代碼美女圖片 pst caption alt .... 不出 ima bee 首先展示下Python爬取到的成果：我做什麽都要爭第一，這次的校花投票選舉大賽也不例外，雖然我是個男的......但是我看到了前女友竟然已經有三百多票排到第三名了，我怎麽能眼睜

利用Python爬取朋友圈資料，爬到你開始懷疑人生

相關推薦