1. 程式人生 > >我從騰訊那“偷了”3000萬QQ使用者資料,出了份很有趣的獨家報告!

我從騰訊那“偷了”3000萬QQ使用者資料,出了份很有趣的獨家報告!

感謝部落格園! 轉載請註明部落格園地址,及作者[email protected]

    這是我近期使用C#寫的一個QQ空間蜘蛛網爬蟲程式。程式斷斷續續的運行了兩週,目前總共爬了3000萬QQ資料,其中有300萬包含使用者(QQ號,暱稱,空間名稱,頭像,最新一條說說內容,最新說說的發表時間,空間簡介,性別,生日,所在省份,城市)的詳細資料。

 

      目前已經爬到我的第7圈好友(depth=7)共3000萬資料。

 爬蟲主程式執行介面:

爬蟲程式設計:

大致設計思路是模仿工廠的生產車間,使用三大獨立迴圈執行緒組(GetWaitList,CrawlerQQInfos,SaveData)。

詳細設計圖:

再看看,我根據這份資料生成的一些有趣的統計圖吧!

記憶體已經爆了,不能怪我。  誰贊助臺伺服器吧

1、大家一般都在啥時候發說說呢?

 從圖中看出一天最冷門的時候是凌晨4點,這時全國正在睡覺的人最多。 大家最亢奮的是晚上10點到11點,人們都喜歡睡前看看別人的空間,發條說說。中午12點左右也有一波小高峰。

2、中國人都喜歡在幾月生小孩呢?

 從圖中可看出1月和10月出生的人最多,4月的最少。總體來說上半年的出生率比下半年的低。分析可得,1月多是因為很多人填的是預設的1月1號。4月少,是因為中國人不喜歡4這個數字。10月出生率最高,是因為那時天氣不冷不熱,秋收後也不是太忙了的原因。

3、這是我目前爬取的資料人群地區分佈

4、資料人群的年齡分佈

      如上兩張圖,整好和我的資訊相吻合。我是湖南人,在江蘇讀的書,而湖南大部分人都在廣東打工。所以地區分佈中,這三個省整好排在前四名當中。而我又是1990年出生的,對應年齡分佈圖1990年的使用者最多。從目前的資料來看,無論是分佈地區以及年齡階段與我的關聯還非常大,隨著資料量的不斷增加這種關聯會逐漸變小,統計圖也會逐漸接近全國使用者的真實情況。

5、資料人群性別分佈

      男比女足足多了23%的人數,我分析認為實際差距應該是不大的,但女生在設定QQ空間訪問許可權時普遍要比男生的高。所以我爬取的資料中男生居多。

6、下面系列圖是根據一些“關鍵字”在說說中出現的頻率統計出來的,相當有意思。

       單個使用者的行為是很難看出規律的,大資料的意義在於它會不斷矯正那個平衡點,從而得出反應巨集觀現象最真實的情況。資料量越大,平衡點動盪的幅度便越小。進而能夠根據當前的資料趨勢預測後續的發展,為決策提供有力依據!

6.1 圖說股市

      現在我們擁有海量的網際網路社交資料,如QQ的說說,sina的微博資料。我覺得這些資料擁有驚人的利用價值,這非常值得我們去研究,去挖掘。我想,用它們來做一些股市或者其它方面的分析預測是可行的,準確度應該也是非常高的。

    將股票中的關鍵字做海量資料分析,比如會得出當日討論股票熱度排行榜。進而能得到海量討論股票的使用者,再通過市場的實際反饋找出股票上漲及下跌的正相關因子,再對這些海量資料進行分析計算得出最靠譜股票推薦大神排行榜。對這些使用者分級,分優先度及抓取密度來拿資料。用這些資料分析出哪些是靠譜的股票肯定靠譜!

6.2 群眾討論最多的明星排行榜,還是很靠譜的。(我愛汪峰哥,我也愛Jay! ---信仰在空中飄揚)

插播汪峰頭條:素不相識,光聽新聞的片面之詞就斷下結論,那是完整的真相嗎?背後的故事又有誰瞭解多少?實在反感那些破口大罵的,更是可惡一些媒體就事三番五次的戲謔。

祝峰哥幸福,我很喜歡你的歌!

6.3 最為使用者喜愛的手機品牌

6.4 人們最喜歡談論的網際網路公司,阿里之所以這麼低估計是大家都喜歡叫它淘寶或者天貓吧。

6.5 QQ空間中討論的最為頻繁的社交平臺排行榜。

6.6 生活的統計圖

愛>恨; 開心>傷心; 笑聲>嘆氣聲; 吃貨很多;  誰特麼說中國不幸福了,這滿滿的都是正能量資料啊。

好了,其實還可以做很多其它的分析。如果大家有什麼有趣的資料分析想知道的,那就給我留言吧。

       技術不多說了,程式不難,多執行緒資料庫操作卻是把我搞苦了。還好,現在程式差不多穩定了。過程也是很有意思的,有空我再寫個程序升級過程中的那些趣事吧。我覺得一個美妙的程式一定是高度模擬現實的,就像飛機模仿蜻蜓,雷達模仿蝙蝠一樣。 這次的程式設計就是模擬的工廠的生產線。

     另外廣泛徵集大家的聰明點子, 能否用這些資料做一個有趣的網站,app。 有趣或者能賺點小錢都行,只要不違法。    

歡迎大家提出好的建議,不甚感激,歡迎轉載。 如有需要聯絡([email protected]) 

相關推薦

3000QQ使用者資料有趣獨家報告

感謝部落格園! 轉載請註明部落格園地址,及作者[email protected]。     這是我近期使用C#寫的一個QQ空間蜘蛛網爬蟲程式。程式斷斷續續的運行了兩週,目前總共爬了3000萬QQ資料,其中有300萬包含使用者(QQ號,暱稱,空間名稱,頭像,最新

域名防封 微信/QQ域名檢測域名防封的原理

微信遮蔽網頁的依據是什麼?明面上的原因是網頁內容有誘導、詐騙等不和諧的內容時候,被使用者舉報就會封閉。實際上這只是表面現象,因為我們能明確的感受到不同的階段,同樣的內容,被封殺的頻率差別很大的,也就是說除了被舉報人數多了之外,更重要的是機器識別導致的。微信是網際網路公司,如果用大量客戶來人工判斷是否封殺這成本

變革看網際網路之變網際網路革命已到下半場

騰訊這艘巨輪正在轉舵。 9月30日的清晨,騰訊宣佈啟動戰略升級:紮根消費網際網路,同時也要擁抱產業網際網路。 一個月後,11月1日,以“開放·共生”為主題的騰訊第八屆全球合作伙伴大會正式召開。而在前一天,馬化騰依照慣例發表了公開信,表明了“助力實體產業成長出更多世界冠軍”的決心。 對於這

(更新)資料探勘自學一年拿京東華為網易YY的Offer方法與建議

成果 秋招結束了,我最終獲得了: 騰訊 京東 華為 網易遊戲 歡聚時代 搜狐視訊 這幾個offer,均待遇不錯,收穫頗豐。 寫作動機 回想起一年多以前選擇資料探勘的時候,一度以為找不到工作,非常著急。幸好有令科,梅寒,志韜等師兄為我

俞棟:定義下一代智慧人機互動目標、挑戰到實現路徑

感謝閱讀騰訊AI Lab微訊號第52篇文章,俞棟博士在2018騰訊全球合作伙伴大會“共生·人工智

微博到今天的QQ筆記想到的

      很多人說騰訊是靠山寨起家的,什麼都愛山寨。而且先驅們的創新都死在了騰訊山寨的第一波競爭中。但是我的感覺是騰訊的山寨一般都是慢熱型,市面上已經出了這種應用很長時間了,騰訊還在醞釀期。例如騰訊微博和現在還在內測期的QQ筆記。為什麼什麼東西被騰訊一山寨就會死?騰訊的山

QQ升級遊戲之“快速加入遊戲”功能的實現缺陷看C/S之間如何正確分配相關協作

筆者在閒暇時,偶爾會登入騰訊QQGame玩玩升級遊戲。這確實是一款非常優秀的軟體作品,騰訊的開發人員在此展現了極高的技術水準。QQ遊戲同時線上使用者數都在百萬到千萬之數量級以上,可以想象其在效能方面所面臨的挑戰有多高。     QQ升級遊戲有一個“快速加入遊戲”的功能,方便玩家儘快加入目標牌桌。這本身是個非

到阿里最後選擇位元組

前言   怕什麼真理無窮,進一寸有進一寸的歡喜 這篇文章是記錄小炫的整個校招。你們可以從我的經歷瞭解校招的過程,以及避開彎路。 寫這篇文章的時候我已經放棄校招了,我最終還是沒有實現我的目標。 自我介紹一下,我是華南農業大學(雙非本科)軟體工程專業的學生。我一共就拿了下面幾個offer,主要是懶所

雲主機如何使用root賬號登錄不能使用root登錄怎麽辦

oot ubun 來源 fig str tar word sshd 現在 1、先用ubuntu賬號登錄,執行sudo passwd root 2、按要求輸入密碼,請牢記。 3、執行sudo vi /etc/ssh/sshd_config 4、找到PermitRootLogi

阿裏內部十二個大數據項目你都有做過嗎?

大數據隨著社會的進步,大數據的高需求,高薪資,高待遇,促使很多人都來學習和轉行到大數據這個行業。學習大數據是為了什麽?成為一名大數據高級工程師。而大數據工程師能得到高薪、高待遇的能力在哪?自然是項目經驗。下面給大家大概介紹一下在阿裏的"雙11"、"雙12"、"

敏捷轉型No.7】QQ郵箱如何通過敏捷成為行業第一

使用 界面 討論 模式 但是 詳細 自然 都是 target 前幾篇文章講到2006年的騰訊是如何開始敏捷轉型的,接下來這篇文章,我將向大家講述,騰訊開始敏捷轉型之後,QQ郵箱是如何通過敏捷成為行業第一。 眾所周知,張小龍是“微信之父”,對他熟悉的人,應該也知道

分析上億條“絕地求生”比賽資料找到最強“吃雞”攻略

最近迷上了吃雞,整天捧著手機戰戰兢兢,一會兒激動地起飛、一會兒手抖的歷害。 在嚐到了落地 3 分鐘就被斃、跑不過毒倒在半路上失血致死、站在草叢中被不明方向的子彈狙擊而亡、出門舔箱被豬隊友當作敵人幹掉等 100 種死法之後,我突發奇想:我做資料分析的,怎麼就不能給自己弄個獨家吃雞攻略呢?!

#20週年程式設計師秀福利紅包1998網友:羨慕鵝廠福利就是好

騰訊即將迎來20歲生日,20年前,我們仰望星空,20年後,我們依舊好奇。自1998年成立以來,騰訊已經20週年了,騰訊也為自己底下的員工發了一波福利,不得不說大廠的福利還是很給力的,最近就看到騰訊員工在網上秀自己公司的福利,引來網友的豔羨。 如果有想學習java的程式設計師,可來我們的jav

Atitit 微信小程式的部署流程文件 目錄 1.1. 設定https 參照 Atitit tomcat linux 常用命令 1 1.2. 增加證書 雲和阿里雲都可申請免費證書但要一天

Atitit 微信小程式的部署流程文件   目錄 1.1. 設定https  參照 Atitit tomcat linux 常用命令 1 1.2. 增加證書   騰訊雲和阿里雲都可申請免費證書,但要一天稽核  可以淘寶購買證書快速寫

分分彩原始碼搭建出租變數、資料型別和運算

1、JavaScript用來做什麼   騰訊分分彩原始碼搭建出租【地瓜原始碼論壇diguaym.com】聯絡方式:QQ:2152876294原始碼交易,原始碼出售, 技術交易,專注於為企業 、個人提供個性化定製解決方案,更加高效便捷的為廣大需求者解決各種實際性需求問題,為您提供最新、最熱、

員工用漫畫自述悲慘職場經歷網友大呼:社會巨嬰

最近微博上有幾組“漫畫”火了,但是卻引發了巨大的爭議,漫畫作者微博暱稱為“知春鹿可不這麼想”,作者自稱是騰訊的實習生,並通過漫畫的形式描述著自己秋招、面試、實習等生活狀態。 這是其中一篇漫畫。 很多網友直接說出作者就是一個巨嬰,無法面對社會,這組漫

第一個以比特幣現金ICO的專案籌集3000美元

2018年10月8日,區塊鏈公司和採礦池Viabtc使用蟲洞協議和比特幣現金鍊完成了第一個高價值初始硬幣產品(ICO)。根據交易所資料,Viabtc Token ICO每秒籌集3,700美元,在2.2小時內總計3000萬美元。 Viabtc推出令牌銷售和分銷階段 該公司V

sleep( ) 和 wait( ) 的分分彩原始碼下載這 5 個區別你知道幾個?

sleep(休眠) 和 wait(等待) 騰訊分分彩原始碼下載  dsluntan.com Q:3393756370 VX:17061863513方法是 Java 多執行緒中常用的兩個方法,它們有什麼區別及一些該注意的地方有哪些呢?下面給大家一一分解。 區別1:使用限制 使用 sleep 方法可

Atitit 微信小程式的部署流程文件 目錄 1.1. 設定https 參照 Atitit tomcat linux 常用命令 1 1.2. 增加證書 雲和阿里雲都可申請免費證書但要一天

Atitit 微信小程式的部署流程文件 目錄 設定https  參照 Atitit tomcat linux 常用命令 Atitit tomcat https配置 D:\jdk1.8.0_31\bin\keytool.exe -ge