微博使用者資料分析

阿新 • • 發佈：2019-02-17

一、資料描述

1）資料引數

使用者的歷史微博資料

截止到20131215

壓縮後244MB，解壓後878MB

2）資料型別

整個資料是json格式

json中欄位描述：

beCommentWeiboId 是否評論

beForwardWeiboId 是否是轉發微博

catchTime 抓取時間

commentCount 評論次數

content 內容

createTime 建立時間

info1 資訊欄位1

info2資訊欄位2

info3資訊欄位3

mlevel no sure

musicurl 音樂連結

pic_list 照片列表（可以有多個）

praiseCount 點贊人數

reportCount 轉發人數

source 資料來源

userId 使用者id

videourl 視訊連結

weiboId 微博id

weiboUrl 微博網址

二、實操題目

1. 組織資料（Hive）

建立Hive表weibo(json STRING)，表只有一個欄位，匯入所有資料，並驗證查詢前3條資料

1>建表(建庫)

①建立資料庫：create database weibo;

②切換資料庫：use weibo;

③建立外部表：create external tableweibo(json string) row format delimited lines terminated by "\n"stored as textfile location "/exam/weibo";

2>匯入資料

①上傳資料：

②解壓檔案：unzip weibo.zip

③上傳資料：hdfs dfs -put ~/data/619893/*/exam/weibo/

3>驗證查詢前三條資料

select json from weibo limit 3;

2. 統計需求（Hive）

（1）統計微博總量和獨立使用者數

①確認是否有髒資料：通過結果很容易看出沒有

select get_json_object(js.json,'$.userId') from (select json from weibo)js where substr(json,1,1)="{";

②正常查詢：

select "微博總量：",sum(user.cnt),"獨立使用者總數",count(user.userId)

from(

select jj.uid as userId ,count(*) as cnt

from (

selectget_json_object(substring(js.json,2),'$.userId')

as uid

from (

select json from weibo

)

as js

) as jj

group by jj.uid

) as user;

（2）統計使用者所有微博被轉發的總次數，並輸出TOP-3使用者

①建立一個檢視：

create view userRecord

as select

get_json_object(substring(js.json,2),'$.beCommentWeiboId') asbeCommentWeiboId ,

get_json_object(substring(js.json,2),'$.beForwardWeiboId') asbeForwardWeiboId ,

get_json_object(substring(js.json,2),'$.catchTime') as catchTime ,

get_json_object(substring(js.json,2),'$.commentCount') as commentCount ,

get_json_object(substring(js.json,2),'$.content') as content,

get_json_object(substring(js.json,2),'$.createTime') as createTime ,

get_json_object(substring(js.json,2),'$.info1') as info1 ,

get_json_object(substring(js.json,2),'$.info2') as info2,

get_json_object(substring(js.json,2),'$.info3') as info3,

get_json_object(substring(js.json,2),'$.mlevel') as mlevel,

get_json_object(substring(js.json,2),'$.musicurl') as musicurl,

get_json_object(substring(js.json,2),'$.pic_list') as pic_list ,

get_json_object(substring(js.json,2),'$.praiseCount') as praiseCount,

get_json_object(substring(js.json,2),'$.reportCount') as reportCount,

get_json_object(substring(js.json,2),'$.source') as source ,

get_json_object(substring(js.json,2),'$.userId') as userId ,

get_json_object(substring(js.json,2),'$.videourl') as videourl ,

get_json_object(substring(js.json,2),'$.weiboId') as weiboId,

get_json_object(substring(js.json,2),'$.weiboUrl') as weiboUrl

from (select json from weibo) js;

②執行查詢：

select userId,sum(reportCount) as cnt from userRecord group by userIdorder by cnt DESC limit 3;

（3）統計微博被轉發最多的前3位使用者的id

執行查詢:

select uu.userId

from (

select userId,count(*)

as cnt

from userRecord

where reportCount>0

group by userId

order by cnt

)

as uu limit 3;;

（4）統計每個使用者的傳送微博總數，並存儲到臨時表

建立臨時表：

create table tempory_uid_sum(

uid string,

total int

);

查詢並插入資料：

insert overwrite table tempory_uid_sum select userId,sum(reportCount)from userRecord group by userId;

（5）統計帶圖片的微博數

執行查詢：

select count(*) from userRecord where length(pic_list) >2;

（6）統計使用iphone發微博的獨立使用者數

執行查詢：

select count(distinct(userId)) from userRecord where source="iPhone客戶端";

（7）統計微博中使用者ID與資料來源資訊，將其放入檢視中，然後統計檢視中資料來源是“iPad客戶端”的使用者數目

建立檢視：

create view view_uid_source

select userId,source

from

userRecord;

執行查詢：

select count(distinct(userId)) from view_uid_source wheresource="iPad客戶端";

3 特殊需求

①往hive中新增jar：add jar/home/hadoop/data/UDF_11.jar

②建立臨時函式：create temporary functionAddTwo as "org.zkpk.func.Add";

③建立臨時函式：create temporary function WordCount as"org.zkpk.func.QueryWord";

(1)實現Hive UDF完成下面的需求：

將微博的點贊人數與轉發人數相加求和，並將相加之和降序排列，取前10條記錄

①程式碼

import org.apache.hadoop.hive.ql.exec.UDF;

public class Add extends UDF {

public Integer evaluate(Integerval1,Integer val2) throws Exception{

return val1+val2;

}

②查詢：

select b.*

from (

select createTime,userId AddTwo(cast(praiseCountas int),cast(reportCount as int)) astotal

from userRecord

) as a ,

(

select * from userRecord

) as b

where a.userId=b.userId

and a.catchTime = b.catchTime

order by a.total;

(2) 實現Hive UDF完成下面的需求：

1>微博內容content中的包含某個詞的個數，方法返回值是int型別的數值

①程式碼：

import org.apache.hadoop.hive.ql.exec.UDF;

public classQueryWord extends UDF {

static int counter = 0;

public int stringNumbers(String str,String se) {

if (str.indexOf(se) == -1) {

return 0;

} else if (str.indexOf(se) !=-1) {

counter++;

stringNumbers(str.substring(str.indexOf(se)+ se.length()), se);

return counter;

}

return 0;

}

public Integer evaluate(String val1,String val2) throws Exception {

int sum = stringNumbers(val1,val2);

Integer in = newInteger(sum);

return in;

}

2>使用該方法統計微博內容中出現“iphone”次數最多的使用者，最終結果輸出使用者ID和次數

①查詢：

selectuserId,sum(WordCount(content,"iphone")) as cnt from userRecord groupby userId order by cnt;

②查詢(這個查詢完全是為了方便檢視結果)：

selectuserId,sum(WordCount(content,"iphone")) as cnt from userRecord groupby userId order by cnt DESC limit 5;

【ArcGIS|空間分析】微博簽到資料分析（全國大學生GIS技能大賽試題)

【賦值柵格】工具：此處僅設定【忽略背景值】為黑邊像元值，而不設定NoData值，避免所有指定畫素將在輸出柵格資料集中被設定為 NoData。忽略背景值： 1、使用此選項移除在柵格資料周圍建立的不需要的值。指定的值與柵格資料集中的其他有用資料不同。例如，柵格邊界上為零

微博爬蟲/資料分析/視覺化

微博的資料分析以及視覺化最近在學習資料分析，資料探勘以及資料視覺化的內容，之前斷斷續續地採集了接近1億條微博資料，還有幾十萬的使用者的資訊。所以篩選了一部分資料來分析分析。下面的內容大多以《廣州釋出》為例。微博數量分析微博時間分析地域分析資料視覺

微博使用者資料分析

一、資料描述 1）資料引數使用者的歷史微博資料截止到20131215 壓縮後244MB，解壓後878MB 2）資料型別整個資料是json格式 json中欄位描述： beCommentWeiboId 是否評論 beForwardWeiboId 是否是轉發微博 cat

新浪微博模擬登入分析(含驗證碼)

實驗室專案結題需要爬取新浪微博的內容做實驗，師兄提供了一份已實現的微博爬蟲系統。本身可以輕鬆愉快的完成語聊收集這一部分，然而自己的微博賬號始終登入失敗。究其原因，結果是登入時需要驗證碼。而系統對於需要驗證碼登入的賬號只能GG了，谷歌“新浪微博爬蟲”相關內容後，發現多數文章

用python對鹿晗、關曉彤微博進行情感分析哭著學習學習~

前言：本文主要涉及知識點包括新浪微博爬蟲、python對資料庫的簡單讀寫、簡單的列表資料去重、簡單的自然語言處理(snowNLP模組、機器學習)。適合有一定程式設計基礎，並對python有所瞭解的盆友閱讀。相信最近科技圈都在調侃一件事：10月8日中午的一條微博，引發了一場新浪微博使用者們(尤其是女性使用者

Python資料分析之微信好友資料分析

基於微信開放的個人號介面python庫itchat，實現對微信好友的獲取，並對省份、性別、微信簽名做資料分析。效果：直接上程式碼，建三個空文字檔案stopwords.txt，newdit.txt、unionWords.txt，下載字型simhei.ttf或刪除字型要求的程式碼

用python對鹿晗、關曉彤微博進行情感分析

前言：本文主要涉及知識點包括新浪微博爬蟲、python對資料庫的簡單讀寫、簡單的列表資料去重、簡單的自然語言處理(snowNLP模組、機器學習)。適合有一定程式設計基礎，並對python有所瞭解的盆友閱讀。相信最近科技圈都在調侃一件事：10月8日中午的一條微

新浪微博技術架構分析-轉載

中國首屆微博開發者大會在北京舉行，這是國內微博行業的首場技術盛宴。作為國內微博市場的絕對領軍者，新浪微博將在此次大會上公佈一系列針對開發者的扶持政策，以期與第三方開發者聯手推動微博行業的整體發展。圖為微博平臺首席架構師楊衛華演講。以下為演講實錄：大家下午好，在座的大部分都是技

python抓取新浪微博評論並分析

1，實現效果 2，資料庫 3，主要步驟 1，輸入賬號密碼，模擬新浪微博登陸 2，抓取評論頁的內容 3，用正則表示式過濾出使用者名稱，評論時間和評論內容 4，將得到的內容存入資料庫 5，用SQL語句實現其他功能：例如統計評論次數等 4，詳細步驟 # -*- codi

pyhton微博爬蟲（3）——獲取微博評論資料

本文的主要目標是獲取微博評論資料，具體包括微博評論連結、總評論數、使用者ID、使用者暱稱、評論時間、評論內容、使用者詳情連結等。實現程式碼如下所示： # -*- coding: utf-8 -*- """ Created on Tue Aug 8 16:

如何利用新浪微博開放平臺API獲取新浪微博使用者資料

首先登陸新浪微博開放平臺http://open.weibo.com/，然後要註冊成為開發者並且建立一個自己的應用，如下圖所示，應用已經建立完成。之後按照步驟首先要下載所需要的資源，點選新浪微博開放平臺的“文件”字樣，如下圖所示然後點選左側的“資源

java 讀取資料庫mysql千餘條微博excel資料，並用swing介面顯示結果

小長假結束第一天。想要完成題目要求，要做這些：①要能從網上爬到微博資料 ②把微博資料存入mysql（因為我當時從網上爬完直接匯出為excel，故還需要多這一步，如果大家爬完資料能直接存入資料庫中就更好省事了。話說怎麼把資料從excel匯入mysql也可以寫篇博文，但本文先不提

利用itchat介面進行微信好友資料分析

配置環境 python3 所需模組: itchat \ codecs \ json \ pyecharts \ collections \ jieba 主題思路通過itchat登陸微信網頁版，然後獲取好友的暱稱、省份、簽名等等，然後利用重新封裝的百

js調試工具及微博登錄分析

方法分享匹配工具參數 ack 地址 http 都是 js調試工具網頁都是采用ajax 需要提交一些參數斷點　　自己去直接斷點　　事件斷點，　　network 方法靠近邊欄頂部的是Call Stack(調用堆棧)窗格。當

未明學院資料分析報告：我們爬了微博10位明星夫妻，分析出胡歌和迪麗熱巴的物件可能是

本文作者：「用資料看世界」的未明學院資料分析方向老師 2018下半年可謂是明星結婚的密集期，前有趙麗穎、馮紹峰扯證，後有唐嫣、羅晉的童話婚禮，讓吃瓜群眾目不暇接。吃瓜之餘，群眾還將目光投向了“仙劍留守兒童”胡歌和新晉“金鷹女神”迪麗熱巴。究竟怎樣的人更有可能成為胡歌和

未明學院學員報告：做了微博資料分析後，我發現現在最火的明星原來是……

今年，隨著《偶像練習生》、《創造101》、《延禧攻略》等選秀節目或電視劇的爆火，娛樂圈接二連三地湧現出一批炙手可熱的新星。那麼，在娛樂圈如此激烈的競爭中，誰才是目前最火的明星？明星背後又存在怎樣的營銷套路？為此，未明學院資料分析訓練營的同學利用課上所學，分析了明星微博粉絲資料，同時藉助資料分析

大資料雲端實驗室專案實戰-微博輿情大資料分析有感

　　大資料開發、只能硬體和圖形影象需求增長最快，需求人員最多。對微博資料分析平臺搭建，以及微博資料分析平臺數據儲存模組設計與實現。　　最好有一定軟體開發方面的知識功底，比如瞭解網站開發、OA開發、Linux作業系統引言、雲端實驗室環境基於開源的amb

NO.16——Pathon爬取楊超越新浪微博資料做詞雲分析

看到網上充斥著很多詞雲分析的資料，今天心血來潮，也嘗試下詞雲分析。最近熱火的《創造101》，楊超越小姐姐一直在風口浪尖，因此這裡借用小姐姐的微博資料做分析。一、準備工具作詞雲分析主要用到兩個工具： jieba,俗稱結巴，中文分詞工具；wordclo

獨家 | 資料分析@愛可可-愛生活是否在用機器學習演算法運營微博

微博賬號@愛可可-愛生活是資料科學圈的網紅，因每天分享大量精選的資料科學領域的學習資料而出名，深受粉絲關注和喜愛。該賬號每天從早晨4-5點開始發微博，日均釋出大幾十條原創，有人不禁質疑，它的運營者北郵模式識別實驗室的副教授陳光，每天的時間是怎麼安排的，除了科研、教務、帶學生、寫基金等工作，是如何做到每

微博使用者資料分析

一、資料描述

二、實操題目

相關推薦