基於Spark和Hive進行的豆瓣電影資料分析

阿新 • • 發佈：2019-02-03

寫在前邊的話：

算是自己做的一個小課題吧，自己搭建平臺，自己爬取資料，自己進行資料清洗和分析，自己進行視覺化展示，寫這篇部落格不為別的，只是記錄下自己做這個課題的整個過程，大神們勿噴

環境說明：hadoop2.7叢集，包含Hbase，Hive，Spark，Sqoop，Mahout元件

過程：平臺部署->資料採集-> 資料儲存->資料ETL->資料分析->視覺化

1：平臺部署

看之前的部落格：點選閱讀

2：資料採集

資料來源，豆瓣電影，以Tag採集入口，對應標籤採集對應的電影，使用Python3.4.3 + BeautifulSoup4.4.1 + urllib進行資料

的採集，本地儲存形式為csv格式，程式碼結構為

-DouBan-Spider         #專案根目錄
----download           #下載網頁原始碼模組
--------__init__.py 
-------down_html.py 
----fileoutput         #檔案輸出儲存路徑
----output             #將抓取的內容寫入檔案
--------__init__.py
--------output_all.py
----parase             #解析網頁程式碼
--------__init__.py
--------parase_html.py
----urlmanager         #連結管理
--------__init__.py
--------manage_url.py
----main

資料儲存格式（csv檔案）

category.csv，兩列（標籤name，對應的電影數目）

movie.csv，10列(電影ID，名字，導演，編劇，型別，主演，上映時間，時長，評論人數，豆瓣評分)

movie_summary.txt，兩列（電影ID，劇情摘要）

3：資料儲存

首先爬取的資料是儲存在本地電腦上的，我們將其上傳至HDFS，作為原始資料儲存

上傳至HDFS：

    bin/hdfs dfs -put /home/master/桌面/*.csv /file/douban_movie_data
    bin/hdfs dfs -put /home/master/桌面/*.txt /file/douabn_movie_data

web檢視顯示為：

4：資料ETL

1) category.csv直接可放入hive中，建立category表，並載入資料

PS：這裡要注意的是，這樣不做任何處理直接載入到hive表中，在進行終端查詢時會出現亂碼情況

解決辦法：將本地檔案另存為UTF-8格式，然後再進行匯入到Hive中

#建立category資料表
create table movie_category(
	cate_name string,
	cate_count int
)
comment "this table about movie category"
row format delimited fields terminated by ",";

#將category.csv載入到表中
load data inpath '/file/douabn_movie_data/category.csv' into table movie_category;

2) 對movie_links.csv 進行預處理，提取出id，進行hive的兩列式儲存

預處理

#-*-codinf:utf-8-*-

fp_w = open("new_movies_links.csv","a")

with open("movies_links.csv" ,"r") as fp:
    links = fp.readlines()
    for link in links:
        id = link.strip().split("/")[-2]
        href = link
        fp_w.write(id+"," +href)

fp_w.close()
print "ETL OK"

建立表movie_links，並載入資料

#建立表movie_links
create table movie_links(
id int,
href string
)
comment "this table about every movie links"
row format delimited fields terminated by ",";
#從本地載入資料
load data local inpath "/home/master/mycode/new_movies_links.csv" into table movie_links;

3) 對movie.csv進行預處理，並存入hive

預處理

# -*-coding:utf-8-*-

#encoding="utf-8"  保證匯入hive之後查詢時不會出現中文亂碼
fp_w = open("new_movies_load.csv","a",encoding="utf-8")

with open("movie.csv","r") as fp_r:
    for line in fp_r.readlines():
        movies=line.strip().split(",")

        s = ""
        #對上映時間進行處理
        try:
            year = int(movies[6].replace("/","-").split("-")[0])
        except:
            yesr = ""
        try:
            month = int(movies[6].replace("/","-").split("-")[1])
        except:
            month = ""
        movies[6] = str(year) + "," + str(month)
        for m in movies:
            s += m+","
        fp_w.write(s[:-1]+"\n")
    print("OK !!!")
    fp_w.close()

建立movie_message表，並載入資料

#建立儲存表
create table movie_message(
    id int,
	title string,
	daoyan array<string>,
	bianju array<string>,
	leixing array<string>,
	zhuyan array<string>,
	year int,
	month int,
	shichang int,
	disnum int,
	score float
)
comment "this table about movie's message"
row format delimited fields terminated by ","
collection items terminated by '/';
#載入資料
load data local inpath "/home/master/mycode/new_movies_load.csv" into table movie_message;

4) 建立movie_summary表，並載入資料

#載入資料
load data local inpath "/home/master/mycode/new_movies_load.csv" into table movie_message;

#建立劇情摘要表
create table movie_summary(
id int,
summary string
)
comment "this table about movie summary"
row format delimited fields terminated by "\t";
#載入資料
load data local inpath "/home/master/mycode/movie_summary.txt" into table movie_summary;<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">     </span>

5) 影評資料存入表中（以大魚海棠為例，下邊也將以大魚海棠作為分析入口）

5：資料分析

1)：電影類別統計

根據標籤和對應的電影數目，進行Top10顯示，如下：

2)：電影劇情統計

3)：厲年影片數量走勢圖

4)：電影數目最多的十年

5)：影評分析

首先將影評資訊進行初步的ETL存入hive資料表，方便分析時直接匯出需要的列即可，下面直接給出分析結果，程式碼和原始檔參考github，連結在部落格開頭已給出。

(1)：影價等級比例

(2)：影評時間分析

(3)：影評高頻詞統計

使用spark進行中文分詞統計請移步：點選閱讀，jar包下載：github

(4)：劇透類影評分析

內容為”這篇影評可能有劇透“在所有的影評中所佔的比例

hive中執行：

select
round(sum(case when content="這篇影評可能有劇透" then 1 else 0 end)/count(*),2)
from yingping_dayu;

結果為：0.43

內容為”這篇影評可能有劇透“在每天中的數目變化

我們可以將影評變化和劇透影評在一張圖上顯示如下：

(5)：影評情感分類

這個部分主要是針對每個影評進行自動評級，豆瓣電影對影評的評級分為五個等級（'很差','較差','還行','推薦','力薦'），這裡使用的是樸素貝葉斯分類演算法，首先對每個等級的影評進行分詞，提取高頻詞作為分類的依據

第一步：針對影評的等級和影評內容分詞並寫入相應的檔案

程式碼就不貼了（github上有），處理結果如下：

0代表很差，依次類推，5代表力薦

第二步：結合樸素貝葉斯演算法和以上的資料，進行學習分類

把需要分類的影評寫入test.txt檔案，然後執行程式，結果顯示如圖（紅色部分為中文分詞的過程，不必理會）：

需要說明的是，這裡分類的效果很差，原因是豆瓣影評分級的依據是自己提取的高頻詞，但是從某種程度上說，這是不靠譜的，如果大家有什麼好的意見可以提一下，一起學習。

附：分享一個針對豆瓣電影資料做的比較好看的視覺化web展示： http://zhanghonglun.cn/data-visualization/

但是上邊的連結所展示的不足之處為資料為靜態的，即不能實時的從豆瓣獲取資料，而且展示的資料維度比較單一

基於Spark和Hive進行的豆瓣電影資料分析

寫在前邊的話：算是自己做的一個小課題吧，自己搭建平臺，自己爬取資料，自己進行資料清洗和分析，自己進行視覺化展示，寫這篇部落格不為別的，只是記錄下自己做這個課題的整個過程，大神們勿噴

基於spark和flink的電商資料分析專案

目錄業務需求業務資料來源使用者訪問Session分析 Session聚合統計 Session分層抽樣 Top10熱門品類 Top10活躍Session 頁面單跳轉化率分析各區域熱門商品統計分析廣告點選流量實時統計分析

豆瓣電影資料分析

目錄概述評分分佈情況豆瓣電影的平均評分分佈中國大陸的豆瓣電影的平均評分分佈電影年份分析 1940-2018 2000-2018 電影評分和年份的關

基於spark和flink的電商數據分析項目

cli href option 跳轉所在 split des tro 搜索目錄業務需求業務數據源用戶訪問Session分析 Session聚合統計 Session分層抽樣 Top10熱門品類 Top10活躍Session 頁面單跳轉化率分析各區域熱門商品統計

使用Apache Spark和MySQL打造強大的資料分析

藉助真實案例和程式碼樣本，本文作者展示瞭如何將Sparke和MySQL結合起來，創造資料分析上的強大工具。 Apache Spark是一個類似Apache Hadoop的叢集計算框架，在Wikipedia上有大量描述：Apache Spark是一個開源叢集計算框架，出自加州大學伯克利分校的AMPLa

《Spark機器學習》筆記——基於MovieLens資料集使用Spark進行電影資料分析

1、資料集下載https://grouplens.org/datasets/movielens2、資料集下檔案格式u.user使用者屬性檔案包含user.id使用者ID gender性別 occupation職業 ZIP code郵編等屬性，每個屬性之間用|分

基於Spark和Tensorflow構建DCN模型進行CTR預測

scalar spa tro default beta unit oar 保留介紹實驗介紹數據采用Criteo Display Ads。這個數據一共11G，有13個integer features，26個categorical features。 Spark 由於數

基於vue2.0的一個豆瓣電影App

即將 tle count webp bad string random current strong 1、搭建項目框架使用vue-cli 沒安裝的需要先安裝 npm intall -g vue-cli 使用vue-cli生成項目框架 vue init webpack-s

spark和hive storm mapreduce的比較

大數據Spark Streaming與Storm都可以用於進行實時流計算。但是他們兩者的區別是非常大的。其中區別之一就是，Spank Streaming和Stom的計算模型完全不一樣，Spark Streaming是基於RDD的，因此需要將一小段時間內的，比如1秒內的數據，收集起來，作為一個RDD.然後再針對

對基於Lua和Nginx的iOS應用資料的加密框架

預答辯歸來，主管給了我一個新任務，這是實習以來的第三個任務了。任務仍然很簡單，就是對ios應用中的一些重要資料進行DES加密。 iOS的介面通過Webview形式展示，在web頁中通過JS呼叫lua指令碼對重要資料進行讀取和存放，所以加密模組的函式必須能夠在lua指令碼中呼

基於Prometheus和Grafana進行效能監控_Kubernetes中文社群

1、Prometheus介紹和架構 1.1 Prometheus介紹 Prometheus是一個開源的系統監視和警報工具包，自2012成立以來，許多公司和組織採用了Prometheus。它現在是一個獨立的開源專案，並獨立於任何公司維護。在2016年，Prometheus加入雲端計算基金會作為K

學習網站專案學習 - 基於Django 和 Vue的前後端資料互動

目錄一、前後端互動實現思路 1-1 前端思路 1-2 後端思路二、前端設計 2-1 預設資料設定 2-1-1 建立檢視元件 DataTest.vue 2-1-2 router.js 路由配置 2-1-3 App.vue配置 2-2 使用axios獲取資料

Go 微服務：基於 RabbitMQ 和 AMQP 進行訊息傳遞

歡迎大家前往騰訊雲+社群，獲取更多騰訊海量技術實踐乾貨哦~ 介紹微服務就是將應用程式的業務領域劃分為具有明確範圍的不同場景，並以分離的流程來執行這些場景，使得其中跨邊界的任何持久化的關係必須依賴最終的一致性，而不是 ACID 類事務或外來鍵約束。這

基於Spark的Hive程式設計中，“Error:(8, 37) java: 程式包org.apache.spark.sql.api.java不存在”的解決辦法

依賴Spark 1.2.0中的jar包程式設計時會出現這個問題，雖然這個Spark版本已較舊，但一些在舊的平臺上開發的人，可能還會遇到這個問題，因此將問題的解決辦法寫在這裡。報的錯誤如下圖所示：

豆瓣電影爬蟲+分析

豆瓣電影爬蟲和分析引言最近做了一個豆瓣電影的爬蟲並且進行了簡單的資料分析，我會在部落格裡面記錄下來。其實之前也做過一些爬蟲，但一直沒有寫部落格的習慣，太懶了。所以決定以後寫得一些小爬蟲或者什麼demo都記錄下來。 1.程式環境本文使用Python 3，用到了re，request

QIIME 2：可重複、互動和擴充套件的微生物組資料分析流程

文章目錄 QIIME2：可重複、可互動、適用範圍廣和可擴充套件的微生物組資料科學摘要正文圖1. 互動式視覺化工具圖2. 迭代記錄資料來源確保分析可重複程式碼可用線上方法

用SPSS進行多變數資料分析

1.將所給的資料輸入SPSS 22.0中文版。分別設定變數為溫度，體重1、2、3、4；體重，溫度5、10、15、20、30。2.用SPSS進行作圖（過程略）。3.對資料進行多因素變數分析，具體操作如下：（1）以體重組和溫度5、10、15、20、30作為變數，在選單裡選擇分析

distinct和group by 去掉重複資料分析

詳見：http://blog.yemou.net/article/query/info/tytfjhfascvhzxcytp40 用distinct關鍵字只能過濾查詢欄位中所有記錄相同的（記錄集相同），而如果要指定一個欄位卻沒有效果，另外distinct關鍵字會排序。 s

[原始碼和文件分享]基於python的B站彈幕資料分析（爬蟲+視覺化）

python—B站彈幕資料分析 1 背景在視訊網站上，一邊看視訊一邊發彈幕已經是網友的習慣。B站就是其中一個比較出名的彈幕網站，許多年輕人都喜歡逛B站,看喜歡的動漫亦或某些UP主做的一些剪輯。本專案，就是對B站彈幕資料進行分析。選取分析的物件是B站上一部國漫《全職高手》。 2 環境的安

Hive over HBase和Hive over HDFS效能比較分析

http://superlxw1234.iteye.com/blog/2008274環境配置：hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/

基於Spark和Hive進行的豆瓣電影資料分析

寫在前邊的話：

1：平臺部署

2：資料採集

3：資料儲存

4：資料ETL

1) category.csv直接可放入hive中，建立category表，並載入資料

2) 對movie_links.csv 進行預處理，提取出id，進行hive的兩列式儲存

3) 對movie.csv進行預處理，並存入hive

4) 建立movie_summary表，並載入資料

5) 影評資料存入表中（以大魚海棠為例，下邊也將以大魚海棠作為分析入口）

5：資料分析

1)：電影類別統計

2)：電影劇情統計

3)：厲年影片數量走勢圖

4)：電影數目最多的十年

5)：影評分析

(1)：影價等級比例

(2)：影評時間分析

(3)：影評高頻詞統計

(4)：劇透類影評分析

(5)：影評情感分類

相關推薦