資料探勘：基於Spark+HanLP實現影視評論關鍵詞抽取

阿新 • • 發佈：2018-12-20

背景
近日專案要求基於爬取的影視評論資訊，抽取影視的關鍵字資訊。考慮到影視評論資料量較大，因此採用Spark處理框架。關鍵詞提取的處理主要包含分詞+演算法抽取兩部分。目前分詞工具包較為主流的，包括哈工大的LTP以及HanLP，而關鍵詞的抽取演算法較多，包括TF-IDF、TextRank、互資訊等。本次任務主要基於LTP、HanLP、Ac雙陣列進行分詞，採用TextRank、互資訊以及TF-IDF結合的方式進行關鍵詞抽取。

說明：本專案剛開始接觸，因此效果層面需迭代調優。

技術選型
(1) 詞典

基於HanLP專案提供的詞典資料，具體可參見HanLP的github。
考慮到影視的垂直領域特性，引入騰訊的嵌入的漢語詞，參考該地址。

(2) 分詞

LTP分詞服務：基於Docker Swarm部署多副本集服務，通過HTTP協議請求，獲取分詞結果(部署方法可百度); 也可以直接在本地載入，放在記憶體中呼叫，效率更高(未嘗試)
AC雙陣列：基於AC雙陣列，採用最長匹配串，採用HanLP中的AC雙陣列分詞器

(3) 抽取

經典的TF-IDF：基於詞頻統計實現
TextRank：借鑑於PageRank演算法，基於HanLP提供的介面
互資訊：基於HanLP提供的介面

實現程式碼
(1) 程式碼結構

程式碼將分詞服務進行函式封裝，基於不同的名稱，執行名稱指定的分詞
TextRank、互資訊、LTP、AC雙陣列等提取出分詞或短語，最後均通過TF-IDF進行統計計算

(2) 整體程式碼

主體程式碼：細節層面與下載的原始評論資料結構有關，因此無需過多關注，只需關注下主體流程即可

View Code
2) 基於HanLP提供的AC雙陣列封裝

View Code
3) HanLP載入HDFS中的自定義詞典

View Code
4. 採坑總結
(1) Spark中實現HanLP自定義詞典的載入

由於引入騰訊的嵌入詞，因此使用HanLP的自定義詞典功能，參考的方法如下：

a. 《基於hanLP的中文分詞詳解-MapReduce實現&自定義詞典檔案》，該方法適用於自定義詞典的數量較少的情況，如果詞典量較大，如騰訊嵌入詞820W+，理論上jar包較為臃腫

b. 《Spark中使用HanLP分詞》，該方法的好處在於無需手工構件詞典的bin檔案，操作簡單

切記：如果想讓自定義詞典生效，需先將data/dictionary/custom中的bin檔案刪除。通過HanLP原始碼得知，如果存在bin檔案，則直接載入該bin檔案，否則會將custom中使用者自定義的詞典重新載入，在指定的環境中(如本地或HDFS)中自動生成bin檔案。

騰訊820W詞典，基於HanLP生成bin檔案的時間大概為30分鐘。

(2) Spark異常

Spark執行過程中的異常資訊：

異常1

a. 異常資訊：

Job aborted due to stage failure: Total size of serialized results of 3979 tasks (1024.2 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

b. 解決：通過設定spark.driver.maxResultSize=4G，參考：《Spark排錯與優化》

異常2

a. 異常資訊：java.lang.OutOfMemoryError: Java heap space

b. 解決：參考https://blog.csdn.net/guohecang/article/details/52088117

文章來源於網路

資料探勘：基於Spark+HanLP實現影視評論關鍵詞抽取(1)

1. 背景近日專案要求基於爬取的影視評論資訊，抽取影視的關鍵字資訊。考慮到影視評論資料量較大，因此採用Spark處理框架。關鍵詞提取的處理主要包含分詞+演算法抽取兩部分。目前分詞工具包較為主流的，包括哈工大的LTP以及HanLP，而關鍵詞的抽取演算法較多，包括TF-IDF、TextRank、互資訊等。本次

資料探勘：基於Spark+HanLP實現影視評論關鍵詞抽取

背景近日專案要求基於爬取的影視評論資訊，抽取影視的關鍵字資訊。考慮到影視評論資料量較大，因此採用Spark處理框架。關鍵詞提取的處理主要包含分詞+演算法抽取兩部分。目前分詞工具包較為主流的，包括哈工大的LTP以及HanLP，而關鍵詞的抽取演算法較多，包括TF-IDF、TextRan

數據挖掘：基於Spark+HanLP實現影視評論關鍵詞抽取(1)

cast groupby array 垂直領域 ger 效率 nta saveas ogg 1. 背景近日項目要求基於爬取的影視評論信息，抽取影視的關鍵字信息。考慮到影視評論數據量較大，因此采用Spark處理框架。關鍵詞提取的處理主要包含分詞+算法抽取兩部分。目前分詞工具

農民也玩資料探勘：基於物聯網的高階種菜模式

Soil IQ是一家創業公司 Re:char的新專案，它可以將土壤的營養成分、pH值、溫度、溼度等等形成資料流，然後通過WIFI上傳到雲端（應用名稱也是Soil IQ），然後使用大資料分析工具，該平臺會為使用者提供調整建議，優化選種、施肥、灌溉過程，還能減少浪費。該公司將“物聯網”拓展到農業領域，從

資料探勘：基於樸素貝葉斯分類演算法的文字分類實踐

前言：如果你想對一個陌生的文字進行分類處理，例如新聞、遊戲或是程式設計相關類別。那麼貝葉斯分類演算法應該正是你所要找的了。貝葉斯分類演算法是統計學中的一種分類方法，它利用概率論中的貝葉斯公式進行擴充套件。所以，這裡建議那些沒有概率功底或是對概率論已經忘記差不多的讀者可

轉載：資料探勘之_SVD的python實現和分析

作者：NumX 來源：CSDN 原文：https://blog.csdn.net/baidu_36316735/article/details/53760479?utm_source=copy 前言今日實現第一個推薦演算法，在”機器學習實戰“一書中找到了SVD方法一

資料探勘：資料（資料物件與屬性型別）

一、概述現實中的資料一般有噪聲、數量龐大並且可能來自異種資料來源。資料集由資料物件組成，一個數據物件代表一個實體。資料物件：又稱樣本、例項、資料點或物件。資料物件以資料元組的形式存放在資料庫中，資料庫的行對應於資料物件，列對應於屬性。屬性是一個數據欄位，表示資料物件的特徵，在

資料探勘：資料（資料的基本統計描述）

一、概述對應成功的資料預處理而言，把握資料的全貌至關重要。基本統計描述可以用來識別資料的性質，凸顯哪些資料值應該視為噪聲或離群點。二、中心趨勢度量：均值、中位數、眾數、中列數也就是度量資料分佈的中部或中心位置。（給定一種屬性，它的值大部分落在何處）　1

資料探勘 K-Medoide聚類實現例項

接著上一篇內容來講，本次要實現K-Medoide聚類方法對waveform資料以及影象的分割。簡而言之，K-Medoide就是將K-means求平均的方式替換成將各簇中所有點依次作為中心點對該簇所有點求距離之和進行遍歷，最終距離之和最小的作為新的中心點即可。優點：

常見資料探勘演算法和Python簡單實現

1、K近鄰演算法原理：計算待分類樣本與每個訓練樣本的距離，取距離最小的K個樣本，這k個樣本，哪個類別佔大多數，則該樣本屬於這個類別。優點：1、無需訓練和估計引數，2、適合多分類，3、適合樣本容量比較大的問題缺點：1、對測試樣本記憶體開銷大，2、可解釋性差，無法

資料探勘：Apriori演算法

轉自： http://blog.csdn.net/zjd950131/article/details/8071414 1 Apriori介紹 Apriori演算法使用頻繁項集的先驗知識，使用一種稱作逐層搜尋的迭代方法，k項集用於探索(k+1)項集。首先，通過掃描事務

Python資料探勘：利用聚類演算法進行航空公司客戶價值分析

無小意丶個人部落格地址：無小意知乎主頁：無小意丶公眾號：資料路（shuju_lu）剛剛開始寫部落格，希望能保持關注，會繼續努力。以資料相關為主，網際網路為輔進行文章釋出。本文是《Python資料分析與挖掘實戰》一書的實戰部分，在整理分析後的復現。本篇文

資料探勘之推薦分析--python實現

# # FILTERINGDATA.py # # Code file for the book Programmer's Guide to Data Mining # http://guidetodatamining.com # Ron Zacharski # #

資料探勘實戰——基於水色影象的水質評價

挖掘目的用數字影象處理部分來作為資料探勘分析的資料來源，按水色判斷水質分類的資料以及用數碼相機按照標準進行水色採集的影象資料，利用影象處理技術，通過水色影象實現水質的自動評價。分析方法水樣影象維度過大，不易分析需要從中提取影象特徵，提取反映影象本質的一些關鍵指標，這點在資料預處理中本

R語言學習系列(資料探勘之決策樹演算法實現--ID3程式碼篇)

轉載自：http://blog.csdn.net/hawksoft/article/details/7760868 1、輔助類，用於計算過程和結果儲存 [csharp] view plaincopyprint? /// &

R資料探勘技術-基於R語言的資料探勘和統計分析技術

培訓要點網際網路點選資料、感測資料、日誌檔案、具有豐富地理空間資訊的移動資料和涉及網路的各類評論，成為了海量資訊的多種形式。當資料以成百上千TB不斷增長的時候，我們在內部交易系統的歷史資訊之外，需要一種基於大資料分析的決策模型和技術支援。目前對大資料的分析工具，有Had

資料探勘：Apriori(先驗)演算法

介紹先驗(Apriori)演算法是挖掘關聯式規則(Association Rules)的經典演算法之一。它的作用就是用來尋找資料當中的強關聯式規則(Strong Association Rules)。強關聯式規則是滿足最低支援度(minimum su

資料探勘：id3 演算法

1 簡述 1.1 id3是一種基於決策樹的分類演算法，由J.Ross Quinlan 在1986年開發。id3根據資訊增益，運用自頂向下的貪心策略建立決策樹。資訊增益用於度量某個屬性對樣本集合分類的好壞程度。由於採用了資訊增益，id3演算法建立的決策樹規模比較

命令列中的資料探勘：怎麼在比較大的訓練集中提取小樣本

前提： sudo pip install csvkit head -n 50 train_set.csv > train_sample.csv 上面的50表示你要輸出的行數為50行，這樣你就

資料探勘：概念與技術（第三版）之第五章的學習記錄

資料立方體本章主要介紹資料立方體技術在第四章的時候已經提到過，在資料探勘中有一種OLAP風格的多維資料探勘被廣泛的使用。因此，為了追求其良好的效能，我們對多維模型需要進行預計算和建立索引。第四章只是簡單的說道了完全立方體，冰山立方體等概念。在第五章，我們

資料探勘：基於Spark+HanLP實現影視評論關鍵詞抽取

相關推薦