關於評論話題挖掘的研究及其實現程式碼（一）LDA

阿新 • • 發佈：2019-01-07

引言

在 2016年中，我們參加了一個由廈門信研院舉辦的大資料比賽。當時，我們拿到的題目為影迷關注點分析。資料是來自於微博與豆瓣的影迷評論資料，其資料量達600多萬條評論資料，分別對應於2000多部不同的電影。我們的想法是將影迷關注點分析儘量往評論話題挖掘模型中靠攏。

LDA話題模型

在一開始的時候，我們打算採用LDA話題識別模型。LDA( Latent Dirichlet Allocation) 主題模型由 Blei 於 2003 年提出,是在概率隱性語義索引 ( probabilistic Latent Semantic Indexing, pLSI) 上擴充套件得到的三層貝葉斯概率模型,是文件生成概率模型。LDA 模型包含詞項、主題和文件三層結構,其基本思想是把文件看成其隱含主題的混合,而每個主題則表現為跟該主題相關的詞項的概率分佈。

詳細的實現過程我放在了百度文庫當中，百度文庫連結
實現的程式碼放置我github上：LDAgithub連結
主要是通過python實現，分詞工具為結巴分詞。
關於LDA的原理介紹，我極力推薦這份部落格：LDA原理通俗講解
實現的效果是如圖所示：
python的LDA實現效果

利用LDA模型挖掘影迷關注點

由於python的程式碼無法處理上萬條的評論，所以我轉採用了spark的mllib中的LDA模型。經過一番周折，我總算實現出來。

k：主題數，或者聚類中心數
DocConcentration：文章分佈的超引數
TopicConcentraion：主題分佈的超引數
MaxIterations：迭代次數
Seed：隨即種子

雖然實現的出來，但實現的效果卻讓我大失所望。前k個熱門話題中的關鍵詞幾乎一模一樣，其效果圖如下：
spark中的LDA實現效果

原因分析

我反覆審閱自己的程式碼，覺得應該是ok的。後來深思了一下，我認為最大的原因是我們獲取的電影評論屬於短評類，字數一般不會超過200字。單個電影的所有評論詞語的當中有極高的關聯性程度,一個詞語出現在多個評論的情況很普遍。而LDA本身就是基於概率統計模型，因此，一些高頻詞語或者具有中心性的詞語在不同話題中的重要性排位具有非常大的噪音影響，從而導致模型出現的效果基本是中心詞涵蓋了所有的話題。

後記

可以說，我們的努力並沒有得到我們當初想要的結果。當然，如果對LDA模型進一步地調優，如過濾掉一些中心性詞語，效果應該得到不錯的提升。但是我覺得LDA在本次專案中並沒有很大的優勢。於是乎，我就將評論挖掘模型轉變成為詞圖切分的問題。從圖論的研究角度來挖掘出評論中話題。該嘗試收穫了巨大的成功，也幫助我們獲得了比賽的第一名。

我將會在下一份部落格中詳細說明，關於評論話題挖掘的研究及其實現程式碼（二）詞圖切分

關於評論話題挖掘的研究及其實現程式碼（一）LDA

引言在 2016年中，我們參加了一個由廈門信研院舉辦的大資料比賽。當時，我們拿到的題目為影迷關注點分析。資料是來自於微博與豆瓣的影迷評論資料，其資料量達600多萬條評論資料，分別對應於2000

OpenCV下車牌定位演算法實現程式碼（一）

分類：影象處理

紅黑樹插入與刪除演算法實現+程式碼（一）

要實現紅黑樹節點的插入刪除，得先實現二叉樹節點插入刪除，在這基礎上加入紅黑樹調整演算法。今天早上編寫了二叉樹的節點刪除程式碼。結果如下實踐經驗： 1.要刪除節點，得先遍歷出節點位置，我用陣列存放遍歷出來的結果。然後刪除結果中倒數第三個數字時，遇到了困難：（1）剛

四次方程根式解+四次以上方程近似解的js實現程式碼（1）——複數類+複數常量+三角函式簡表

本人正在寫矩陣史詩級玩法系列部落格，寫到求二元二次方程組的地方來了，消元后最高會生成一元四次方程，而這個求根公式雖然成熟，但程式碼量也不少，所以單獨封裝成工具類。本不打算講解的，但考慮到有的朋友可能沒接觸過複數，或者說雖然接觸過複數但已經忘得一乾二淨，那這裡我就簡單說一下

二叉搜尋樹詳解及實現程式碼（BST）

概念二叉搜尋樹（Binary Search Tree），又稱二叉排序樹，它或者是一顆空樹，或者具有如下性質的樹：若它的左子樹不為空，則左子樹上所有節點的值都小於根節點的值若它的右子樹不為空，則右子樹上所有節點的值都大於根節點的值它的左右子樹也分別

個人專案初始版本實現程式碼（matlab）

% wordcount %實現詞頻的統計 %% 清空變數 clear clc %% 初始版本的開始測試 str1 = 'my name is cuifengrui what is your name'; %% 具體實現過程 sort_str1 = sort(str1)

C++ 實現反射（一）

反射，就是根據一個類名，即可根據類名獲取類資訊，建立新物件。反射在很多語言都天然支援，然而不包括 C++，但我們肯定會經常遇到這種根據類名生成物件的場景，這就需要我們自己動手來實現了。反正 C++ 這麼強大，一定沒有問題 :） version 1 我們略做思考，就可以想到一種最簡

JDK9 ConcurrentHashMap實現原理（一）

文章目錄 JDK9 ConcurrentHashMap實現原理（一）資料結構私有屬性靜態屬性相關節點構造器 Hash值計算新增元素初始化陣列

關於MATLAB轉C++程式碼（一）

沒時間寫，上圖快一點， 1、寫好主執行檔案，m_18_10_30.m，並且執行 2、單擊MATLAB Coder 3、進入，選擇函式（而不是執行檔案） 4、Next，選擇執行的檔案，m_18_10_30.m 5、''let me enter...''，是開啟

Redisson 分散式鎖實現分析（一）

設計分散式鎖要注意的問題互斥分散式系統中執行著多個節點，必須確保在同一時刻只能有一個節點的一個執行緒獲得鎖，這是最基本的一點。死鎖分散式系統中，可能產生死鎖的情況要相對複雜一些。分散式系統是處在複雜網路環境中的，當一個節點獲取到鎖，如果它在釋放鎖之前掛掉了，

陣列之蛇型矩陣程式碼（一）

我在多次的演算法比賽中遇到了蛇型矩陣問題都沒有做出來，今天我在《演算法競賽入門經典》這本書上看到了，一段優美的解決蛇型矩陣問題的程式碼。請原諒我的無知，我看的程式碼少寫的程式碼也不多。如果你認為這段程式碼不好不優美請多多指教。我在這裡謝謝大家了。 #include<stdio.h>

深入探究immutable.js的實現機制（一）

Immutable.js 採用了持久化資料結構和結構共享，保證每一個物件都是不可變的，任何新增、修改、刪除等操作都會生成一個新的物件，且通過結構共享等方式大幅提高效能。網上已經有很多文章簡單介紹了 Immutable.js 的原理，但基本都是淺嘗輒止，我也是搜了很久

java併發機制的底層實現原理（一）：volatile深入分析

java程式碼最終會被類載入器載入到JVM中，然後轉化為彙編指令在CPU上執行。java中所使用的併發機制依賴於JVM的實現和CPU的指令。 1.volatile的應用 volatile是一個輕量級的synchronize，它保證了共享變數的可見性，確保了所有執

unity 觸屏程式碼（一）物體運動

// 縮放係數 private float distance = 1f; // 左右滑動移動速度 private float xSpeed = 250.0f;

Rxjava2.x 原始碼分析，以及手動實現Rxjava（一）

這兩年Rxjava火的一塌糊塗，不會點Rxjava+Okhttp+Retrofit+MVP+Dagger2架構都不好意思說自己混Android的。Rxjava 到底是什麼和Rxjava到底怎麼用，這裡就不講了，網上太多了，具體可以參考這位大佬和扔物線的。 Rxjava

【iOS】圖表實現-Charts（一）

前幾天把AAChartsKit的使用簡單寫了寫，官方使用說明已經寫的很詳細了。我也就不多說了，今天就講講Charts的使用。 0.簡介近期專案需要使用到折線圖這樣的圖表功能，因此接觸到了Charts這個框架，不得不說這個圖表框架很強大，但是在GitHub上Charts的介紹也比較簡單的介紹（直說了和MP

嘗試模擬實現struts2（一）

由於在另一篇文章中已經分析過Struts2的執行流程，所以直接開始嘗試。宣告：只是簡單實現過程，沒有使用代理。首先：因為struts2會當使用者訪問action時候加入一個過濾器，將使用者請求攔下來。使用者請求路徑"./action/StudentInfo" 所以我們也在web.xm

嘗試模擬實現RMI（一）

關於RMI的基礎理解在我之前的文章中有所介紹。點我這次是根據RMI的基礎理解從而想到嘗試模擬實現RMI。大體思路：我們的目標是建立RpcServer以及RpcClient後，從RpcClient中得到相應介面或類的代理物件，並且執行介面中的方法。而這的執行是通過代理機

嘗試模擬實現AOP（一）

大體思路：除了模擬實現IOC準備的東西外，還需要準備一套有關攔截器的類以及相關注解；包括類InterceptorFactory、InterceptorScanner、，註解After、Before、ThorwException、Aspect；一個描述攔截器的類Interc

RBAC許可權管理系統實現思路（一）

RBAC(Role-Based Access Contro) 是基於角色的許可權訪問控制，系統根據登入使用者的角色不同，從而給予不同的系統訪問許可權，角色的許可權隨角色創立時進行分配。首先，許可權控制很多系統中都需要，但是不同的系統對於許可權的敏感程度不同，

關於評論話題挖掘的研究及其實現程式碼（一）LDA

引言

LDA話題模型

利用LDA模型挖掘影迷關注點

原因分析

後記

我將會在下一份部落格中詳細說明，關於評論話題挖掘的研究及其實現程式碼（二）詞圖切分

相關推薦