1. 程式人生 > >你不該把世界讓給你所鄙視的人。

你不該把世界讓給你所鄙視的人。

LDA主題模型

LDA 簡介

LDA模型:Latent Dirichlet Allocation是Blei 等人於2003年提出的基於概率模型的主題模型演算法,它是一種非監督機器學習技術,可以用來識別大規模文件集或預料庫中的潛在隱藏的主題資訊。
LDA演算法的核心思想:每篇文章由多個主題mix混合而成的,而每個主題可以由多個詞的概率表徵。該方法假設每個詞是由背後的一個潛在隱藏的主題中抽取的。
而對於每篇文件:
1.對於每篇文件,從主題分佈中抽取一個主題。
2.從上述抽到的主題所對應的單詞分佈中抽取一個單詞。
3.重複上述過程直至遍歷文件中的每個單詞。

LDA 演算法的輸入

演算法輸入:分詞後的文章集、主題數K、超引數αβ
演算法輸出
1.每篇文章的各個詞被指定的主題編號:tassign-model.txt
2.每篇文章的主題概率分佈θ:theta-model.txt
3.每個主題下的詞概率分佈ϕ:phi-model.txt
4.程式中詞語word的id對映表:wordmap.txt
5.每個主題下ϕ概率排序從高到低top n特徵詞:twords.txt

必備的數學知識

Gamma函式

gamma函式其實就是階乘的函式,比如n!=1*2*3*….n,這個階乘形式可以更一般化,不侷限於整數。而更一般的函式形式就是gamma函式:

Γ(x)=+0ettx1dt(x>0)
Γ(1)=+0etdt=[et]+0=1,Γ(12)=π,Γ(x+1)=xΓ(x),Γ(n)=(n1)!
有興趣可以證明一下,感覺複雜的記住就可以了。

二項分佈(Binomial distribution)

二項分佈即重複n次獨立的伯努利實驗。每次實驗的結果只能是1或者0,每次實驗相互獨立,當實驗次數為1時,就是伯努利分佈,每次為1的概率都是相等的。
二項分佈的概率公式:

P=Cknpk(1p)nk其中p為成功的概率,記作X~B(n,p)

beta分佈(beta distribution)

beta分佈是指一組定義在區間(0,1)的連續概率分佈,有兩個引數αβ,且α,β>0.它是一個作為伯努利分佈與二項分佈的共軛先驗分佈的密度函式。
例:空氣中的相對溼度可能符合beta分佈(主要幫助大家理解). 相對溼度即現在的含水量與空氣中的最大含水量(飽和含水量)的比值,顯然該值只能出現於0-1之間。空氣中出現某個相對溼度具有隨機性。
Beta分佈的概率密度函式:

f(x;α,β)=1B(α,β)xα1(1x)β1記作X~ Beta(α,β),其中分母函式為B函式。(注意不是二項分佈)
B函式與Gamma函式的關係:
B(α,β)= Γ(α)Γ(β)Γ(α+β)
Beta分佈的期望可以用αα+β來估計。
以上結論有興趣可以證明一下,感覺複雜的記住就可以了。

多項分佈(multinomial distribution)

多項分佈是二項分佈的推廣,在n次獨立試驗中每次只輸出k種結果中的一個,且每種結果都有一個確定的概率p.
舉例來說,投擲n 次骰子,這個骰子共有6種結果輸出,骰子1點出現的概率為p1,2點出現的概率為p2,…理論上出現的概率是相等的,但是也可以不想等,只要各個輸出結果出現的事件互斥且概率和為1即可。同時統計各個點數出現的次數,這個結果組合的事件就應該服從多項分佈。
多項分佈的概率函式:

f(x1,...,xk;n,p1,...pk)=Γ(ixi+1)iΓ(xi+1)i=1kpxii

狄利克雷分佈(dirichlet distribution)

狄利克雷分佈是beta分佈在多項情況下的推廣,也是多項分佈的共軛先驗分佈。
二項分佈和多項分佈很相似,beta分佈與狄利克雷分佈很相似,beta分佈是二項式分佈的共軛先驗概率分佈,而狄利克雷分佈是多項分佈的共軛先驗概率分佈。
那麼,問題來了,什麼是共軛先驗分佈?

共軛先驗分佈(conjugacy prior)

共軛,就是我們選取一個函式作為似然函式(likelihood function)的prior probability distribution,使得後驗分佈函式(posterior distributions)和先驗分佈函式形勢一致。其中涉及到貝葉斯估計。根據貝葉斯規則,後驗分佈=似然函式*先驗分佈,分佈可以作為下一次計算的先驗分佈,如果形式相同,就可以形成一個鏈條,為了使先驗分佈與後驗分佈的形式相同,那麼就稱先驗分佈與似然函式是共軛的,即共軛指的是先驗分佈與似然函式。
簡單的理解:用二項分佈的共軛先驗概率分佈來說,先驗分佈X~Beta(α,β)變成了X~beta(α+s,β+f), 如果有新增的觀測值,那麼該後驗分佈又可以作為先驗分佈乘以似然函式來計算。得到修正後的新後驗分佈,如果新舊分佈的形式一致,那麼就可以看作是共軛的。大致就是這個意思。

LDA的Gibbs Sampling推導

unigram假設

unigram假設其實簡單的理解就是詞袋模型
文件的生成可以用投骰子來模擬:
骰子有V個面,每個面代表一個詞,每個面的概率是p⃗ =(p1,p2,...,pv),投擲N次骰子每個面產生的次數分別是n⃗ =(n1,n2,...,nv) 次,然後計算生成語料庫的概率。
引入Dirichlet分佈作為多項分佈的先驗分佈,即文字單詞概率p⃗  ~ Dir(p⃗ |α

相關推薦

世界讓給鄙視

LDA主題模型 LDA 簡介 LDA模型:Latent Dirichlet Allocation是Blei 等人於2003年提出的基於概率模型的主題模型演算法,它是一種非監督機器學習技術,可以用來識別大規模文件集或預料庫中的潛在隱藏的主題資訊。

[轉載]不論為何,自己的24小時全部賣給工作

銀行 部分 信號 活動 模式 企業 應對 適合 行業 在矽谷、華爾街、倫敦和香港的很多企業中,員工工作超時屢見不鮮。管理者壓榨下屬成為常態,他們在節假日聯系員工,快下班時臨時安排工作。為了滿足上級要求,員工不得不早出晚歸、熬夜加班,周末也不得休息,必須全天候盯著電子設備。那

繼網際網路後,區塊鏈這場新風潮和機遇錯過!

  自2008年起,發展至今,比特幣和區塊鏈已經走過十年之久,到近兩年的熱度更是高漲不退。但你對“比特幣”、“區塊鏈”這些概念,是否還停留在“我聽過”“好像知道”的層面?   面對區塊鏈這場大風潮和極好的機遇,你不應該僅僅知道些許“皮毛”。   據Coininsider 10月3日報道,世界

27歲,30歲,37歲...... 是否已經世界拱手讓

23歲,他大學畢業,放棄了父母安排的穩定工作,一個人闖京城,進了一家小公司混了一個小職位,工作雖說順利,卻木有安全感,這個社會從不缺人才,公司隨時可能新人換舊人,於是,定目標,要做這一小撮人中最優秀的; 24歲,有了女朋友,從二環12人的集體宿舍搬到香山民居,一間平房,二人世界,相互攜手

除了AI,忽視Python這4大領域的應用!

藉著人工智慧的東風,Python在這兩年逐漸火了起來,Python在程式語言排行中的不斷攀升,不得不說有著人工智慧的很大功勞。憑藉Python簡潔易於上手的語法和豐富的擴充套件,Python在人工領域的應用越來越廣泛。 彷彿學了Python就會人工智慧,又彷彿要學習人工智慧就必須學習Python。

老生常談,安全上犯的錯!

網際網路專案裡邊,SQL注入漏洞、XSS漏洞和猜測URL攻擊這三個漏洞可謂歷史悠久,然而直到今天還有人不斷中槍,也真是微醺。 這幾個漏洞說大也大,說小也小。說大是說這些漏洞危害大,會導致資料層面的安全問題;說小是從技術層面上講都是未對外部輸入做處理導致的,想要做針對性地防範很簡單。下面簡單看看這些

要不要跳槽?接受公司挽留的九個原因

選擇決定了我們判斷的方向、答案以及結果,隨之而來的是我們選擇了一個即將經歷的過程,和對自己生活的影響,換工作就是我們人生中,非常重要的選擇。 在你猶豫要不要去新平臺的時候,領導說“李奮鬥我給你加薪”“希望你認真考慮一下不要著急決定”,這時候,猶豫非但沒有減輕反而更迷茫

就算是電商,應該為的電商朋友好好看看這篇文章

size gin 屬性 set 朋友 sdn 商務 通過 每天 典型案例場景:電商客服&倉庫協作管理用戶:天貓電商賣家-米詩緹娜客服-倉庫協作管理作為當今時代通過互聯網進行商品交易的電商服務,絕佳的購物體驗與完好的售後服務直接決定了其品牌價值。比起傳統的實體店來

網站建設公司前端外包出來,精辟

人才 資源 同時 企業 com 市場調查 前景 網站建設 形勢 如今的網站建設公司其實過的並不好,一些建站平臺、模板建站、仿站等都對網站定制造成了比較大的影響,網站建設公司如何降低用人成本、靈活的整合第三方資源成為度過“特殊時期”的重要手段,迎接下一波春天的到來。 網站建

想幹我幫——代理模式

www. 客戶端 因為遠程 分析 新的 ogg logs mes 其他 關鍵字:設計模式,代理模式,proxy,保護代理,虛擬代理,遠程代理,緩沖代理,智能引用代理 代理模式 代理模式:給某一個對象提供一個代理或占位符,並由代理對象來控制對原對象的訪問。 說白了,就

Kafka實踐:到底同類型的消息放在同一個主題中?

所有 是我 可能 兩個 follow 形式 解釋 特定 示例 Kafka 主題最重要的一個功能是可以讓消費者指定它們想要消費的消息子集。在極端情況下,將所有數據放在同一個主題中可能不是一個好主意,因為這樣消費者就無法選擇它們感興趣的事件——它們需要消費所有的消息。另一種極端

Kafka實踐:到底不同型別的訊息放在同一個主題中?

Kafka 主題最重要的一個功能是可以讓消費者指定它們想要消費的訊息子集。在極端情況下,將所有資料放在同一個主題中可能不是一個好主意,因為這樣消費者就無法選擇它們感興趣的事件——它們需要消費所有的訊息。另一種極端情況,擁有數百萬個不同的主題也不是一個好主意,因為

【天與雲與山與水,上下一白】越功利,世界越神祕

座右銘 時間並不會因為你的迷茫和遲疑而停留,就在你看這篇文章的同時,不知道有多少人在冥思苦想,在為演算法廢寢忘食,不知道有多少人在狂熱地拍著程式碼,不知道又有多少提交一遍又一遍地重新整理著OJ的status頁面…… 沒有誰生來就是神牛,而千里之行,始於足下!不積跬步,何

天與雲與山與水,上下一白(越功利,世界越神祕)

座右銘 時間並不會因為你的迷茫和遲疑而停留,就在你看這篇文章的同時,不知道有多少人在冥思苦想,在為演算法廢寢忘食,不知道有多少人在狂熱地拍著程式碼,不知道又有多少提交一遍又一遍地重新整理著OJ的status頁面…… 沒有誰生來就是神牛,而千里之行,始於足下!不積跬步,何

沒有成功之前沒有在乎的感受! 這個世界上也有許多,他們在乎的感受,這並非與是否成功有關係

這世界並不會在意你的自尊。 這世界指望你在自我感覺良好之前先要有所成就。 人生是不公平的,習慣去接受它吧 。 如果你覺得你的老闆很凶,等你當了老闆就知道了,老闆是沒有工作任期保障的。 站在鎂光燈下是墮落的,站在講臺上是墮落的;因為他們會讓你覺得,你比別人更聰明。

cookie、session和application都是些什麼神?——圖文加案例,不怕會,就怕

cookie、session和application都是些什麼神? 前言: 一直想寫一篇關於cookie和session的部落格,由於種種原因,一直沒有整理,這不,今天還就遇到問題了,之前雖然會,但是好久沒用又給忘了,結果還得查資料。是時候填坑了,閒話少說,開幹。   applic

走進設計模式的世界4:我,但是大家都我當成-工廠模式和抽象工廠模式

工廠模式和抽象工廠模式: 工廠方法模式:定義了一個建立物件的介面,但由子類決定要例項化的類是哪一個。工廠方法讓類把例項化推遲到之類。 抽象工廠模式:提供一個介面,用於建立相關或以來物件的家族,而不需要明確指定具體類。 解釋:工廠方法使用繼承把物件的建立交給之類,子類實現工廠方法來建立

上帝開的玩笑可怕,教怎麽丟失的聯系人數據找回

上帝開的玩笑不可怕,教你怎麽把丟失的聯系人數據找回 畢竟現在社會主要的交流溝通都交給了手機,微信,QQ以及最常用的電話,但是天有不測風雲,上帝總會和你開個玩笑,比如手機上的突發狀況,我們要怎麽去應對呢?通訊錄的丟失對大技啊來說是比較“致命”的,很多工作、學習、客

是說朝聞道夕死可矣嗎(如果發現了自己的學習模式,願意學並且能堅持,我覺得沒什麽能阻擋征服軟件世界的腳步),安曉輝大神的感悟

說我 服務器 摘錄 syn 給他 sync 外包 學習曲線 有限公司 從技術支持中途轉戰軟件開發,如今從事編程工作已十多有余,2014年CSDN博文大賽編程語言組冠軍、CSDN Qt論壇的版主安曉輝老師從今天開始,坐鎮CSDN社區問答欄目的 第十四期,屆時會接受廣大網友的提

周鴻祎在360新員工入職培訓上的講話(他們都是太聰明,自己混失敗了大家一定要記住,混日子就是在糜費自己的時間假設喜歡360,一定要盡快換,盡快找到自己喜歡的事情)

基礎 足夠 速度 content 美麗 人力資源 什麽 畢業生 畢業 摘要: 我想給新入職的同事講一講我的希冀,再提幾個建議。我這團體喜歡說真話,不喜歡說美麗話,由於美麗話沒用。但說真話,大家能夠不愛聽。 周鴻祎在360新員工入職培訓上的講話    我想給新入職的