【機器學習】python第三方模組lda包呼叫程式碼

阿新 • • 發佈：2019-01-04

# coding=utf-8
# !/usr/bin/env python
'''
【資料來源樣例】
詞語1 詞語2 詞語3 詞語4 詞語5 詞語6 詞語7 詞語8 詞語9
詞語1 詞語2 詞語3 詞語4 詞語5
詞語1 詞語2 詞語3 詞語4 詞語5 詞語6 詞語7
……
一行是一篇已切好詞的文字，詞語之間用空格分隔

【主要引數說明】
1.n_topics：主題個數，即需要將這些文字聚成幾類
2.n_iter：迭代次數

【程式輸出說明】
1.doc-topic分佈：即每篇文字屬於每個topic的概率，比如20個topic，那麼第一篇文字的doc-topic的分佈就是該文字屬於這20個
topic的概率（一共20個概率數字）
2.topic-word分佈：即每個topic內詞的分佈，包含這個詞的概率/權重
3.每個topic內權重最高的5個詞語
4.每篇文字最可能的topic
'''
import codecs
import collections
import numpy as np
import lda

#讀取已切好詞的語料庫所有詞語，去重
filePath = 'F:/getKeyWords/'
cutWordsFile = 'cutWordsFile.txt'   #語料庫檔案，其內一行是一個已切好詞的文字
wordSet = set()
for eachLine1 in codecs.open(filePath + cutWordsFile, 'r', 'utf-8'):
    lineList1 = eachLine1.split(' ')
    for i in range(len(lineList1)):
        wordSet.add(lineList1[i].strip())
wordList = list(wordSet)

#生成詞頻矩陣，一行一個文字，一列一個詞語，數值等於該詞語在當前文字中出現的頻次
# 矩陣行數=文字總數，矩陣列數=語料庫去重後詞語總數
#該矩陣是一個大的稀疏矩陣
wordMatrix = []
for eachLine2 in codecs.open(filePath + cutWordsFile, 'r', 'utf-8'):
    docWords = eachLine2.strip().split(' ')
    dict1 = collections.Counter(docWords)
    key1 = list(dict1.keys())
    r1 = []
    for i in range(len(wordList)):
        if wordList[i] in key1:
            r1.append(dict1[wordList[i]])
        else:
            r1.append(0)
    wordMatrix.append(r1)
X = np.array(wordMatrix)    #詞頻矩陣

#模型訓練
model = lda.LDA(n_topics = 10, n_iter = 50, random_state = 1)
model.fit(X)

#doc-topic分佈
print('==================doc:topic==================')
doc_topic = model.doc_topic_
print(type(doc_topic))
print(doc_topic.shape)
print(doc_topic)    #一行為一個doc屬於每個topic的概率，每行之和為1

#topic-word分佈
print('==================topic:word==================')
topic_word = model.topic_word_
print(type(topic_word))
print(topic_word.shape)
print(topic_word[:, :3])    #一行對應一個topic，即每行是一個topic及該topic下詞的概率分佈，每行之和為1

#每個topic內權重最高的5個詞語
n = 5
print('==================topic top' + str(n) + ' word==================')
for i, topic_dist in enumerate(topic_word):
    topic_words = np.array(wordList)[np.argsort(topic_dist)][:-(n+1):-1]
    print('*Topic {}\n-{}'.format(i, ' '.join(topic_words)))

#每篇文字最可能的topic
print('==================doc best topic==================')
txtNums = len(codecs.open(filePath + cutWordsFile, 'r', 'utf-8').readlines())   #文字總數
for i in range(10):
    topic_most_pr = doc_topic[i].argmax()
    print('doc: {} ,best topic: {}'.format(i, topic_most_pr))

'''
【程式執行結果如下】
==================doc:topic==================
<class 'numpy.ndarray'>
(6543, 10)
[[ 0.3137931   0.00344828  0.21034483 ...,  0.21034483  0.00344828
   0.00344828]
 [ 0.002       0.102       0.002      ...,  0.002       0.302       0.122     ]
 [ 0.58076923  0.00384615  0.00384615 ...,  0.35        0.00384615
   0.00384615]
 ...,
 [ 0.06        0.00285714  0.00285714 ...,  0.00285714  0.26        0.17428571]
 [ 0.05121951  0.00243902  0.19756098 ...,  0.73414634  0.00243902
   0.00243902]
 [ 0.003125    0.003125    0.003125   ...,  0.003125    0.003125    0.503125  ]]
==================topic:word==================
<class 'numpy.ndarray'>
(10, 14849)
[[  5.16569216e-07   5.16569216e-07   5.16569216e-07]
 [  4.88126565e-07   4.88126565e-07   4.88126565e-07]
 [  4.05227598e-07   4.05227598e-07   4.05227598e-07]
 [  4.64630254e-07   4.64630254e-07   4.64630254e-07]
 [  4.59569595e-07   4.59569595e-07   1.38330448e-04]
 [  5.04172278e-07   5.04172278e-07   5.04172278e-07]
 [  4.50724743e-07   4.50724743e-07   4.50724743e-07]
 [  5.32552540e-07   5.37878066e-05   5.32552540e-07]
 [  4.28183189e-07   4.28183189e-07   4.28183189e-07]
 [  4.11413842e-05   4.07340438e-07   4.07340438e-07]]
==================topic top5 word==================
*Topic 0
-5個詞（涉及具體業務，具體詞語已遮蔽，下同）
*Topic 1
-5個詞
*Topic 2
-5個詞
*Topic 3
-5個詞
*Topic 4
-5個詞
*Topic 5
-5個詞
*Topic 6
-5個詞
*Topic 7
-5個詞
*Topic 8
-5個詞
*Topic 9
-5個詞
==================doc best topic==================
doc: 0 ,best topic: 0
doc: 1 ,best topic: 3
doc: 2 ,best topic: 0
doc: 3 ,best topic: 9
doc: 4 ,best topic: 8
doc: 5 ,best topic: 1
doc: 6 ,best topic: 9
doc: 7 ,best topic: 5
doc: 8 ,best topic: 2
doc: 9 ,best topic: 3
'''

【機器學習】python第三方模組lda包呼叫程式碼

# coding=utf-8 # !/usr/bin/env python ''' 【資料來源樣例】詞語1 詞語2 詞語3 詞語4 詞語5 詞語6 詞語7 詞語8 詞語9 詞語1 詞語2 詞語3 詞語4 詞語5 詞語1 詞語2 詞語3 詞語4 詞語5 詞語6 詞語7 ……

【機器學習】Python 快速入門筆記

python 筆記基礎 Python 快速入門筆記Xu An 2018-3-7 1、Python print#在Python3.X中使用print（）進行輸出，而2.x中使用（）會報錯 print("hello world") print('I\'m a

王小草【機器學習】筆記--主題模型LDA實踐與應用

標籤（空格分隔）：王小草機器學習筆記筆記整理時間：2016年12月30日筆記整理者：王小草 1. LDA的實現工具在主題模型LDA的理論篇，長篇大幅的公式與推導也許實在煩心，也不願意自己去寫程式碼實現一遍的話，不妨用一用一些已經開源和

【機器學習】Python sklearn包的使用示例以及引數調優示例

# coding=utf-8 # !/usr/bin/env python ''''' 【說明】 1.當前sklearn版本0.18 2.sklearn自帶的鳶尾花資料集樣例：（1）樣本特徵矩陣（型別：numpy.ndarray） [[ 6.7 3. 5.2 2

【機器學習】決策樹演算法（二）— 程式碼實現

#coding=utf8 ‘’’ Created on 2018年11月4日 @author: xiaofengyang 決策樹演算法：ID3演算法 ‘’’ from sklearn.feature_extraction import DictVectorize

【機器學習】樸素貝葉斯基本介紹+程式碼實現

1. 基本概念根據先驗概率和似然函式來求後驗概率。一般用於分類任務。先驗概率：似然函式：後驗概率：根據條件獨立性假設：目標函式：即求解使後驗概率最大的類。訓練過程：即求各個單詞的條件概率，和類別的先驗概率。測試過程：根

【機器學習】--LDA初始和應用

alloc learn .get lis oca pat 文章 text 對應關系一、前述 LDA是一種非監督機器學習技術，可以用來識別大規模文檔集（document collection）或語料庫（corpus）中潛藏的主題信息。它采用了詞袋（bag of word

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進一、LSSVM 1、LSSVM用於迴歸 2、LSSVM模型的缺點二、WLSSVM的數學原理三、WLSSVM的python實現參

【機器學習】最小二乘法支援向量機LSSVM的數學原理與Python實現

【機器學習】最小二乘法支援向量機LSSVM的數學原理與Python實現一、LSSVM數學原理 1. 感知機 2. SVM 3. LSSVM 4. LSSVM與SVM的區別二、LSSVM的py

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

Apriopri演算法 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。

【機器學習】LDA（線性判別分析）或fisher判別分析

內容目錄：一、LDA/fisher判別分析二、LDA判別分析與PCA對比一、fisher判別分析 1.首先在模式識別課程上學習的是fisher判別，LDA概念是看川大同學寫的500問接觸的，兩者是一樣的東西。 2推薦：深度學習500問 github連結形式是問答形式，初學者概念

【機器學習】使用Python中的區域性敏感雜湊（LSH）構建推薦引擎

學習如何使用LSH在Python中構建推薦引擎; 一種可以處理數十億行的演算法你會學到：在本教程結束時，讀者可以學習如何：通過建立帶狀皰疹來檢查和準備LSH的資料選擇LSH的引數為LSH建立Minhash 使用LSH Query推薦會議論文使用LSH

【機器學習】使用Python的自然語言工具包（NLTK）對Reddit新聞標題進行情感分析

讓我們使用Reddit API獲取新聞標題並執行情感分析在我上一篇文章中，使用Python進行K-Means聚類，我們只是抓取了一些預編譯資料，但是對於這篇文章，我想更深入地瞭解一些實時資料。使用Reddit API，我們可以從各種新聞subreddit獲得成千上萬的

【機器學習】基於python對大資料量CSV進行操作

在我們日常學習之中，往往會遇到各種各樣的資料。但有時候其龐大的資料量，使得我們無法使用一般的辦公軟體進行操作，與此同時直接將所有資料取到記憶體之中，也有存在溢位的風險。所以，在這種情況下，採用逐行存取的方式對資料進行操作是十分必要的。本文簡單的使用python最為基礎的函式實

【機器學習演算法-python實現】決策樹-Decision tree（1）資訊熵劃分資料集

1.背景決策書演算法是一種逼近離散數值的分類演算法，思路比較簡單，而且準確率較高。國際權威的學術組織，資料探勘國際會議ICDM （the IEEE International Con

【機器學習】C++與OpenCV、Tensorflow-python聯合呼叫

　　上一篇我介紹了C++呼叫Python的入門方法。這一篇我講述C++與OpenCV、Tensorflow-python聯合呼叫的一次成功的實驗過程。　　C++通過python呼叫tensorflow，比呼叫C++版本的tensorflow的優勢在於：ten

【機器學習】5種距離度量方法詳解+Python實現([]+lambda+np.frompyfunc+向量法等多種方法實現)

介紹的五種距離度量方法是：歐氏距離(Euclidean Distance)，曼哈頓距離(Manhattan Distance)，夾角餘弦(Angle Cosine)，切比雪夫距離(Chebyshev Distance)，漢明距離(Hamming Distance)。1.歐式距

【機器學習演算法-python實現】KNN-k近鄰演算法的實現（附原始碼）

下載地址 kNN演算法及例項原始碼實現#coding=utf-8 ''' Created on Sep 16, 2010 kNN: k Nearest Neighbors Input: inX: vector to compare to existing dataset (1xN)

【機器學習演算法-python實現】邏輯迴歸的實現(LogicalRegression)

1.背景知識在剛剛結束的天貓大資料s1比賽中，邏輯迴歸是大家都普遍使用且效果不錯的一種演算法。（1）迴歸先來說說什麼是迴歸，比如說我們有兩類資料，各有50十個點組成，當我門把這些點畫出

【機器學習演算法-python實現】svm支援向量機(3)—核函式

1.背景知識前面我們提到的資料集都是線性可分的，這樣我們可以用SMO等方法找到支援向量的集合。然而當我們遇到線性不可分的資料集時候，是不是svm就不起作用了呢？這裡用到了一種方法叫做核函式，它將低

【機器學習】python第三方模組lda包呼叫程式碼

相關推薦