希婆郵件主題抽取-----LDA模型應用

阿新 • • 發佈：2018-11-11

在這裡插入圖片描述

程式碼例項：
1、匯入庫和檔案

import numpy as np
import pandas as pd
import re
from gensim import corpora,models,similarities
from nltk.corpus import stopwords


df = pd.read_csv('H:/HillaryEmails.csv')
df = df[['Id','ExtractedBodyText']].dropna()

2、文字處理

'''
文字預處理
'''
def clean_email_text(text):
    text = text.replace('\n',' ')           #去掉換行符
    text = re.sub("-"," ",text)             #用空格替換掉‘-’
    text = re.sub(r"\d+/\d+/\d+"," " ,text)  #去掉日期資料
    text = re.sub(r"[0-2]?[0-9]:[0-6][0-9]", "", text)  # 時間，沒意義
    text = re.sub(r"[\w] 
[email protected][\.\w]+", "", text)  # 郵件地址，沒意義
    text = re.sub(r"/[a-zA-Z]*[:\//\]*[A-Za-z0-9\-_]+\.+[A-Za-z0-9\.\/%&=\?\-_]+/i", "", text)  # 網址，沒意義
    pure_text = ''
    # 以防還有其他特殊字元（數字）等等，我們直接把他們loop一遍，過濾掉
    for letter in text:
        # 只留下字母和空格
        if letter.isalpha() or letter == ' ':
            pure_text += letter
    # 再把那些去除特殊字元後落單的單詞，直接排除。
    # 我們就只剩下有意義的單詞了。
    text = ' '.join(word for word in pure_text.split() if len(word) > 1)
    return text

docs = df['ExtractedBodyText']
docs=docs.apply(lambda s:clean_email_text(s))

3構建模型

'''
利用gensim構建模型
    1、從nltk.corpus匯入停止詞表，分詞
    2、構建語料庫
'''
doclist = docs.values

#去停止詞
words = stopwords.words('english')          #!!!記得去停止詞需要加上這句
texts = [[word for word in doc.lower().split() if word not in words] for doc in doclist]

#構建語料庫，此處使用詞袋模式
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
# print(corpus[0])
# [(0, 3), (1, 2), (2, 1), (3, 2), (4, 1), (5, 2), (6, 2), (7, 2), (8, 1), (9, 1), (10, 1), (11, 3), (12, 1)]
# (0,3)代表0號詞出現三次，以此類推

lda = models.ldamodel.LdaModel(corpus = corpus,id2word=dictionary,num_topics=20)
#lda.print_topic(10, topn=5)                         #某一個分類中最常出現的單詞
# print(lda.print_topics(num_topics=20,num_words=5))  #輸出所有分類和其常出現的單詞

4 測試

'''
通過
lda.get_document_topics(bow)
或者
lda.get_term_topics(word_id)
兩個方法，我們可以把新鮮的文字/單詞，分類成20個主題中的一個。
但是注意，我們這裡的文字和單詞，都必須得經過同樣步驟的文字預處理+詞袋化，也就是說，變成數字表示每個單詞的形式
'''

text1= 'We have still have not shattered that highest and hardest glass ceiling. But some day, someone willTo Barack and Michelle Obama, our country owes you an enormous debt of gratitude. We thank you for your graceful, determined leadership'
text1=clean_email_text(text1)
text1 = [word for word in text1.lower().split() if word not in words]
text1_bows = dictionary.doc2bow(text1)
print(lda.get_document_topics(text1_bows))
#[(0, 0.52221924), (2, 0.1793758), (9, 0.13047828), (15, 0.12792665)]

LDA原理講解參考：https://blog.csdn.net/v_july_v/article/details/41209515

希婆郵件主題抽取-----LDA模型應用

程式碼例項： 1、匯入庫和檔案 import numpy as np import pandas as pd import re from gensim import corpora,models,similarities from nltk.corpus import

LDA模型應用實踐-希拉裏郵件主題分類

pan not num logs div 把他 2-2 rac mail #coding=utf8 import numpy as np import pandas as pd import re from gensim import corpora, models, s

主題模型TopicModel：主題模型LDA的應用

主題模型LDA的應用拿到這些topic後繼續後面的這些應用怎麼做呢：除了推斷出這些主題，LDA還可以推斷每篇文章在主題上的分佈。例如，X文章大概有60%在討論“空間探索”，30%關於“電腦”，10%關於其他主題。這些主題分佈可以有多種用途：聚類：主題是聚類中心，文章和多個類

文字主題抽取：用gensim訓練LDA模型

得知李航老師的《統計學習方法》出了第二版，我第一時間就買了。看了這本書的目錄，非常高興，好傢伙，居然把主題模型都寫了，還有pagerank。一路看到了馬爾科夫蒙特卡羅方法和LDA主題模型這裡，被打擊到了，滿滿都是數學公式。LDA是目前為止我見過最複雜的模型了。找了培訓班的視訊看，對LDA模型有了大致的認識

Familia：百度NLP開源的中文主題模型應用工具包

ica 用戶 font 文本內容分析 adb 文本相似度表示 2.0 wiki 參考：Familia的Github項目地址、百度NLP專欄介紹 Familia 開源項目包含文檔主題推斷工具、語義匹配計算工具以及基於工業級語料訓練的三種主題模型：Latent Dir

自然語言處理--LDA主題聚類模型

src 隨機 pos 一個改變筆記整體應該定性 LDA模型算法簡介：算法的輸入是一個文檔的集合D={d1, d2, d3, ... , dn}，同時還需要聚類的類別數量m；然後會算法會將每一篇文檔 di 在所有Topic上的一個概率值p；這樣每篇

使用gensim中的lda模型訓練主題分佈

一直在尋找各種大神的LDA演算法，不過除錯一直沒有成功，最後還是選擇使用gensim的LDA工具來訓練自己的文字資料吧。 #coding=utf-8 import codecs from gensi

python下進行lda主題挖掘(二)——利用gensim訓練LDA模型

到2018年3月7日為止，本系列三篇文章已寫完，可能後續有新的內容的話會繼續更新。本篇是我的LDA主題挖掘系列的第二篇，介紹如何利用gensim包提供的方法來訓練自己處理好的語料。 gensim提供了多種方法：速度較慢的：

先驗分布：（三）Dirichlet分布的應用——LDA模型

重復應用設定概率 bubuko 詞匯表自然語言不同分析 LDA(Latent Dirichlet Allocation)模型是Dirichlet分布的實際應用。在自然語言處理中，LDA模型及其許多延伸主要用於文本聚類、分類、信息抽取和情感分析等。例

軟件工程過程第4章瀑布模型應用實例

系統設計負責人 color 準備工作準備結構輸出有效報告 1.Infosys 過程模型如下圖所示：P82 包括需求規範、高層設計、詳細設計、構建、單元測試、集成測試計劃、集成測試、系統測試計劃、系統測試、文檔化、驗收測試、安裝和維護支持。

HTML學習筆記 w3sCss盒子模型應用第十一節（原創）

.com foo margin images href ack har htm com <!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> &l

三、類模型-應用設計原則和設計模式

信用卡動態衡量跟著定義判斷類關系購物 png 精雕細琢,設計良好的類與類關系【設計原則】無論項目開發流程用哪種模式，瀑布、叠代、螺旋、敏捷等。只要是面向對象設計，都應該應用設計原則以提高設計質量設計SOLID原則： 1.設計原則有什麽用? 設計

R語言社區主題檢測算法應用

ans 通過獲取 nag line lda public industry 傳播使用R檢測相關主題的社區創建主題網絡對於Project Mosaic，我正在通過分析抽象文本和共同作者社交網絡來研究UNCC在社會科學和計算機和信息學方面的出版物。我遇到的一個問

LDA模型數據的可視化

好的 strip pan remove 從大到小 ems open 可視化 except 1 """ 2 執行lda2vec.ipnb中的代碼 3 模型LDA 4 功能：訓練好後模型數據的可視化 5 """ 6 7 from lda

Python：電商產品評論數據情感分析，jieba分詞，LDA模型

數據分析 blank sdn github author roc dem pfile 軟件本節涉及自然語言處理（NLP），具體涉及文本數據采集、預處理、分詞、去停用詞、詞頻分析、LDA主題模型代碼部分 1 # -*- coding: utf-8 -*- 2 """

Java mail 傳送郵件主題（標題）亂碼

最近開發遇到Javamail 傳送郵件標題亂碼問題，騰訊、網易郵箱不會亂碼，阿里郵箱標題則會亂碼。解決辦法： String subject = MimeUtility.encodeWord(mailEntity.getMailSubject(), "UTF-8", "Q");

機器學習——《LDA模型分析》理解

一：LDA的應用方向： 1 資訊的提取和搜尋 2文件的分類、聚類文章的摘要、社群資料探勘 3基於影象的聚類、目標識別 4 生物資訊資料的應用二：LDA涉及到主要問題： 1共軛先驗分佈 2Dirichlet分佈

zeromq經典模型應用

ZeroMQ 簡稱 ZMQ，是一個簡單好用的傳輸層，像框架一樣的一個 socket library，他使得 Socket 程式設計更加簡單、簡潔和效能更高.官網地址：http://zguide.zeromq.org/page:all 與 RabbitMQ 相比，ZMQ 並不

Python【極簡】中文LDA模型

完整程式碼 from gensim import corpora, models import jieba.posseg as jp # 待分析文字集 text1 = '美國教練坦言，沒輸給中國女排，是輸給了郎平' text2 = '中國女排世界排名第一？真實

gensim 使用三 LDA模型使用

1、語料的處理：通過corpora.Dictionary把原始文字資料轉為字典。將用字串表示的文件轉換為用id表示的文件向量。因為輸入資料為csv中的一列資料，故先進行預處理使其變為train[]樣式的資料。 stopwords = [line.strip() for line in op

希婆郵件主題抽取-----LDA模型應用

相關推薦