自然語言（NLP）處理流程—IF-IDF統計—jieba分詞—Word2Vec模型訓練使用

阿新 • • 發佈：2018-12-11

開發環境 jupyter notebook

一、資料感知—訓練與測試資料

import numpy as np
import pandas as pd

# 建立輸出目錄
output_dir = u'output_word2vec'    
import os
if not os.path.exists(output_dir):
    os.mkdir(output_dir) 

# 檢視訓練資料
train_data = pd.read_csv('data/sohu_train.txt', sep='\t', header=None, 
                         dtype= 
np.str_, encoding='utf8', names=[u'頻道', u'文章'])
train_data.head()

# 檢視每個頻道下文章數量
train_data.groupby(u'頻道')[u'頻道'].count() 

# 檢視每個頻道下最短、最長文章字數
train_data[u'文章長度'] = train_data[u'文章'].apply(len)
train_data.groupby(u'頻道')[u'文章長度'].agg([np.min, np.max])

$~~~~$	頻 $~~$ 道	文章
0	娛樂	《青蛇》造型師預設新《紅樓夢》額妝抄襲（圖）凡是看過電影《青蛇》的人，都不會忘記青白二蛇的…
1	娛樂	６．１６日劇榜　＜最後的朋友＞　亮最後殺招成功登頂《最後的朋友》本週的電視劇排行榜單依然只…
2	娛樂	超乎想象的好看《納尼亞傳奇２：凱斯賓王子》現時資訊如此發達，搜狐電影評審團幾乎人人在沒有看…
3	娛樂	吳宇森：赤壁大戰不會出現在上集 “希望《赤壁》能給你們不一樣的感覺。”對於自己剛剛拍完的影片…
4	娛樂	組圖：《多情女人痴情男》陳浩民現場耍寶陳浩民：外面的朋友大家好，現在是搜狐現場直播，歡迎《…

# 檢視測試資料
test_data = pd.read_csv('data/sohu_test.txt', sep='\t', header=None, 
                        dtype= 
np.str_, encoding='utf8', names=[u'頻道', u'文章'])
test_data.head() 

# 檢視每個頻道下文章數量
test_data.groupby(u'頻道')[u'頻道'].count()

# 檢視每個頻道下最短、最長文章字數
test_data[u'文章長度'] = train_data[u'文章'].apply(len)
test_data.groupby(u'頻道')[u'文章長度'].agg([np.min, np.max])

# 載入停用詞
stopwords = set()
with open('data/stopwords.txt', 'rb') as infile:
    for line in infile:
        line = line.decode('utf8').rstrip('\n')
        if line:
            stopwords.add(line.lower())

二：文件分詞（精確—全—搜尋引擎模式）—詞性標註

2.1 三種不同分詞方式

import jieba                 # 載入jieba分詞包

text = u'小明碩士畢業於中國科學院計算所，後在日本京都大學深造'

"""
精確模式：   試圖將句子最精確的分開，適合文字分析
            jieba.lcut，結果返回一個列表
            jieba.cut，結果返回一個迭代器 

全模式：     把句子中所有可以成詞的詞語都掃描出來，速度非常快，但是不能解決歧義 

搜尋引擎模式：在精確模式的基礎上對長詞再次切分，適合用於搜尋引擎分詞
"""

print (u'精確模式分詞: ' + u'/'.join(jieba.lcut(text))) 
print (u'全模式分詞: ' + u'/'.join(jieba.lcut(text, cut_all=True)))
print (u'搜尋引擎模式: ' + u'/'.join(jieba.lcut_for_search(text)))
--------------------------------------------------------------------
依次輸出：
精確模式分詞: 小明/碩士/畢業/於/中國科學院/計算所/，/後/在/日本京都大學/深造 

全模式分詞:  小/明/碩士/畢業/於/中國/中國科學院/科學/科學院/學院/計算/計算所///
           後/在/日本/日本京都大學/京都/京都大學/大學/深造 

搜尋引擎模式: 小明/碩士/畢業/於/中國/科學/學院/科學院/中國科學院/計算/計算所/，
            /後/在/日本/京都/大學/日本京都大學/深造

2.2 詞性標註

from jieba import posseg as psg          # 載入詞性標註模組

text = u'小明碩士畢業於中國科學院計算所，後在日本京都大學深造'
"""
	jieba.posseg.lcut 進行詞性標註
	結果為 jieba.posseg.pair 型別的列表
	每個pair物件中，word屬性表示詞語，flag表示詞性
	詞性符合的解釋可見：https://gist.github.com/luw2007/6016931
"""

res = psg.lcut(text)
print ('repr: ' + repr(res[0]))
print ('詞: {}, 詞性: {}'.format(res[0].word, res[0].flag))
print ('詞性標註: ' + ' '.join(['{}/{}'.format(x.word, x.flag) for x in res]))
---------------------------------------------------------------------------------
輸出：
repr:  pair('小明', 'nr')
詞: 小明, 詞性: nr
詞性標註: 小明/nr 碩士/n 畢業/n 於/p 中國科學院/nt 計算所/n ，/x 後在/t 日本京都大學/nt 深造/v

三、用 TF-IDF 和詞袋錶示文件特徵

import jieba
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer, TfidfVectorizer 

contents = [u'小明喜歡看電影，小紅也喜歡看電影。',u'小明還喜歡看足球比賽。']
stopwords = {u'，', u'。'}     # 定義【，。】為停用詞

3.1 方法一：使用 CounterVectorizer 和 TfidfTransformer 計算 TF-IDF

"""
	計算TF（每個詞的出現次數，未歸一）
	tokenizer: 定義一個函式，接受文字，返回分詞的list
	stop_words: 定義停用詞詞典，會在結果中刪除詞典中包含的詞
"""

tf = CountVectorizer(tokenizer=jieba.lcut, stop_words=stopwords)
res1 = tf.fit_transform(contents)        # 使用函式擬合轉置contents
tf.vocabulary_                           # 檢視詞彙對應關係 
 
pd.DataFrame(res1.toarray(),             # 檢視TF結果
             columns=[x[0] for x in sorted(tf.vocabulary_.items(),
                                           key=lambda x: x[1])]) 
# 檢視TF結果如下表：

$~~$	也	喜歡	小明	小紅	電影	看	足球比賽	還
0	1	2	1	1	2	2	0	0
1	0	1	1	0	0	1	1	1

"""
	use_idf:      表示在TF矩陣的基礎上計算IDF，並相乘得到TF-IDF
	smooth_idf:   表示計算IDF時，分子上的總文件數+1
	sublinear_tf: 表示使用 1+log(tf)替換原來的tf
	norm:         表示對TF-IDF矩陣的每一行使用l2範數歸一化
"""

tfidf = TfidfTransformer(norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False)
res2 = tfidf.fit_transform(res1) 

tfidf.idf_                                # 檢視每個詞的IDF
pd.DataFrame(res2.toarray(), 
             columns=[x[0] for x in sorted(tf.vocabulary_.items(), 
                                           key=lambda x: x[1])]) 
# 檢視TF-IDF結果如下表：

$~$	也	喜歡	小明	小紅	電影	看	足球比賽	還
0	0.307784	0.437982	0.218991	0.307784	0.615568	0.437982	0.000000	0.000000
1	0.000000	0.379303	0.379303	0.000000	0.000000	0.379303	0.533098	0.533098

3.2 方法二：直接使用 TfidfVectorizer

# 引數為 CounterVectorizer 和 TfidfTransformer 的所有引數
tfidf = TfidfVectorizer(tokenizer=jieba.lcut,
                        stop_words=stopwords, 
                        norm='l2', 
                        use_idf=True, 
                        smooth_idf=True, 
                        sublinear_tf=False)
res = tfidf.fit_transform(contents) 


tfidf.idf_                 # 檢視每個詞的IDF，順序和 tfidf.vocabulary_ 對應（ndarray型別）
tfidf.vocabulary_          # 檢視每一列所代表的詞（字典）
輸出：{'也': 0, '喜歡': 1, '小明': 2, '小紅': 3, '電影': 4, 
       '看': 5, '足球比賽': 6, '還': 7} 

pd.DataFrame({'詞': [x[0] for x in sorted(tfidf.vocabulary_.items(),key=lambda x: x[1])],
              'IDF': tfidf.idf_}, columns=['詞', 'IDF']) 
輸出：
|      | 詞       | IDF      |
| ---- | -------- | -------- |
| 0    | 也       | 1.405465 |
| 1    | 喜歡     | 1.000000 |
| 2    | 小明     | 1.000000 |
| 3    | 小紅     | 1.405465 |
| 4    | 電影     | 1.405465 |
| 5    | 看       | 1.000000 |
| 6    | 足球比賽  | 1.405465 |
| 7    | 還       | 1.405465 | 

pd.DataFrame(res.toarray(),
             columns=[x[0] for x in sorted(tfidf.vocabulary_.items(), 
                                           key=lambda x: x[1])])

$~~~$	也	喜歡	小明	小紅	電影	看	足球比賽	還
0	0.307784	0.437982	0.218991	0.307784	0.615568	0.437982	0.000000	0.000000
1	0.000000	0.379303	0.379303	0.000000	0.000000	0.379303	0.533098	0.533098

四、jieba 分詞

import jieba
article_words = []

for article in train_data[u'文章']:         # 遍歷每篇文章
    curr_words = []
    for word in jieba.cut(article):         # 遍歷文章中的每個詞並分詞
        if word not in stopwords:           # 去除停用詞
            curr_words.append(word)
    article_words.append(curr_words) 

# 分詞結果儲存到seg_word_file.txt檔案
seg_word_file = os.path.join(output_dir, 'seg_words.txt')
with open(seg_word_file, 'wb') as outfile:
    for words in article_words:
        outfile.write(u' '.join(words).encode('utf8') + '\n')
print (u'分詞結果儲存到檔案：{}'.format(seg_word_file))

五、訓練word2vec模型

from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence 

# 建立一個句子迭代器，一行為一個句子，詞和詞之間用空格分開
# 這裡我們把一篇文章當作一個句子
sentences = LineSentence(seg_word_file) 
"""
	訓練word2vec模型 引數說明：
		sentences: 包含句子的list，或迭代器
		size:      詞向量的維數，size越大需要越多的訓練資料，同時能得到更好的模型
		alpha:     初始學習速率，隨著訓練過程遞減，最後降到 min_alpha
		window:    上下文視窗大小，即預測當前這個詞的時候最多使用距離為window大小的詞
		max_vocab_size: 詞表大小，如果實際詞的數量超過了這個值，過濾那些頻率低的
		workers:   並行度
		iter:      訓練輪數
		min_count: 忽略出現次數小於該值的詞
"""

model = Word2Vec(sentences=sentences, size=100, iter=10, min_count=20)

# 儲存模型
model_file = os.path.join(output_dir, 'model.w2v')
model.save(model_file)

5.1 word2vec模型的使用

# 讀取模型 
model2 = Word2Vec.load(model_file)     

# 查詢語義相近的詞
def invest_similar(*args, **kwargs):
    res = model2.most_similar(*args, **kwargs)
    print u'\n'.join([u'{}:{}'.format(x[0], x[1]) for x in res]) 
invest_similar(u'攝影', topn=1)
	"""
		女人 + 先生 - 男人 = 女士
		先生 - 女士 = 男人 - 女人，這個向量的方向就代表了性別!
	"""
invest_similar(positive=[u'女人', u'先生'], negative=[u'男人'], topn=1)

# 計算兩個詞的相似度
model2.similarity(u'攝影', u'攝像') 

# 查詢某個詞的詞向量
model2[u'攝影']

自然語言（NLP）處理流程—IF-IDF統計—jieba分詞—Word2Vec模型訓練使用

開發環境 jupyter notebook 一、資料感知—訓練與測試資料 import numpy as np import pandas as pd # 建立輸出目錄 output_dir =

【自然語言處理】python中的jieba分詞使用手冊

這篇文章是轉載的，但是我沒找到出處啊，宣告一下～ jieba “結巴”中文分詞：做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to b

文字處理（二）詞頻統計,jieba分詞，詞性標註，snownlp情感分析

這一篇接著上一篇處理後的資料進行操作，按照（一）中的步驟，這事應該將文字資料每一行中的高頻的正面詞去掉，因為多數是描述身體健康的短句，只有少數是描述脾臟檢查異常的，所以嘗試刪除掉描述身體健康的短句，只留下少數檢查異常的資料，對異常的檢查資料進行特徵提取，這是思路。所以這一篇目

資料探勘文字分類（二）蒐集中文語料庫與ICTCLAS分詞

在上一篇部落格中簡單介紹了實驗環境和流程，這一篇我們繼續。第一步，下載搜狗中文語料庫。連結：http://www.sogou.com/labs/dl/c.html 我們下載

關於自然語言處理（NLP）的個人學習資料

個人研究的各種亂七八糟無聊資料~：深入看過的論文：連結：https://pan.baidu.com/s/19mlS8eSY8vbzr96FPYfOvw 提取碼：vy3o 期待深入看的論文連結：https://pan.baidu.com/s/1-OT3c-x

自然語言處理（NLP）——分詞統計可能用到的模組方法

一、itertools.chain( *[ ] ) import itertools a= itertools.chain(['a','aa','aaa']) b= itertools.chain(

自然語言處理（NLP）- HMM+VITERBI演算法實現詞性標註（解碼問題）（動態規劃）（Python實現）

NLP- HMM+維特比演算法進行詞性標註（Python實現）維特比演算法針對HMM解碼問題，即解碼或者預測問題（下面的第二個問題），尋找最可能的隱藏狀態序列：對於一個特殊的隱馬爾可夫模型(HMM)及一個相應的觀察序列，找到生成此序列最可能的隱藏狀態序列。也就是說

Python 自然語言處理（NLP）工具庫彙總

6.spaCy 這是一個商業的開源軟體。結合了Python 和Cython 優異的 NLP 工具。是快速的，最先進的自然語言處理工具。網站：安裝： pip install spacy 7.Polyglot Polyglot 支援大規模多語言應用程式的處理。它支援165種語言的分詞，196中語言的辨識，

Pytext：Facebook基於PyTorch的自然語言處理（NLP）開源框架

自然語言處理(NLP)在現代深度學習生態中越來越常見。從流行的深度學習框架到雲端API的支援，例如Google雲、Azure、AWS或Bluemix，NLP是深度學習平臺不可或缺的部分。儘管已經取得了令人難以置信的進步，但構建大規模的NLP應用依然還有極大的挑戰，在學習研究和生產部署之間還存在很多摩擦。作為當

自然語言處理（NLP）常用開源工具總結----不定期更新

學習自然語言這一段時間以來接觸和聽說了好多開源的自然語言處理工具，在這裡做一下彙總方便自己以後學習，其中有自己使用過的也有了解不是很多的，對於不甚瞭解的工具以後學習熟悉了會做更新的。 1.IKAnalyzer IK Analyzer是一個開源的，基於Jav

不是你無法入門自然語言處理（NLP），而是你沒找到正確的開啟方式

AI研習社按：本文作者 Mr.Scofield，原文載於作者個人部落格，雷鋒網已獲授權。〇、序之前一段時間，在結合深度學習做 NLP 的時候一直有思考一些問題，其中有一個問題算是最核心一個：究竟深度網路是怎麼做到讓各種 NLP 任務解決地如何完美呢？到底我的資料在

自然語言處理技術（NLP）在推薦系統中的應用

作者：張相於，58集團演算法架構師，轉轉搜尋推薦部負責人，負責搜尋、推薦以及演算法相關工作。多年來主要從事推薦系統以及機器學習，也做過計算廣告、反作弊等相關工作，並熱衷於探索大資料和機器學習技術在其他領域的應用實踐。責編：何永燦（[email

Python自然語言處理（NLP）工具小結

Python 的幾個自然語言處理工具自然語言處理（Natural Language Processing，簡稱NLP）是人工智慧的一個子域。自然語言處理的應用包括機器翻譯、情感分析、智慧問答、資訊提取、語言輸入、輿論分析、知識圖譜等方面。也是深度學習的一個分

聊天機器人（chatbot）終極指南：自然語言處理（NLP）和深度機器學習（Deep Machine Learning）

為了這份愛在過去的幾個月中，我一直在收集自然語言處理（NLP）以及如何將NLP和深度學習（Deep Learning）應用到聊天機器人（Chatbots）方面的最好的資料。時不時地我會發現一個出色的資源，因此我很快就開始把這些資源編製成列表。不久，我就

自然語言處理（NLP）知識結構總結

作者簡介：小郭，計算機專業在讀碩士研究生，AI學習與愛好者，歡迎交流，留言或者郵箱[email&

自然語言處理（NLP）的基本原理及應用

本文由Markdown語法編輯器編輯完成。自然語言處理要解決的主要問題有：（1）垃圾郵件識別（2）中文輸入法（3）機器翻譯（4）自動問答、客服機器人這裡簡單羅列了一些NLP的常見

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

python中文分詞方法之基於規則的中文分詞目錄常見中文分詞方法推薦中文分詞工具參考連結一、四種常見的中文分詞方法：基於規則的中文分詞基於統計的中文分詞深度學習中文分詞混合分詞方法基於規則的中

利用Tensorflow進行自然語言處理（NLP）系列之二高階Word2Vec

一、概述在上一篇中，我們介紹了Word2Vec即詞向量，對於Word Embeddings即詞嵌入有了些基礎，同時也闡述了Word2Vec演算法的兩個常見模型：Skip-Gram模型和CBOW模型，本篇會對兩種演算法做出比較分析並給出其擴充套件模型-GloVe模型。

淺談自然語言處理（NLP）和自然語言理解（NLU）

自然語言處理主要步驟包括： 1. 分詞（只針對中文，英文等西方字母語言已經用空格做好分詞了）：將文章按片語分開 2. 詞法分析：對於英文，有詞頭、詞根、詞尾的拆分，名詞、動詞、形容詞、副詞、介詞的定性，多種詞意的選擇。比如DI

1.自然語言處理（NLP）與Python

自然語言工具包（NLTK） NLTK 創建於 2001 年，最初是賓州大學計算機與資訊科學系計算語言學課程的一部分。從那以後，在數十名貢獻者的幫助下不斷髮展壯大。如今，它已被幾十所大學的課程所採納，並作為許多研究專案的基礎。NLTK模組及功能介紹如下：

自然語言（NLP）處理流程—IF-IDF統計—jieba分詞—Word2Vec模型訓練使用

一、資料感知—訓練與測試資料

二：文件分詞（精確—全—搜尋引擎模式）—詞性標註

2.1 三種不同分詞方式

2.2 詞性標註

三、用 TF-IDF 和詞袋錶示文件特徵

3.1 方法一：使用 CounterVectorizer 和 TfidfTransformer 計算 TF-IDF

3.2 方法二：直接使用 TfidfVectorizer

四、jieba 分詞

五、訓練word2vec模型

5.1 word2vec模型的使用

相關推薦