python資料分析-文字相似度分析

阿新 • • 發佈：2018-12-30

由於本文設計較多知識點，在編寫程式碼之前需要搞清楚這些知識點的含義。

1。知識點解釋

Gensim是一款開源的第三方Python工具包，用於從原始的非結構化的文字中，無監督地學習到文字隱層的主題向量表達。它支援包括TF-IDF，LSA，LDA，和word2vec在內的多種主題模型演算法，支援流式訓練，並提供了諸如相似度計算，資訊檢索等一些常用任務的API介面。
gensim 以“文集”——文字文件的集合——作為輸入，並生成一個“向量”來表徵該文集的文字內容，從而實現語義挖掘。
TF-IDF.對於提取一篇文章的關鍵詞，如果某個詞很重要，它應該在這篇文章中多次出現。於是，我們進行”詞頻”（Term Frequency，縮寫為TF）統計。現次數最多的詞是—-“的”、”是”、”在”—-這一類最常用的詞。它們叫做”停用詞”（stop words），表示對找到結果毫無幫助、必須過濾掉的詞。而對於我們需要的關鍵詞，例如對於上篇博文中的《豐乳肥臀》，出現最多的前十個詞中包括如：上官，女人，一個，地說，母親。顯然對於關鍵詞：一個，地說，對反應文章的特性並沒有其餘幾個好，這時，就是在詞頻的基礎上，要對每個詞分配一個”重要性”權重。最常見的詞（”的”、”是”、”在”）給予最小的權重，較常見的詞（”一個”）給予較小的權重，較少見的詞（”上官”、”女人”）給予較大的權重。這個權重叫做”逆文件頻率”（Inverse Document Frequency，縮寫為IDF），它的大小與一個詞的常見程度成反比。知道了”詞頻”（TF）和”逆文件頻率”（IDF）以後，將這兩個值相乘，就得到了一個詞的TF-IDF值。某個詞對文章的重要性越高，它的TF-IDF值就越大。

+1為了防止分母出現0。瞭解了TF-IDF之後，又出現了新的詞：語料庫。參考一
語料庫（corpus）。理論上語料越大越好，百度百科的解釋：⒈語料庫中存放的是在語言的實際使用中真實出現過的語言材料，因此例句庫通常不應算作語料庫；⒉語料庫是承載語言知識的基礎資源，但並不等於語言知識；⒊真實語料需要經過加工（分析和處理），才能成為有用的資源。
餘弦相似性。簡單的說，對於要要計算相似度的兩個句子，步驟：分詞-計算詞頻-將詞頻寫成向量形式-計算向量相似程度（向量夾角）。
計算方式如下：

假定a向量是[x1, y1]，b向量是[x2, y2]，那麼可以將餘弦定理改寫成下面的形式。

餘弦的這種計算方法對n維向量也成立。假定A和B是兩個n維向量，A是 [A1, A2, …, An] ，B是 [B1, B2, …, Bn] ，則A與B的夾角θ的餘弦等於：

餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，這就叫”餘弦相似性”。

參考

所以，對於要計算的兩篇文章的相似度：
（1）使用TF-IDF演算法，找出兩篇文章的關鍵詞；
（2）每篇文章各取出若干個關鍵詞（比如20個），合併成一個集合，計算每篇文章對於這個集合中的詞的詞頻（為了避免文章長度的差異，可以使用相對詞頻）；
（3）生成兩篇文章各自的詞頻向量；
（4）計算兩個向量的餘弦相似度，值越大就表示越相似。

2。程式碼

#！／user/bin/env python
#-*- coding:utf-8 -*-
#author:M10
import jieba
from 
 gensim import corpora,models,similarities
from collections import defaultdict
doc1 = '/Users/wangxingfan/Desktop/doc1.txt'
doc2 = '/Users/wangxingfan/Desktop/doc2.txt'
d1 = open(doc1).read()
d2 = open(doc2).read()
data1 = jieba.cut(d1)
data2 = jieba.cut(d2)
list1 = []
list2 = []
list = []
for i in data1:
    list1.append(i)
for i in data2:
    list2.append(i)
list = [list1,list2]
frequency = defaultdict(int)#如果鍵不存在則返回N/A,而不是報錯,獲取分詞後詞的個數
for i in list:
    for j in i:
        frequency[j] +=1
#建立詞典
dictionary = corpora.Dictionary(list)
#詞典儲存到本地
dictionary.save('/Users/wangxingfan/Desktop/dic1.txt')
doc3 = '/Users/wangxingfan/Desktop/doc3.txt'
d3 = open(doc3).read()
data3 = jieba.cut(d3)
data31 = []
for i in data3:
    data31.append(i)
new_doc = data31
#稀疏向量.dictionary.doc2bow(doc)是把文件doc變成一個稀疏向量，[(0, 1), (1, 1)]，表明id為0,1的詞彙出現了1次，至於其他詞彙，沒有出現。
new_vec = dictionary.doc2bow(new_doc)
#獲取語料庫
corpus = [dictionary.doc2bow(i) for i in list]
tfidf = models.TfidfModel(corpus)
#特徵數
featureNUM = len(dictionary.token2id.keys())
#通過TfIdf對整個語料庫進行轉換並將其編入索引，以準備相似性查詢
index = similarities.SparseMatrixSimilarity(tfidf[corpus],num_features=featureNUM)
#計算向量相似度
sim = index[tfidf[new_vec]]
print(sim)

python資料分析-文字相似度分析

由於本文設計較多知識點，在編寫程式碼之前需要搞清楚這些知識點的含義。 1。知識點解釋 Gensim是一款開源的第三方Python工具包，用於從原始的非結構化的文字中，無監督地學習到文字隱層的主

python 文字相似度分析doc2bow

步驟: 1、讀取文件 2、對要計算的多篇文件進行分詞 3、對文件進行整理成指定的格式,方便後續進行計算 4、計算出詞語進行過濾 5、可選，對頻率低的詞語進行過濾 6、通過語料庫建立詞典 7、載入要對比的文件 8、將要對比的文件通過doc2bow轉換為稀疏向量 9、對稀疏向量進行進一步處理，得到新語料

Python+gensim-文字相似度分析（小白進）

1、gensim使用流程 2、程式碼實現 from gensim import corpora, models, similarities import jieba # 分詞函式，返回分詞列表 def cut(sentence): generator

文字相似度分析

1 演算法小結相信有些人在閒暇時間喜歡讀小說，至於什麼小說在這就不一而論了。就拿我來說最近讀的“一寸山河一寸血”和“混在三國當軍閥”這兩本書，本人感覺很相似，但具體相似多少就需要量化，因此想通過電腦來分析一下。接下來就不廢話直接上原理和具體演算法。用到

使用gensim處理文字（3）相似度分析

1、概述在之前的文章中，我們將文字轉化為詞向量，並在不同的向量模型中進行轉化。並使用lsa與lda進行了潛在語義分析。其中還有一個非常重要的工作就是相似度分析。本章主要介紹在lsa的基礎上進行相似度分析。2、初始化相似度查詢模型首先需要再加字典以及tfidf模型以便於後續的工

文字相似度及案例-語義分析演算法學習

在做自然語言處理的過程中，我們經常會遇到需要找出相似語句的場景，或者找出句子的近似表達，這時候就需要把類似的句子歸到一起，這裡面就

文字相似度bm25演算法的原理以及Python實現(jupyter notebook)

今天我們一起來學習一下自然語言處理中的bm25演算法，bm25演算法是常見的用來計算query和文章相關度的相似度的。其實這個演算法的原理很簡單，就是將需要計算的query分詞成w1，w2，…，wn，然後求出每一個詞和文章的相關度，最後將這些相關度進行累加，最終就可以的得到文字相似度計算

用gensim doc2vec計算文字相似度，Python可以跑通的程式碼

Python3.7版本，轉載自：https://blog.csdn.net/juanjuan1314/article/details/75124046 wangyi_title.txt檔案下載地址：連結:https://pan.baidu.com/s/1uL75P13t98YHMqgv3Kx7T

基於WMD（詞移距離）的句子相似度分析簡介

word2vec word2vec是隻有一個隱層的全連線神經網路,對語料中的所有詞彙進行訓練並生成相應的詞向量（Word Embedding）WI 的大小是VxN, V是單詞字典的大小, 每次輸入是一個單詞, N是設定的隱層大小。word2vec的模型通過一種神經網路語言模型（Neu

智慧語音（識別+格式轉換+合成+相似度分析+問答）

from aip import AipSpeech 檔案格式轉換（os）+翻譯成文字（原流001010）+提取有效資訊文段+利用相似度(simnet)人工制定答案 +將答案與voice合成音訊寫入mp3 from aip import AipNlp import os #lsi模

基於神經網路的文字相似度計算【醫療大資料】

任務描述問句匹配是自然語言處理的最基本任務之一，是自動問答，聊天機器人，資訊檢索，機器翻譯等各種自然語言處理任務基礎。問句匹配的主要目的是判斷兩個問句之間的語義是否等價。判別標準主要根據主句（即提問者）所蘊含的意圖來判斷兩個語句是否等價，而不直接判斷兩個語句是否表達相

Python資料科學：方差分析！

之前已經介紹的變數分析： ①相關分析：一個連續變數與一個連續變數間的關係。 ②雙樣本t檢驗：一個二分分類變數與一個連續變數間的關係。本次介紹：方差分析：一個多分類分類變數與一個連續變數間的關係。其中分類個數大於兩個，分類變數也可以有多個。當分類變

Python 文字挖掘：使用gensim進行文字相似度計算

index = similarities.MatrixSimilarity(corpus_tfidf)#把所有評論做成索引 sims = index[vec_tfidf]#利用索引計算每一條評論和商品描述之間的相似度 similarity = list(sims)#把相似度儲存成陣列，以便寫入txt 文件

【NLP】Python例項：基於文字相似度對申報專案進行查重設計

作者：白寧超 2017年5月18日17:51:37 摘要：關於查重系統很多人並不陌生，無論本科還是碩博畢業都不可避免涉及論文查重問題，這也對學術不正之風起到一定糾正作用。單位主要針對科技專案申報稽核，傳統的方式人力物力比較大，且伴隨季度性的繁重工作，效率不高。基於此，單位覺得開發一款可以達到實用的

Python資料探勘實戰——相關分析

繼續補以前拉下的債~~~一、相關性指標的研究意義1.1相關係數（Correlation coefficient）：相關係數是變數間關聯程度的最基本測度之一1.2相關分析（Correlation ana

資料探勘基礎-1.文字相似度

一、文字相似度相似度度量指的是計算個體間相似程度，一般使用距離來度量，相似度值越小，距離越大，相似度值越大，距離越小。在說明文字相似度概念和計算方式之前，先回顧下餘弦相似度。 1.餘弦相似度衡量文字相似度最常用的方法是使用餘弦相似度。 – 空間中，兩個向量夾角的

python+jieba+tfidf演算法文字相似度

jieba是python第三方庫，用於自然語言處理，對文字進行分詞，當然也有其他的分詞庫。gensim庫，利用TFIDF演算法來進行文字相似度計算，通過利用gensim庫的corpora，models，similarities處理後續。基本思路：jieba進行分詞，整理為指定

python實現機器學習中的各種距離計算及文字相似度演算法

在自然語言處理以及機器學習的分類或者聚類中會涉及到很多距離的使用，各種距離的概念以及適用範圍請自行百度或者參考各種距離 import numpy as np import math # 依賴包numpy、python-Levenshtein、scipy

Java進行語義相似度分析

這是發的第二篇部落格，之前那篇還沒有通過稽核呢，無所謂。想說說這個題目，還在上大四，自然語言處理和資訊檢索的知識在我們學校是研究生的課程，而且這個實驗室很NB哦，老那我不能保研，只能遠遠看著實驗室門牌號拿著紙巾……擦眼淚了。好在是良心學院，大四沒有什麼基礎課程了，卻開了還

計算句子文字相似度－編輯距離計算

本文轉載於：https://juejin.im/post/5b237b45f265da59a90c11d6 編輯距離，英文叫做 Edit Distance，又稱 Levenshtein 距離，是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數，如果它們的距離越大，說明它們越是不同。

python資料分析-文字相似度分析

1。知識點解釋

2。程式碼

相關推薦