TF-IDF比較文字相似度

阿新 • • 發佈：2019-01-27

文字相似度

TF-IDF 演算法

如果某個詞在給定文件中很少出現，但是在給定文件中的某一篇文章中出現的次數很大，
該詞在很大程度上反映了該文章的特性，我們稱該詞為這篇文章的關鍵字
參考連結：http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

餘弦相似性

測試案例

程式碼部分

# -*- coding: UTF-8 -*-

# import codecs

import jieba.posseg as pseg
from gensim import corpora, models, similarities


# from hotelmatcher.constant import * 



class Tfidf:
    """ TF-IDF模型比較文字相似度類 """

    # 停用詞
    stop_words = ['酒店', '旅館']

    # 結巴分詞後的停用詞性
    # [標點符號、連詞、助詞、副詞、介詞、時語素、‘的’、數詞、方位詞、代詞]
    stop_flag = ['x', 'c', 'u', 'd', 'p', 't', 'uj', 'm', 'f', 'r']

    def __init__(self):
        # self.ensure_stop_words()
        pass

    """
    def ensure_stop_words(self):
    # 停用詞
    if self.stop_words is None:
        stop_file = PATH_DOC + 'StopWords.txt'
        stop_words = codecs.open(stop_file, 'r', encoding='utf8').readlines()
        self.stop_words = [w.strip() for w in stop_words]
    """ 


    def text2words(self, text: str) -> list:
        """ 對一段文字分詞、去停用詞 """
        result = []
        words = pseg.cut(text)
        for word, flag in words:
            if word not in self.stop_words and flag not in self.stop_flag:
                result.append(word)
        return result

    def 
 similarity_compare(self, compare_doc: str, refer_doc: list) -> tuple:
        """
        比較相似度
        :param compare_doc: 待比對的文件
        :param refer_doc: 基準文件
        :return: tuple
        """
        # 語料庫
        refer_words = []
        placeholder_count = 0
        for refer_word in refer_doc:
            words = self.text2words(refer_word)
            if words:
                refer_words.append(words)
            else:  # 確保順序
                placeholder_count += 1
                refer_words.append(self.text2words('placeholder' + str(placeholder_count)))
        # 建立語料庫詞袋模型
        dictionary = corpora.Dictionary(refer_words)
        doc_vectors = [dictionary.doc2bow(word) for word in refer_words]
        # 建立語料庫 TF-IDF 模型
        tf_idf = models.TfidfModel(doc_vectors)
        tf_idf_vectors = tf_idf[doc_vectors]

        compare_vectors = dictionary.doc2bow(self.text2words(compare_doc))

        index = similarities.MatrixSimilarity(tf_idf_vectors, num_features=len(dictionary))
        sims = index[compare_vectors]
        # 對結果按相似度由高到低排序
        sims = sorted(list(enumerate(sims)), key=lambda x: x[1], reverse=True)
        """
        index = similarities.MatrixSimilarity(tf_idf_vectors, num_features=len(dictionary), num_best=1)
        # 對結果按相似度由高到低排序
        sims = index[compare_vectors]
        """

        return sims[0]


if __name__ == '__main__':
    tfIdf = Tfidf()
    test = '月亮海灘旅館'
    refers = {
        '普吉島斷點酒店': [(1, '普吉島斷點酒店')],
        '月亮海灘酒店': [(10386, '月亮海灘酒店')],
        '月亮海酒店': [(1564, '月亮海酒店')],
        '清萊海灘酒店': [(3467, '清萊艾美度假酒店')]
    }
    titles = list(refers.keys())
    similarity = tfIdf.similarity_compare(test, titles)
    msg = "測試酒店 '%s' 和參照酒店中的 '%s' 最相似，相似度為 %f，對應酒店ID為：%s" \
          % (test, titles[similarity[0]], similarity[1],
             refers[titles[similarity[0]]][0][0])
    print(msg)

結果展示

相似度比較結果

TF-IDF比較文字相似度

文字相似度 TF-IDF 演算法如果某個詞在給定文件中很少出現，但是在給定文件中的某一篇文章中出現的次數很大，該詞在很大程度上反映了該文章的特性，我們稱該詞為這篇文章的關鍵字參考連結：http://www.ruanyifeng.com/blog/2013/

【Spark Mllib】TF-IDF&Word2Vec——文字相似度

1 從資料中抽取合適的特徵 1.1 TF-IDF短語加權表示 TF-IDF公式的含義是:在一個文件中出現次數很多的詞相比出現次數少的詞應該在詞向量表示中得到更高的權值。而IDF歸一化起到了減弱在所有文件中總是出現的詞的作用。最後的結果就是,

<tf-idf + 余弦相似度> 計算文章的相似度

eth documents oca word product num users -s box 背景知識: （1）tf-idf 按照詞TF-IDF值來衡量該詞在該文檔中的重要性的指導思想：如果某個詞比較少見，但是它在這篇文章中多次出現，那麽它很可能就反映了這篇文章的特性

NLP文字相似度(TF-IDF)

我們在比較事物時，往往會用到“不同”，“一樣”，“相似”等詞語，這些詞語背後都涉及到一個動作——雙方的比較。只有通過比較才能得出結論，究竟是相同還是不同。但是萬物真的有這麼極端的區分嗎？在我看來不是的，生活中通過“相似度”這詞來描述可能會更加準確。比如男人和女人，雖然生理器官和可能思想有

解析TF-IDF演算法原理：關鍵詞提取，自動摘要，文字相似度計算

Abstract：TF-IDF演算法是一種常用的詞頻統計方法，常被用於關鍵詞提取、文字摘要、文章相似度計算等。 TF-IDF的演算法思路 TF詞頻（Text Frequency）：統計出現次數最多的詞 IDF逆文件頻率（Inverse Document Frequ

基於Lucene、TF-IDF、餘弦相似性實現長文字相似度檢測

什麼是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency)，漢譯為詞頻-逆文字頻率指數。 TF指一個詞出現的頻率，假設在一篇文章中某個詞出現的次數是n，文章的總詞數是N，那麼TF=n/N 逆文字頻率指數IDF一

java中利用hanlp比較兩個文字相似度的步驟

使用 HanLP - 漢語言處理包來處理，他能處理很多事情，如分詞、呼叫分詞器、命名實體識別、人名識別、地名識別、詞性識別、篇章

計算句子文字相似度－編輯距離計算

本文轉載於：https://juejin.im/post/5b237b45f265da59a90c11d6 編輯距離，英文叫做 Edit Distance，又稱 Levenshtein 距離，是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數，如果它們的距離越大，說明它們越是不同。

文字相似度bm25演算法的原理以及Python實現(jupyter notebook)

今天我們一起來學習一下自然語言處理中的bm25演算法，bm25演算法是常見的用來計算query和文章相關度的相似度的。其實這個演算法的原理很簡單，就是將需要計算的query分詞成w1，w2，…，wn，然後求出每一個詞和文章的相關度，最後將這些相關度進行累加，最終就可以的得到文字相似度計算

用gensim doc2vec計算文字相似度，Python可以跑通的程式碼

Python3.7版本，轉載自：https://blog.csdn.net/juanjuan1314/article/details/75124046 wangyi_title.txt檔案下載地址：連結:https://pan.baidu.com/s/1uL75P13t98YHMqgv3Kx7T

文字相似度和分類

文字相似度度量文字間的相似性使用詞頻表示文字特徵文字中單詞出現的頻率或次數 NLTK實現詞頻統計文字相似度案例： import nltk from nltk import FreqDist text1 = 'I like the movie so much ' te

文字相似度

前言在自然語言處理過程中，經常會涉及到如何度量兩個文字之間的相似性，我們都知道文字是一種高維的語義空間，如何對其進行抽象分解，從而能夠站在數學角度去量化其相似性。而有了文字之間相似性的度量方式，我們便可以利用劃分法的K-means、基於密度的DBSCAN或者是基於模型的概率

python 文字相似度分析doc2bow

步驟: 1、讀取文件 2、對要計算的多篇文件進行分詞 3、對文件進行整理成指定的格式,方便後續進行計算 4、計算出詞語進行過濾 5、可選，對頻率低的詞語進行過濾 6、通過語料庫建立詞典 7、載入要對比的文件 8、將要對比的文件通過doc2bow轉換為稀疏向量 9、對稀疏向量進行進一步處理，得到新語料

使用jieba和gensim模組判斷文字相似度

原文： https://www.jianshu.com/p/cb978743f4d4 碎冰op 判斷文字的相似度在很多地方很有用，比如在爬蟲中判斷多篇已爬取的文章是否相似，只對不同文章進一步處理可以大大提高效率。在Python中，可以使用gensim模組來判斷長

nlp中文字相似度計算問題

文章的目的：文字相似度計算一直是nlp中常見的問題，本文的目標是總結並對比文字相似度計算方法。當然文字的相似度計算會有進一步的應用，比如文字的分類、聚類等。文章結構：本文先介紹最直接的字面距離相似度度量，而後介紹語義主題層面的度量，最後介紹目前一些新的相似度計算方法。一、字面距

學習筆記--NLP文字相似度之LCS（最長公共子序列）

最長公共子序列一個序列S任意刪除若干個字元得到的新序列T，則T叫做S的子序列兩個序列X和Y的公共子序列中，長度最長的那個，定義為X和Y的最長公共子序列例如： --字串12455與245576的最長公共子序列為2455 --字串acd

python比較字串相似度

python自帶比較相似度的模組，difflib。比較兩個字串的模組是difflib.SequenceMatcher，使用起來很簡單： import difflibdef string_similar(s1, s2): return difflib.SequenceMatcher(None,

基於神經網路的文字相似度計算【醫療大資料】

任務描述問句匹配是自然語言處理的最基本任務之一，是自動問答，聊天機器人，資訊檢索，機器翻譯等各種自然語言處理任務基礎。問句匹配的主要目的是判斷兩個問句之間的語義是否等價。判別標準主要根據主句（即提問者）所蘊含的意圖來判斷兩個語句是否等價，而不直接判斷兩個語句是否表達相

文字相似度分析

1 演算法小結相信有些人在閒暇時間喜歡讀小說，至於什麼小說在這就不一而論了。就拿我來說最近讀的“一寸山河一寸血”和“混在三國當軍閥”這兩本書，本人感覺很相似，但具體相似多少就需要量化，因此想通過電腦來分析一下。接下來就不廢話直接上原理和具體演算法。用到

Doc2Vec計算句子文件向量、求文字相似度

注：本文主要是記錄自己常用的關於Doc2Vec的簡單程式程式碼。因此不做過多的解釋，直接寫出程式碼，如有問題可以討論交流。一、doc2vec求文件向量 import sys import numpy as np import gensim from gensim.mod

TF-IDF比較文字相似度

文字相似度

TF-IDF 演算法

餘弦相似性

測試案例

程式碼部分

結果展示

相關推薦