20180923 word2vec相似度改進（不浪費句子）

阿新 • • 發佈：2018-12-11

沒有詞向量就丟掉，不放進詞集合裡，不浪費句子，的改進。

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from __future__ import division  #除法
import sys
import codecs   #可以以特定編碼開啟檔案
import jieba
import jieba.posseg as pseg
reload(sys)               #zzh說這種方法不好，不要再用了！！！  可是真的很好用啊 QAQ
sys.setdefaultencoding('utf-8')
import gensim

# model = gensim.models.Word2Vec.load("22620491.model")
model = gensim.models.KeyedVectors.load_word2vec_format('news_12g_baidubaike_20g_novel_90g_embedding_64.bin', binary=True)
word_vec = model.wv
del model     #把模型給word_vec，所以Model刪掉。

print word_vec[u'難過']

f = codecs.open("xlj_fenci.txt",'r','utf-8')    #codecs包指定TXT開啟方式
lines = f.readlines()
#doc = open('fenlei.txt', 'w')


right,wrong,total=0,0,0
cntl,cnta,cntn,cntj,cntw=0,0,0,0,0   #標註時每一類的數量
resl,resa,resn,resj,resw=0,0,0,0,0  #分類正確每一類結果數量
for line in lines: #每一行彈幕

    if lines.index(line) % 500 ==0:   #顯示跑到多少條資料
        print lines.index(line)
    if line.split("  ")[0].split(" ")[0]=="0":    #分類正確個數
        cntl=cntl+1
    elif line.split("  ")[0].split(" ")[0]=="1":
        cnta=cnta+1
    elif line.split("  ")[0].split(" ")[0]=="2":
        cntn=cntn+1
    elif line.split("  ")[0].split(" ")[0]=="3":
        cntj=cntj+1
    elif line.split("  ")[0].split(" ")[0]=="4":
            cntw=cntw+1
    line1=line.split("  ")[1]
    words=line1.split(" ")
    u = []
    for word in words:
            if word != "\r\n":    #去掉換行符，linux只用\n換行。win下用\r\n表示換行。反正\n不行就\r\n試試！
                #print type(word)
                try:
                    word_vec[word]
                    u.append(word)    #word_vec輸入必須要unicode才行。
                except:
                    continue



    le = [u'樂']
    ai = [u'哀']
    nu = [u'怒']
    jing = [u'驚']
    wu = [u'惡']
    try:
        l,a,n,j,w=word_vec.n_similarity(u, le),word_vec.n_similarity(u, ai),word_vec.n_similarity(u, nu),word_vec.n_similarity(u, jing),word_vec.n_similarity(u, wu)
        list=[l,a,n,j,w]
#         print list
        #doc.write(line.split(" ",1)[0]+" "+str(list.index(max(list)))+" "+line.split(" ",1)[1]+'\n')      # index記得 變成 str啊 ！！改了好半天!
        if str(list.index(max(list)))==line.split("  ")[0].split(" ")[0]:
            right=right+1
            if str(list.index(max(list)))=="0":    #分類正確個數
                resl=resl+1
            elif str(list.index(max(list)))=="1":
                resa=resa+1
            elif str(list.index(max(list)))=="2":
                resn=resn+1
            elif str(list.index(max(list)))=="3":
                resj=resj+1
            elif str(list.index(max(list)))=="4":
                resw=resw+1

            


    except:
        #doc.write(line.split(" ",1)[0]+" "+"-1"+" "+line.split(" ",1)[1]+'\n')
        wrong=wrong+1
        continue
    total=total+1
print(right,wrong,total)
print(cntl,cnta,cntn,cntj,cntw)
print(resl,resa,resn,resj,resw)
print(resl/cntl,resa/cnta,resn/cntn,resj/cntj,resw/cntw)
print("end")
f.close()
#doc.close()

20180923 word2vec相似度改進（不浪費句子）

沒有詞向量就丟掉，不放進詞集合裡，不浪費句子，的改進。 #!/usr/bin/python # -*- coding: UTF-8 -*- from __future__ import division #除法 import sys import codecs #可以

C#：字串相似度演算法（ Levenshtein Distance演算法）

編輯距離，又稱Levenshtein距離（也叫做Edit Distance），是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字元替換成另一個字元，插入一個字元，刪除一個字元。網上有很多關於此演算法的原始碼，但其中一些存在Bug，如百度搜索

Python+gensim-文字相似度分析（小白進）

1、gensim使用流程 2、程式碼實現 from gensim import corpora, models, similarities import jieba # 分詞函式，返回分詞列表 def cut(sentence): generator

基於Word2Vec的相似度計算（python）

前言此篇文章的基礎知識部分總結了一些別人的文章解釋，環境為Windows10下的python3.5版本，需要的包為gensim。程式碼很簡要，不足之處請說明。一．背景知識1.1詞向量詞向量（word2vec）是一個將單詞轉換成向量形式的工具。可以把對文字內容的處理簡

基於編輯距離來判斷詞語相似度方法（scala版）

使用 ref ray 只需要 art 算法位置 spark else 詞語相似性比較，最容易想到的就是編輯距離，也叫做Levenshtein Distance算法。在Python中是有現成的模塊可以幫助做這個的，不過代碼也很簡單，我這邊就用scala實現了一版。編輯

java相似度判斷（餘弦相似度）

業務邏輯：輸入某一企業，返回跟該企業相似的企業列表。大體思路： 1、輸入企業有哪些欄位來構建相似度字典； 2、輸入某個企業欄位具體值，轉換成向量來計算； 3、根據向量計算的值來排序。程式碼如下： /** * 企業相似度 * @param

字串相似度演算法（編輯距離演算法 Levenshtein Distance）

在搞驗證碼識別的時候需要比較字元程式碼的相似度用到“編輯距離演算法”，關於原理和C#實現做個記錄。據百度百科介紹：編輯距離，又稱Levenshtein距離（也叫做Edit Distance），是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數，如果它們的距離越大，說明它們越是不同。許可

（相似度、鄰近及聚類）Similarity, Neighbors, and Clusters

主要內容：相似度（Similarity）（can be used for classification and regression）距離函式（Distance Function） Nearest - Neighbor Hierarchical Clustering

基於《知網》的詞彙語義相似度計算（上）（作者：劉群李素建）

基於《知網》的詞彙語義相似度計算劉群李素建 {liuqun,lisujian}@ict.ac.cn † 中國科學院計算技術研究所 ‡ 北京大學計算語言學研究所摘要：《知網》是一部比較詳盡的語義知識詞典。在基於例項的機器翻譯中，詞語相似度計算是一個重要的環節。不過

ascii控制字元（不可見字元）和可列印字元（可見字元）------浪費15分鐘的一次經歷

系統工作得好好的，但某次卻異常，花了十多分鐘，才定位出是載入檔案中包含了不可見字元導致的。最後解決方法是：增強系統的相容性。今天我們來聊聊ascii控制字元（不可見字元）和可列印字元（可見字元），以後碰到類似問題就很敏感了。

用gensim對中文維基百科語料上的word2Vec相似度計算實驗

Word2vec 是Google在 2013年年中開源的一款將詞表徵為實數值向量的高效工具,其利用深度學習的思想，可以通過訓練，把對文字內容的處理簡化為 K 維向量空間中的向量運算，而向量空間上的相似度可以用來表示文字語義上的相似度。Word2vec輸出的詞向量可以被用來

百度富文字編輯器Ueditor 整合springboot（不修改原始碼）

專案中使用到百度的富文字編輯器ueditor，網上也有相關的部落格做了比較全面的介紹，只是需要較多時間去一一整理，個人認為這其中的難點主要在於載入ueditor的配置檔案config.json，網上的教程大概可以分為兩種載入方式，一是修改原始碼直接去讀取uedi

Spark/Scala實現推薦系統中的相似度演算法（歐幾里得距離、皮爾遜相關係數、餘弦相似度：附實現程式碼）

在推薦系統中，協同過濾演算法是應用較多的，具體又主要劃分為基於使用者和基於物品的協同過濾演算法，核心點就是基於"一個人"或"一件物品"，根據這個人或物品所具有的屬性，比如對於人就是性別、年齡、工作、收入、喜好等，找出與這個人或物品相似的人或物，當然實際處理中參考的因子會複雜的多。本篇文章不介紹相關數學概念，

javascript基礎知識整理（不定時更新）

nsh firefox 可用 splice mage true size -1 對數 1.js中真與假的定義：　　真：true，非零數字，非空字符串，非空對象　　假：false，數字零，空字符串，空對象（null），undefined 2.使用for循環對json進

設置className的方式（不使用setAttribute）

其他 safari 原因 api 調用 bsp 答案 opera 樣式　　我們通過Js腳本對DOM 節點進行修改其樣式class的時候，常常是使用如下的方式進行操作： element.className = ‘xxxClass‘; 而

discuz新的單點論壇（不依賴UCenter）

web應用之前 .net emp linux時間論壇自己的 ng- define discuz 本身提供UCENTER用戶中心能夠實現單點登錄。可是其它應用要單點登錄到discuz還是存在若幹問題：須要2次激活。可能造成server無響應，論壇顯示的最新註冊用戶

sed 實踐案例（不定期更新）

一個 mysqld swd dia col 一行 rac 刪除實踐刪除每行第一個字符 sed -r ‘s/^.//g‘ /etc/passwd 刪掉每行第二個字符 sed -r ‘s/^(.)(.)/\1/g‘ /etc/passwd 刪掉每行最後一個字符 s

Linux Socket編程（不限Linux）

bar fopen 博物館 ont ipaddr mem 綁定轉換成 network 話雖些許誇張，但是事實也是，現在的網絡編程幾乎都是用的socket。 ——有感於實際編程和開源項目研究。我們深諳信息交流的價值，那網絡中進程之間如何通信

C實現頭插法和尾插法來構建單鏈表（不帶頭結點）

res rgb eof uci fun while data 尾插法輸入數據鏈表的構建事實上也就是不斷插入節點的過程。而節點的插入能夠分為頭插法和尾插法。頭插法就是在頭結點後插入該節點，始終把該節點作為第一個節點。尾插法就是在鏈表的最後一個節點處插入元

代碼綜合後的電路對比（不定時更新）

output pre n) sed log 會有 blank 不同 blog 　　這裏來記錄一下相似代碼之間的不同差異，比如同步復位與異步復位觸發器的對比，上升沿復位和下降沿復位的對比等等。這裏主要使用ISE的綜合引擎。直接附上代碼和綜合後電路圖，有些會有部分講解。

20180923 word2vec相似度改進（不浪費句子）

相關推薦