1. 程式人生 > >螞蟻金服金融大腦的挑戰賽的實現程式碼 NLP文字相似度計算

螞蟻金服金融大腦的挑戰賽的實現程式碼 NLP文字相似度計算

近期做了一些NLP的研究,並基於6月份螞蟻金服金融大腦的挑戰賽,完成了文字相似度計算的驗證。

主要思路是基於word2vec來進行訓練,並實現文字相似度的計算。

所使用的語料,包括了公開的wiki語料,網友收集的微信語料,以及此大賽中的語料。

其中微信語料的位置在https://spaces.ac.cn/archives/4304(可參考)。

注意,此次語料訓練採用了增量訓練的方式。

整體的程式碼位置在,https://github.com/renwoxing2016/nlp-ali,大家可參考。

使用方式:

1、下載此程式碼到本地。

2、下載訓練的模型,參見模型的位置

下載後放到models目錄下。

3、執行python ali_wx_wiki_vec_compare.py ./input_test.txt ./temp/

4、結果在temp目錄下。

訓練:

1、下載資料到本地。拷貝到此程式碼大的根目錄下。資料比較大有待上傳後更新其網址。

2、執行如下指令碼即可。

python word2vec_train.py