1. 程式人生 > >FaceBook開源的詞向量計算框架

FaceBook開源的詞向量計算框架

  fasttext是個好東西,是由facebook在2016年推出的一個訓練詞向量的模型。相比於之前Google的word2vec,fasttext可以解決out of vocabulary的問題。fasttext還能夠用於有監督的文字分類。更讚的是,facebook提供了200多種語言的預訓練模型和詞向量。
  具體操作可以使用pyfasttext模組實現。

  程式碼如下:

1 from pyfasttext import FastText
2 # 加載出現的模型
3 model = FastText('./ch_data.bin')
4 #詞表示學習
5 model.skipgram(input='
data.txt', output='model', epoch=100, lr=0.7) 6 # model.cbow(input='data.txt', output='model', epoch=100, lr=0.7) 7 # 詞向量 8 model['dog']

輸出:

array('f', [-1.308749794960022, -1.8326224088668823, ...])

之後根據你的需要,將詞向量用在什麼地方由自己決定。

注意:pyfasttext,執行在linux和mac系統上
   fasttext,執行在windows上