fasttext使用心得（踩坑之路）

文字分類 · 發表 2018-11-19 14:59:00

摘要： fasttext是文字分類的一大利器，優點：快，嗷嗷快；缺點：暫未發現。但是我在使用其做文字分類時候還是遇到了挺多坑，今天先總結一個：網上有人說設定訓練引數的時候，ngrams設定大於2可以提高模型的精確度，打算試試，然而設定之後系統直接顯示： floating point exce...

fasttext是文字分類的一大利器，優點：快，嗷嗷快；缺點：暫未發現。但是我在使用其做文字分類時候還是遇到了挺多坑，今天先總結一個：

網上有人說設定訓練引數的時候，ngrams設定大於2可以提高模型的精確度，打算試試，然而設定之後系統直接顯示：

floating point exception(core dumped)

解決方案，網上csdn上一堆，看不懂，直接google了，有人提出了下述解決方案，其實就是訓練模型時候多寫個bucket引數，然後設定為2000000，就行了，這裡我rpoch和lr都沒有寫，按照系統默認了，然後就訓練ok了。

After experimenting with arguments I've found that specifying number ofbucket explicitly, default is 2000000, prevents the error.

classifier = fasttext.supervised('train.txt',
'model',
label_prefix='__label__',
epoch=25,
lr=0.1,
word_ngrams=2,
bucket= 2000000)