fasttext使用心得(踩坑之路)
fasttext是文字分類的一大利器,優點:快,嗷嗷快;缺點:暫未發現。但是我在使用其做文字分類時候還是遇到了挺多坑,今天先總結一個:
網上有人說設定訓練引數的時候,ngrams設定大於2可以提高模型的精確度,打算試試,然而設定之後系統直接顯示:
floating point exception(core dumped)
解決方案,網上csdn上一堆,看不懂,直接google了,有人提出了下述解決方案,其實就是訓練模型時候多寫個bucket引數,然後設定為2000000,就行了,這裡我rpoch和lr都沒有寫,按照系統默認了,然後就訓練ok了。
After experimenting with arguments I've found that specifying number ofbucket
explicitly, default is 2000000, prevents the error.
classifier = fasttext.supervised('train.txt', 'model', label_prefix='__label__', epoch=25, lr=0.1, word_ngrams=2, bucket= 2000000)