1. 程式人生 > >文字快速分類利器fasttext使用心得(踩坑之路)

文字快速分類利器fasttext使用心得(踩坑之路)

fasttext是文字分類的一大利器,優點:快,嗷嗷快;缺點:暫未發現。但是我在使用其做文字分類時候還是遇到了挺多坑,今天先總結一個:

網上有人說設定訓練引數的時候,ngrams設定大於2可以提高模型的精確度,打算試試,然而設定之後系統直接顯示:

floating point exception(core dumped)

解決方案,網上csdn上一堆,看不懂,直接google了,有人提出了下述解決方案,其實就是訓練模型時候多寫個bucket引數,然後設定為2000000,就行了,這裡我rpoch和lr都沒有寫,按照系統默認了,然後就訓練ok了。

After experimenting with arguments I've found that specifying number of bucket

 explicitly, default is 2000000, prevents the error.

classifier = fasttext.supervised('train.txt',
                                 'model',
                                 label_prefix='__label__',
                                 epoch=25,
                                 lr=0.1,
                                 word_ngrams=2,
                                 bucket= 2000000)