1. 程式人生 > >BPE的原理及程式碼解析

BPE的原理及程式碼解析

BPE:在自然語言處理中,序列到序列模型中(機器翻譯、對話)需要設定詞表,使用較小的詞表,有助於提高系統的效能。BPE在歐洲語系可能表現的更為有效一些,主要由於歐洲語系中存在詞綴等概念。

BPE訓練
BPE的大概訓練過程:首先將word分成一個一個的字元,然後統計字元對出現的次數,每次將次數最多的字元對儲存起來,直到迴圈次數結束。

BPE編碼

解碼過程,經過訓練過程,會得到codec檔案,codec檔案中儲存的就是訓練過程的字元對。解碼是按照分割符進行編碼的,如“I love Beijing“,是依次對”I”,”love”,”Beijing”進行解碼。

BPE程式碼解析:

哎,還是老習慣,先佔個位置。