1. 程式人生 > >Bert由來、原理、學習

Bert由來、原理、學習

word2vec -> Transformer -> ELMo -> Bert

word2vec是訓練詞向量。有skim-gram和CBOW兩種形式。

重點:訓練樣本是一個句子的中心詞和周圍的詞拼接成。
例如skim-gram例如 I love apple very much。以apple 為中心詞,視窗大小是2,則可以湊出樣本:【apple,love】【apple,I】【apple,very】【apple,much】。樣本的前一個input,後一個是output,訓練一個詞的v_c和U(詞向量和outputvector)
CBOW是反過來的,通過周圍的詞來預測中心詞。

Transformer是全部注意力,捨去CNN和RNN架構

例如:機器翻譯

在這裡插入圖片描述
在這裡插入圖片描述