1. 程式人生 > >BERT 為什麼第一個詞為[CLS]

BERT 為什麼第一個詞為[CLS]

[CLS]就是classification的意思,
因為做next sentence predict任務,就取[CLS]對應的最後的隱狀態過MLP,
也就是最後的[batch_size,len1+len2,hidden_size]的[batch_size,0,hidden_size]去預測是不是下一句。

而同樣操作,MaskLM是取那個MASK的詞對應的位置的隱狀態過MLP,預測這個詞是什麼。