BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

阿新 • • 發佈：2019-01-27

為什麼採用’Masked language Model’ ?
該模型不僅雙向編碼，而且加深了網路的層數。但加深雙向編碼網路卻會引入一個問題，導致模型最終可以間接地“窺探”到需要預測的詞。這個“窺探”的過程可以用下面的圖來表示：

從圖中可以看到經過兩層的雙向操作，每個位置上的輸出就已經帶有了原本這個位置上的詞的資訊了。這樣的“窺探”會導致模型預測詞的任務變得失去意義，因為模型已經看到每個位置上是什麼詞了。
為了解決這個問題，我們可以從預訓練的目標入手。我們想要的其實是讓模型學會某個詞適合出現在怎樣的上下文語境當中；反過來說，如果給定了某個上下文語境，我們希望模型能夠知道這個地方適合填入怎樣的詞。從這一點出發，其實我們可以直接去掉這個詞，只讓模型看上下文，然後來預測這個詞。但這樣做會丟掉這個詞在文字中的位置資訊，那麼還有一種方式是在這個詞的位置上隨機地輸入某一個詞，但如果每次都隨機輸入可能會讓模型難以收斂。BERT的作者提出了採用MaskLM的方式來訓練語言模型
隨機遮蔽部分輸入token, 然後只預測那些被遮蔽的token, 這一過程就是masked LM
雖然這確實能讓團隊獲得雙向預訓練模型，但這種方法有兩個缺點。首先，預訓練和finetuning之間不匹配，因為在finetuning期間從未看到[MASK]token。為了解決這個問題，團隊並不總是用實際的[MASK]token替換被“masked”的詞彙。相反，訓練資料生成器隨機選擇15％的token。例如在這個句子“my dog is hairy”中，它選擇的token是“hairy”。然後，執行以下過程：
資料生成器將執行以下操作，而不是始終用[MASK]替換所選單詞：
80％的時間：用[MASK]標記替換單詞，例如，my dog is hairy → my dog is [MASK]
10％的時間：用一個隨機的單詞替換該單詞，例如，my dog is hairy → my dog is apple
10％的時間：保持單詞不變，例如，my dog is hairy → my dog is hairy. 這樣做的目的是將表示偏向於實際觀察到的單詞。
為什麼預訓練時加入了 Next Sentence Prediction任務？？怎麼設定的？？
引入這個任務可以更好地讓模型學到連續的文字片段之間的關係
訓練的時候輸入模型的第二個片段會以50%的概率從全部文字中隨機選，剩下50%的概率選取第一個片段的後續文字。

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

為什麼採用’Masked language Model’ ? 該模型不僅雙向編碼，而且加深了網路的層數。但加深雙向編碼網路卻會引入一個問題，導致模型最終可以間接地“窺探”到需要預測的詞。這個“窺探”的過程可以用下面的圖來表示：從圖中可以看到經過兩層的雙向

Devlin2018Google_BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 1. Abstract 2. Introduction 3. BERT 3.1

文獻閱讀筆記—BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding

這篇paper對細節描述的很清楚，建議直接看原文！！！建議直接看原文！！！一、問題描述 nlp任務一般分為兩類： sentence-level：預測句子間的關係，如natural language inference和paraphrasing。

MLHPC 2018 | Aluminum: An Asynchronous, GPU-Aware Communication Library Optimized for Large-Scale Training of Deep Neural Networks on HPC Systems

這篇文章主要介紹了一個名為Aluminum通訊庫，在這個庫中主要針對Allreduce做了一些關於計算通訊重疊以及針對延遲的優化，以加速分散式深度學習訓練過程。 ### 分散式訓練的通訊需求 #### 通訊何時發生一般來說，神經網路的訓練過程分為三步：前向傳播、反向傳播以及引數優化。在使用資料並行進行分散

Deep Learning讀書筆記（三）：Greedy Layer-Wise Training of Deep Networks

接下來我們來說明下本篇文章的另一個主要工作，就是處理分類目標與輸入資料的分佈並沒有太大關聯的情況。問題的描述是這樣的，一個分類任務，輸入資料x服從分佈p（x），而分類目標可以表示為y=f(x)+noise，其中p與f並沒有特別明顯的關係。在這種設定下，我們並不能指望無監督學習對模型的學習有特別

Keras下實現 Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising

使用Keras實現 Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising 這篇文章。 generator_data.py import glob import os import

18、Effect of Automatic Hyperparameter Tuning for Residential Load Forecasting via Deep Learning

亮點：自動超引數調整，數學很高深，不容易理解。自動超引數調整的有效性基於深度學習的住宅負荷預測短期住宅負荷預測在本文中，我們擴充套件了一個基於深度長期記憶體（LSTM）的負載，具有自動超引數調整的預測框架針對高度不穩定的住宅負荷解決STLF問題。基於樹結構的Pa

影象檢索入門：CVPR2015《Deep Learning of Binary Hash Codes for Fast Image Retrieval》

研究背景在基於內容的影象檢索（CBIR）中，影象表示和計算成本都起著至關重要的作用。由於近幾年影象數量的增長，在大型資料庫中的快速搜尋成為新興需求。許多研究旨在回答如何從大規模資料庫中有效檢索相關資料的問題。由於高計算成本，傳統的線性搜尋

Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

本部落格參考了微信公眾號“AI晶片演算法”中的原創文章《Google CVPR2018 8bit 量化論文》一文。 1、本文的貢獻本文主要側重將推斷中的浮點數運算量化為整數運算（Integer-Arithmetic-Only），最終將權重和啟用函式量化為8-bit，

Embed,encode,attend,predict:the new deep learning formula for state-of-the -art NLP models

轉載來自：https://explosion.ai/blog/deep-learning-formula-nlp 在過去六個月，一種強大的新型神經網路工具出現應用於自然語言處理。新型的方法可以總結為四步驟：嵌入（embed），編碼（encode），加入（atte

Deep learning algorithms for detection of critical findings in head CT scans: a retrospective study

Non-contrast head CT scan is the current standard for initial imaging of patients with head trauma or stroke symptoms. We aimed to develop and validate a s

Competitive Advantages of Deep Learning for Your Business

What do you think of when you hear about AI? Do you picture your favourite sci-fi movie or a book that you read when you were younger? In that favourite bo

End-to-End Training of Hybrid CNN-CRF Models for Stereo

摘本文模型就是CNN+CRF。CNN提取特徵，這些特徵用在計算CRF的成本上。本文采用dual block descent 演算法來計算圖片近似最小化。雖然用的淺層CNN並且對於CRF的輸出也沒用後

「Deep Learning」Note on Rethinking ImageNet Pre-training

作者：Kaiming He, Ross Girshick, Piotr Dollár 單位：Facebook AI Research (FAIR) 0 摘要在物體檢測和例項分割中，以COCO資料集為研究物件，探索從隨機初始化情況中訓練標準模型，並且取得有競爭

論文閱讀《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

註意 4.3 匹配算法 argmin hang 立體聲移動數據集聚集端到端學習幾何和背景的深度立體回歸摘要本文提出一種新型的深度學習網絡，用於從一對矯正過的立體圖像回歸得到其對應的視差圖。我們利用問題（對象）的幾何知識，形成一個使

【Visual Studio】解決錯誤 fatal error C1010: unexpected end of file while looking for precompiled head（轉）

set while err sin 結束 art fat 出現 using 原文轉自 http://blog.csdn.net/liuqiyao_01/article/details/38867145 在編譯VS時候，出現fatal error C1010: unexp

Magnostics Image-based Search of Interesting Matrix Views for Guided Network Exploration（一種基於網絡信息矩陣圖像的網絡探索方法）

希望組合 cad 區分加權 rest 結果 xpl ati 網絡、關系等數據變成如圖的鄰接矩陣時（紅色代表兩個節點也就是人，之間有聯系），但是得到的矩陣會因為順序的問題而出現不同的排列方式，在第一種中會發現因為有聚集的塊狀區域而很容易地把數據分為兩個部分，然後根據數據的

VGGnet論文總結（VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION）

lrn cli 共享融合 loss sca 得到同時 works VGGNet的主要貢獻：　　1、增加了網絡結構的深度　　2、使用了更小的filter（3*3） 1 introduction 這部分主要說明了，由於在所有的卷積網絡上使用了3*3的filter，所以使

論文筆記之：Collaborative Deep Reinforcement Learning for Joint Object Search

region format es2017 join sid col str bottom respond Collaborative Deep Reinforcement Learning for Joint Object Search CVPR 2017 Motiva

Deep Neural Network for Image Classification: Application

cal pack 分享圖片 his exp params next min super When you finish this, you will have finished the last programming assignment of Week 4, and a

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

相關推薦