【算法】Bert預訓練源碼閱讀

阿新 • • 發佈：2019-02-18

num 參數 inline 語句調用 ict clas tor 單詞

Bert預訓練源碼

主要代碼

地址：https://github.com/google-research/bert

create_pretraning_data.py：原始文件轉換為訓練數據格式
tokenization.py：漢字，單詞切分，復合詞處理，create_pretraning_data中調用
modeling.py: 模型結構
run_pretraing.py: 運行預訓練

tokenization.py

作用：句子切分，特殊符號處理。
主要類：BasicTokenizer, WordpieceTokenizer, FullTokenizer

BasicTokenizer.tokenize

: 文本轉為unicode, 去除特殊符號，漢字前後加空格，按空格切分單詞，去掉文本重音，按標點符號切割單詞。最後生成一個list
WordpieceTokenizer.tokenize: 長度過長的單詞標記為UNK，復合詞切分，找不到的詞標記為UNK
FullTokenizer：先後調用BasicTokenizer和WordpieceTokenizer

create_pretraning_data.py

輸入：詞典，原始文本(空行分割不同文章，一行一句)
輸出：訓練數據
作用：生成訓練數據，句子對組合，單詞mask等
入口函數main

加載詞典，加載原始文本
create_training_instances
讀取原始文本文件，做unicode轉換，中文，標點，特殊符號處理，空格切分，復合詞切分。轉換為[[[first doc first sentence],[first doc second sentence],[first doc third sentence]],[[second doc first sentence],[]],....] 這樣的結構
去除空文章，文章順序打亂
輸入的原始文本會重復使用dupe_factor次
對每一篇文章生成訓練數據create_instances_from_document
訓練語句長度限制max_seq_length，0.1的概率生成長度較小的訓練語句，增加魯棒性
句子對(A,B)隨機組合
對於一篇文章，按順序獲取n行句子，其長度總和限制為target_seq_length,
隨機選取n行中的前m行作為A
0.5的概率，B是n行中後面剩余的部分；其他情況，B是隨機選取的其他文章內容，開始位置是隨機的
文章中沒有使用的部分繼續組合(A, B)
添加CLS,SEP分隔符，生成句子向量
對句子對中的單詞做隨機mask (create_masked_lm_predictions), 隨機取num_to_predict個單詞做mask，0.8的概率標記為MASK，0.1的概率標記為原始單詞，0.1的概率標記為隨機單詞
封裝，句子對，句子id，是否為隨機下一句，mask的下標位置，mask對應的原始單詞
訓練數據序列化，存入文件。單詞轉為id，句子長度不足的後面補0。

modeling.py

BertConfig: 配置
BertModel：模型主體

建模主體過程：

獲取詞向量 [batch_size, seq_length, embedding_size]
添加句向量，添加位置向量，在最後一個維度上做歸一化，整體做dropout
transformer
全連接映射 [B*F, embedding_size]->[B*F, N*H]
\(dropout(softmax(QK^T))V\), 其中mask了原本沒有數據的部分
全連接，dropout,殘差處理，歸一化，全連接，dropout，殘差處理，歸一化
上述循環多層
取最終[CLS]對應的向量做句向量

run_pretraining.py

作用：生成目標函數，加載已有參數，叠代訓練
主要函數：model_fn_builder

評估mask單詞的預測準確性，整體loss為mask處預測對的分數的平均值
評估next_sentence預測準確性，loss為預測對的概率值
總損失為上面兩個損失相加

【算法】Bert預訓練源碼閱讀

num 參數 inline 語句調用 ict clas tor 單詞 Bert預訓練源碼主要代碼地址：https://github.com/google-research/bert create_pretraning_data.py：原始文件轉換為訓練數據格式 t

【JDK1.8】JDK1.8集合源碼閱讀——Set匯總

都是 arr initial 復雜定義 bst als ati bool 一、前言這一篇裏，我將對HashSet、LinkedHashSet、TreeSet進行匯總分析，並不打算一一進行詳細介紹，因為JDK對Set的實現進行了取巧。我們都知道Set不允許出現相同的對象，

【算法】Dijkstra算法（單源最短路徑問題）鄰接矩陣和鄰接表實現

當前 prior 排序發的單源最短路徑 fine emp eat col Dijkstra算法可使用的前提：不存在負圈。負圈：負圈又稱負環,就是說一個全部由負權的邊組成的環,這樣的話不存在最短路,因為每在環中轉一圈路徑總長就會邊小。算法描述：　　1.找到最

【算法競賽入門經典—訓練指南】學習筆記（含例題代碼與思路）第三章：實用數據結構

其他 ont freopen data 依然插入 else if swa urn 值得註意的是，本章雖然依然有很多不錯的思想和題目，但並不建議初學知識點時從這裏入門。並不是因為題目難，而是講解並沒有看網上其他博客來的清楚。本章缺少的重要科技：\(Link-Cut-Tre

【算法】小知識

count 要求字符出現存在方法最終 while 意思　　記錄一些在我看來有意思的小算法知識 ■　　識別有效的括號字符串　　以小括號為例，在帶括號的字符串中，如果只提取出括號作為特征，"()",""（空串）,"(()(()(())))"這些是有效的括號字符

【算法】算法和數據結構緒論

title 避免找到高端分析初學閱讀相關結構算法和算法分析　　先說點無關緊要的。初中的時候，知道有CS這門專門的學科存在的時候最開始的概念中CS就是等同於算法。這有可能是因為當時的前桌是後來一代CS傳奇WJMZBMR。。因為當時看起來十分高端，再加上後來

【算法】map的應用

字符 i++ pre gin air htm ++ 一行問題 map使用參考鏈接http://www.cnblogs.com/KID-XiaoYuan/articles/7297709.html 題目在ACM比賽中，你每解決一道題，你就可以獲得一個氣球，不同顏色的氣球代

【算法】計算幾何

線上理解轉化在線是否多少 ros 實驗數值【斜率】 k=Δy/Δx 斜率為0時，直線平行於x軸（Δy=0）。 ★斜率不存在時，直線平行於y軸（Δx=0）。兩點確定一條直線，所以枚舉斜率時只需要枚舉任意兩點。 eg.枚舉同一直線上的點，利用在同一直線上的點必定

【算法】二分圖的判定

pre 滿足二分 log 判斷 ext 連通圖 size ret 二分圖的判定　　　　　　　　　　　　　　給定一個具有n個頂點的圖。要給圖上每個頂點染色，並且要使相鄰的頂點顏色不同。　　　　　　　　　　　　　　判斷是否能最多用兩種顏色進行染色。題目保證沒有重邊和自環。

【算法】素數專題

rim eve style log back rime logs als class 【素數判定】假設輸入的都是正數，時間復雜度O（sqrt（n）） bool is_prime(int n){ for(int i = 2;i*i <= n; i++){

【算法】一個小白的算法筆記：堆排序 (>д<)

根節點節點和 -- 樹形 new 示例 () 是否 family 參考資料《算法（第4版）》 — — Robert Sedgewick， Kevin Wayne 什麽是二叉堆在了解堆排序之前，

【算法】fhqtreap初探

oid 最好回收 truct iostream 實現 min define hide 　　NOIP回來就一直想著學平衡樹。。。平衡樹寫久了調不出來真的會頭腦發熱.jpg 　　大概只寫了幾道題。。。　　fhqtreap是不需要旋（xun）轉（jun）的平衡樹，僅使用分

【算法】一個小白的算法筆記：歸並排序算法的編碼和優化 (,,? ? ?,,)

oid pub 大小角色 bcd 存在 ffd return 實現參考資料《算法（第4版）》 — — Robert Sedgewick， Kevin Wayne 歸並排序的概念歸並排序的實現我是這樣來描述的：先對

【算法】最大公約數、最小公倍數、數學歸納法

數學題 div 邏輯技術分享同時 9.png 最大常見演繹法最大公約數：如果數a能被數b整除，a就叫做b的倍數，b就叫做a的約數。幾個整數中公有的約數，叫做這幾個數的公約數；其中最大的一個，叫做這幾個數的最大公約數。 12、16的公約數有1、2、4，其中

【算法】後綴自動機SAM

同時一個自動 ... 包含結合不存在相交 bsp 【Right集合】後綴自動機真正優於後綴樹的方面在於：結合了有限狀態自動機，從而實現了O(n)的時空復雜度。 trans(s,str)表示s+str到達的狀態。 ST(str)=trans(init,str)

【算法】如何設計--高效的大數據匹配算法

高效 rain https sin 1-1 tails 處理 topic 大數據大數據匹配-算法 CoPilot大數據匹配_百度搜索在Spark上進行兩個大數據集的匹配 - CSDN博客字符串匹配算法總結 - 大數據算法-煉數成金-Dataguru專業數據分析社區【大數

【算法】紅黑樹-二叉樹-算法

平衡查找樹 .cn art baidu 博客 win 清晰 .com utf-8 紅黑樹-二叉樹-算法紅黑樹查找_百度搜索(5 條消息)AVL樹，紅黑樹，B樹，B+樹，Trie樹都分別應用在哪些現實場景中？ - 知乎查找(二)：徹底理解紅黑樹和平衡查找樹 - @瞪著太陽

【算法】CDQ分治 -- 三維偏序 & 動態逆序對

累加區間 www 得到 pri sort fine max upd 初次接觸CDQ分治，感覺真的挺厲害的。整體思路即分而治之，再用之前處理出來的答案統計之後的答案。大概流程是：對於區間 l ~ r : 1.處理 l ~mid, mid + 1 ~ r 的答案 2.分

【算法】排序（一）選擇排序

如何接下來運行時 images 復雜度分析穩定性 stat ima 在排序算法中，最簡單的莫過於選擇排序了。排序思路：在選擇排序算法中分別有一個外循環和一個內循環，假設需要排序的序列共有n個元素，所以外循環的次數為n次，在n次交換（外循環）中，每次設置序列中的第

【算法】排序（二）冒泡排序

-m and 我們 sta image system ring ole bce 上一篇給大家說了選擇排序的原理，這一次我們來說一說冒泡排序的原理其實冒泡排序和選擇排序一樣都是很簡單的排序方式。本文將介紹以下內容排序原理算法實現（JAVA）測試階段算法分析

【算法】Bert預訓練源碼閱讀

Bert預訓練源碼

主要代碼

tokenization.py

create_pretraning_data.py

modeling.py

run_pretraining.py

相關推薦