【資料應用技巧】NLP領域的預訓練之風

阿新 • • 發佈：2019-02-03

案例來源：@AI科技評論 @集智翻譯組 @人工智慧LeadAI

0. 背景：ImageNet帶來了資料預訓練的風，通過在ImageNet資料集上訓練得到的網路權重，可以遷移學習到較少標註集較高標註成本的領域。這股思想也進入了NLP領域，本文介紹幾種預訓練方法。

目前NLP領域的預訓練方法有：

1）word2vec

2）ULMFit

3）ELMo

4）Open AI Transformer

對標ImageNet，目前NLP領域的主流標註資料集有：

1）斯坦福問答資料集（SQuAD）：10萬多對問答對

2）斯坦福自然推理語料庫（SNLI）：57萬對英語句子對

3）WMT：4千萬對英語-法語翻譯句子對

4）WikiTest-2：維基百科文字

這些語料庫都有一定的缺陷（如人工標註員傾向於通過否定的方式創造新的句子對），不一定同ImageNet一樣，可以表徵所有自然語言處理的問題空間，削弱了使用這些語料庫提取特徵的泛化能力

1. word2vec

1）預訓練獲得詞嵌入，然後將詞嵌入作為特徵輸出神經網路的第一層。是一種淺層網路的特徵表示方法，類比於cv中對淺層神經元對物體邊緣的表示

2. ULMFit（Universal Language Model Fine-tuning）

1）LM pre-training：在大型語料庫上訓練word的表達

2）LM fine-tuning：在特定語料上訓練word在深層網路中的表達

3）Classifier fine-tuning：上層分類器

3. ELMo（Embeddings from Language Models，深層語境化詞表徵）

1）特點：

a. 輸入是字元而不是詞，因此可以利用子字詞單元來計算有意義的表徵，即使對於詞典外的詞也是如此

b. 詞向量不是一成不變的，而是根據上下文不同而變化。如“我買了富士康生產的蘋果”與“我吃了一個富士蘋果”中“蘋果”並不是一個事物

2）方法：首先在大文字語料庫上預訓練了一個深度雙向語言模型（biLM），然後把根據它的內部狀態學到的函式作為詞向量。語言模型的不同層對單詞上的不同型別資訊進行編碼（例如，詞語標註由biLSTM的較低層完成預測，而詞義消歧在較高層中更好地編碼）。把所有層連線起來，可以自由組合各種文字表徵，以提高下游任務的效能表現

4. Open AI Transformer

2）在小規模有監督資料集上進行微調

5. NLP預訓練展望：

1）可以用主流語言語料庫做預訓練，遷移學習到標註資源特別匱乏的小語種

2）文字中的常識性資訊，有一些不能從文字上下文中獲得，而是要結合外部額外資訊，這也是進一步優化預訓練能力的點

【資料應用技巧】NLP領域的預訓練之風

案例來源：@AI科技評論 @集智翻譯組 @人工智慧LeadAI 0. 背景：ImageNet帶來了資料預訓練的風，通過在ImageNet資料集上訓練得到的網路權重，可以遷移學習到較少標註集較高標註成本的領域。這股思想也進入了NLP領域，本文介紹幾種預訓練方法。目

【資料應用案例】摩拜騎行資料探勘違章停車

案例來源：@機器之心作者：Tianfu He、Jie Bao、Ruiyuan Li、Sijie Ruan、Yanhua Li、Chao Tian、Yu Zheng 0. 背景：隨著汽車保有量增加，停車位供不應求，違章停車現象增加。傳統的檢測違停的方式是交警巡

【資料應用案例】關係資料的隱私保護

案例來源：@關會華阿里技術 0. 背景： 1）關係資料描述的是實體與實體之間的聯絡，如人與人之間的交際關係、企業與企業之間的關聯交易關係等。通過關係資料可以生成一張大網，也成為網路資料或者圖資料 2）關係資料的研究包括子群識別、資訊傳播、欺詐識

【資料應用案例】教神經網路寫漢字

案例來源：@新智元 @量子位 0. 背景：google公開了一個讓神經網路和你一起寫漢字的demo“Kanji-RNN”，你寫入漢字的前幾畫，神經網路補全成一個完成的“漢字”。 1. 目標：讓神經網路學會“漢字”的書寫 1）這裡的漢字不一定是

【資料應用案例】人群優選演算法模型，挖掘品牌潛客

案例來源：@阿里巴巴機器智慧導讀：為A電商做年貨節品牌營銷，目標是識別目標受眾，廣告投放後由“機會人群”轉向“興趣人群”的比例更高。解決方案是：第一步：多方向人群擴散。通過興趣偏好、品類偏好、競品受眾、搜尋人群、流失人群、lookalike人群六個方

【資料應用案例】基於影象搜尋引擎的圖文無關識別方法

案例來源：@位元組跳動技術團隊 0. 背景：知乎、悟空問答中，使用者的回答配上美女、風景圖，能大大提高點選率和點贊率，這樣對正常回答的內容不公平，影響排序質量。需要找到一種方法，識別圖文不符的內容，降低其排序權重。 1. 傳統方法： 1）色情圖片識別

【資料應用案例】美團外賣語音助手

案例來源：@美團技術團隊 0. 背景：騎手在配送時打電話有三個困難： 1）決策複雜：什麼時候打電話？打晚了影響配送速度，打早了影響使用者體驗 2）操作繁瑣與危險：一次操作手機要5-6個操作，大部分在騎電瓶車的時候使用，很危險 1. 目標：美

【Xcode使用技巧】通過Xcode檢視真機中應用程式的資料檔案

有時候開發除錯時，需要檢視真機中應用的檔案，比如sqlite之類的，可按以下步驟進行：環境：Xcode Version 7.2.1，iPad2。 1）點選Xcode的Window選單項，選擇Devices選項。 2）點選左邊裝置一覽中的iPad2，右邊「

【資料視覺化】25個即時改進資料視覺化設計的技巧

資料視覺化不是關於顯示資料; 它是以更容易理解的方式顯示資料 - 這就是真正的價值所在。如果你想真正“看到”我們的意思，請看一下這個快速視訊：視訊地址：https://vimeo.com/29684853 不幸的是，很多人認為將幾張圖表放在一起意味著您正在進行資料視覺

【應用筆記】嵌入式領域的protocol buffer原始碼庫：Nanopb

1 簡介 Protocol Buffers 是由 google 開發，輕便高效的結構化資料儲存格式，可以用於結構化資料序列化，或者說序列化。它很適合做資料儲存或 RPC 資料交換格式。可用於通訊協議、資料儲存等領域的語言無關、平臺無關、可擴充套件的序列化結構

資料結構番外篇【stl應用(1)】優先佇列

stl是一種重要技巧，可以極大地簡化程式設計過程在總結stl之前，我們先簡單介紹一下迭代器。迭代器可以簡單理解為地址的等價物。在不同資料型別中迭代器支援的操作略有不同其中vector使用的是隨機訪問迭代器，其支援的操作可以參考上述表格雖然本文用不上預備知識，但是還是先說一下吧接

【資料視覺化】地理資訊視覺化應用

1 地球與生存環境人類長期以來對地球和周遭自然環境進行觀測來研究和了解自己生存的自然空間，科學家們也通過建立數學模型來模擬環境的變化。這些觀測和模擬得到的資料通常包含了地理空間中的位置資訊，因此自然需要用到地理資訊視覺化來呈現資料，最常見的是與氣象相關的資

【資料探勘】【筆記】資料預處理之類別特徵編碼

定義類別特徵：如['male', 'female']等，模型不能直接識別的資料。處理的目的是將不能夠定量處理的變數量化。特別的比如星期[1, 2, ... , 7]雖然是數字，但是數值之間沒有大小順序關係，需要視為類別特徵。處理編碼為模型可識

【資料極客】Week3_訓練深度神經網路的技巧

Tips for Training DNN 訓練深度神經網路技巧【李巨集毅2017秋天課程】 1 Vanishing Gradient Problem 梯度消失問題在輸入層部分，即便有很大的變化，通過 Sigmoid 啟

【小白學PyTorch】5 torchvision預訓練模型與資料集全覽

文章來自：微信公眾號【機器學習煉丹術】。一個ai專業研究生的個人學習分享公眾號文章目錄： [TOC] # torchvision >官網上的介紹（FQ）：The torchvision package consists of popular datasets, model architecture

【Android 應用開發】 ActionBar 樣式具體解釋 -- 樣式主題簡單介紹 Actionbar 的 icon logo 標題菜單樣式改動

detail sub str 進度條代碼分析 extc dst 模式 html 作者 : 萬境絕塵 ([email protected]/* */)轉載請著名出處 : http://blog.csdn.net/shulianghan/article/deta

【機器學習】數據預處理之將類別數據轉換為數值

行數據 pri and slab form ces nbsp 遍歷 encode 在進行python數據分析的時候，首先要進行數據預處理。有時候不得不處理一些非數值類別的數據，嗯，今天要說的就是面對這些數據該如何處理。目前了解到的大概有三種方法： 1，通過LabelE

【奇淫技巧】圖片偽裝大法--偽裝可執行文

style sys alt user var main image 可執行文件打開能夠將可執行文件偽裝成圖片用到的工具： kali 2.0、msfasploit、Resource Hacker 首先利用msfvenom生成一個powershell的ps1文件

【資料搜集】Python學習

OS pan span blog cor pos ati http pytho python學習手冊 | 演道網 http://dev.go2live.cn/python/python%e5%ad%a6%e4%b9%a0%e6%89%8b%e5%86%8c.html 【資

【資料搜集】DirectX學習

.sh 資料指南 c++ tor 動漫 light Go pos 【網站推薦：】GameRes遊資網-遊戲開發者門戶 http://www.gameres.com/ 【基礎知識：】《遊戲編程》第一部基礎篇 - GameRes.com http://dev.gamere

【資料應用技巧】NLP領域的預訓練之風

相關推薦