ELMo——一種新型的詞嵌入方法

阿新 • • 發佈：2019-01-14

一、概要

二、雙向語言模型

三、線性組合

一、概要

英語論文原文參考連結：https://pan.baidu.com/s/1g7lKZoefFmNy8GXgH5CDNg 密碼：hq2n

英文論文名稱：《Deep contextualized word representations》

ELMo為複雜詞語應用（語法或語義）和語言語義建模（例如一詞多義）。這句話我也不好翻譯，現貼出英文原文供大家參考：

簡單來說，ELMo模型以雙向語言模型為基礎，用各層之間的線性組合來表示詞向量的一種方式。下文中會詳細介紹什麼是雙向語言模型和為什麼以及如何進行線性組合。

二、雙向語言模型

考慮給定的N個片語 $(t_{1},t_{2},t_{3},....,t_{N})$ ，計算這句話出現的概率： $p(t_{1},t_{2},...,t_{N})$ :

(1) forward language model(前向語言模型)

Forward language model採用的是利用前面的資訊估計後面的資訊的方式，具體如下：

每一個t(k)出現的概率都依賴於前面的所有詞語。如果採用lstm（RNN）模型的話，我們定義如下符號： $\overrightarrow h^{LM}_{k,j}$

表示第k個單詞在第j層的輸出（注意箭頭的方向，LM表示language model），如果不理解層的意思，那麼請去參考有關RNN的資料。

(2)backword language model

Backward language model採用的是利用後面的資訊估計前面的資訊的方式，具體如下（注意和forward LM比較）：

每一個t(k)chu出現的概率都依賴於後面的所有詞語。如果採用lstm(RNN)模型的話，我們定義如下符號： $\overleftarrow h^{LM}_{k,j}$

表示第k個單詞在第j層的輸出（注意箭頭的方向，代表forward或者backword)。

（3）biLM(bidirectional language model)

biLM則是整合了上面的兩種語言模型，目標函式為最大化下面的log似然函式：

從圖中可以看出，前半部分是forward language model，後半部分是backward language model。

三、線性組合

（1）哪些是需要線性組合的

對於迴圈神經網路，每一層都是有輸出的（上文的h向量）。我們要線性組合是就是上述的所有h向量。

（2）為什麼要線性組合

文中提到：高層的h更加容易捕捉依賴上下文的詞義資訊（the higher level LSTM states capture context-depend aspects of word meaning）,底層的h更容易捕捉語法資訊（while lower level states model aspects of syntax）。也就是說，不同層次的輸出所對應的特徵不一樣，組合起來更能表達整個意思。

（3）如何線性組合。

其中s為權重，計算方法：softmax normalized。γbiao表示整個權重。(權重的求法我並沒有看懂，只能貼出原文供大家參考)

ELMo——一種新型的詞嵌入方法

目錄一、概要二、雙向語言模型三、線性組合一、概要英語論文原文參考連結：https://pan.baidu.com/s/1g7lKZoefFmNy8GXgH5CDNg 密碼：hq2n 英文論文名稱：《Deep contextualized wor

一種新型的LED屏獲取顯示資料方法

1引言　　LED顯示屏作為一種新興的顯示媒體，是集光電及計算機技術於一體的高技術產品。隨著大規模積體電路和計算機技術的高速發展，得到了飛速發展，已廣泛應用於各行各業。　　在LED顯示系統中，盡大多數用來進行傳輸、處理、控制的訊號都是數字訊號，而目前大多數計算機與外部顯示裝

.Net MVC 導入導出Excel總結(三種導出Excel方法，一種導入Excel方法) 通過MVC控制器導出導入Excel文件(可用於java SSH架構)

ets esp llb pat lencod cnblogs 創建 etime mmd public class ExcelController : Controller { // // GET: /Excel/ M

一種神經元探索系統方法及裝置

最大計算性能限制硬件加速芯片使用信號所有權重發明背景與現有技術應用背景深度學習已經在圖像分類檢測、遊戲等諸多領域取得了突破性的成績。由於人工神經網絡計算量大，訓練時間長。因此，相關的硬件加速平臺也在百花齊放，包括基於英偉達的G

5分鐘讀完華為區塊鏈白皮書關鍵信息：推動構建一種新型價值網絡

華為區塊鏈昨天，華為全球分析師大會（2018HAS）在深圳舉行，華為雲BU總裁鄭葉來對外發布了《華為區塊鏈白皮書》。 5分鐘讀完華為區塊鏈白皮書關鍵信息：推動構建一種新型價值網絡下面是璽哥整理的《華為區塊鏈白皮書》中的關鍵內容，以饗各位。一、華為看區塊鏈興起 1、華為認為：電子現金交易的本質是貨幣（或類貨

CAC安全中心威脅情報 ——一種新型釣魚郵件威脅與應對策略

CAC安全中心威脅情報 ——一種新型釣魚郵件威脅與應對策略 1、釣魚郵件威脅情報 2018年9月7日，Coremail CAC安全中心發現有一種新型的釣魚郵件正在呈現擴散趨勢，由於該釣魚郵件的偽裝程度較高，部分使用者容易輕信誤點選釣魚連結。此類郵件通常會偽裝成企業內部的使用者，向

校園網使用指北-附一種免流量上網方法

學校裡沒有集體寬頻，只能使用校園網（NEU），校園網資費政策如下： ①校園網訪問ipv6站點免費不限流量; ②校園網訪問ipv4站點20元每月60GB流量。（15元每月27GB流量）除了國內高校的一些官網、直播站等支援ipv6

for迴圈的一種新的使用方法

在使用Qt過程中，看到有人使用一種新的for迴圈，感覺很方便，就記錄下來了。 vector<QString> vStrList; vStrList.push_back("A"); vStrList.push_back("B"); vStrLis

【Flask】一種生成SECRET_KEY的方法

在終端中： →ipython →import os, base64 →a = os.urandom(66) 其中os.urandom(66),生成了一個66位元組的字串，儲存到a，並且這個字串每次都是不同的，如圖： →base64.b64encode(a)

quartus 一種管腳分配方法

第一步：在QII軟體中，使用“Assignments -》 Remove Assignments”標籤，移除管腳分配內容，以確保此次操作，分配的管腳沒有因為覆蓋而出現錯誤的情況。編寫xxx.tcl檔案。該檔案需要在當前工程目錄下。格式如下：第二步：在QII軟體中，使用“To

Galera Cluster ：一種新型的高一致性MySql叢集框架

Galera Cluster是Codership公司開發的一套免費開源的高可用方案，官網為http://galeracluster.com。Galera Cluster即為安裝了Galera的Mariadb叢集（本文只介紹Mariadb Garela叢集）。其本身具有multi-master特性，支

[置頂]搜尋引擎-一種提示詞推薦演算法

　　搜尋引擎可以說目前所有網際網路應用裡技術含量最高的一種。儘管應用形式比較簡單：使用者輸入查詢詞，搜尋引擎返回搜尋結果。但是，搜尋引擎需要達到的目標：更全、更快、更準。如何讓搜尋結果更準確始終是搜尋引擎的一大難題。　　公司最近在開發某行業的垂直搜尋引

一種異常值檢測方法、原理（基於箱線圖）

先介紹使用到的方法原理，也就是一種異常檢測的方法。首先要先了解箱線圖。箱線圖箱線圖（Boxplot）也稱箱須圖（Box-whisker Plot），是利用資料中的五個統計量：最小值、第一四分位數、中位數、第三四分位數與最大值來描述資料的一種方法，它也可以粗略地看

介紹給新手的一種C語言學習方法

對於C語言的學習，不同的人有不同的經歷和不同的方法，當中許多方法都具備相對完整的步驟和不錯的功效。然而事過境遷，多年以後回頭看看走過的路，卻很難理順當初所留下的痕跡。培訓新同事或者是在CSDN上解答問題的時候，發現當中有些不錯的苗子，由於缺乏適當的引導，最終會很長一段時間陷

Galera Cluster：一種新型的高一致性MySQL叢集架構

1. 何謂Galera Cluster 何謂Galera Cluster？就是集成了Galera外掛的MySQL叢集，是一種新型的，資料不共享的，高度冗餘的高可用方案，目前Galera Cluster有兩個版本，分別是Percona Xtradb Cluster及MariaDB Cluster，都

2018-3-20論文（一種新型的智慧演算法-狼群演算法WPA）筆記二（狼群系統分析，演算法步驟）

狼群系統分工：頭狼：狼群中最有智慧以及最凶猛的。它不斷的根據狼群所感知的資訊進行決策，身份：行動的指揮者探狼：負責偵查資訊，感知獵物的氣味。在進行實物搜尋的階段，會派出一些探狼（只是一小部分）去偵測資訊，他們會根據偵測到的資訊進行自主決策，向著獵物氣味最近的方向前進。猛狼：

ORB 一種特徵匹配替代方法：對比SIFT或SURF

ORB: an efficient alternative to SIFT or SURF Taylor Guo, 2016年3月11日星期五 20:45 寫在前面的話：繼”ORB-SLAM: Tracking and Mapping Recognizable Featu

一種關鍵字提取新方法

一種關鍵字提取新方法（轉載) 原文連結https://xw.qq.com/amphtml/20181116A037K400 https://xw.qq.com/amphtml/20181116A037K400 提取句子的主謂賓然後可以計算兩個句子的相似度以及提取

2018-3-23論文一種新型智慧演算法--狼群演算法（筆記三）實驗分析單峰，多峰，可分和不可分函式

表中“U”表示此函式為單峰函式（Unimodal）：也就是函式在定義域中只有一個全域性最優解，沒有區域性最優解（區域性極值）“M”為多峰函式（Multimodal）：擁有多個區域性極值（是隻有一個全域性最優解？？）易陷入區域性最優解以及產生區域性震盪“S”為可分函式（Sepa

opencv 一種影象加密的方法

在網上偶然看到影象加密的內容，就想著研究研究，搞清楚到底是怎麼回事。其為matlab實現方法，博主好好看了下，理解了其加密的原理，然後自己用c++實現，現在記錄其原理及程式碼。 1、生成與圖片大小相對應的，具有隨機性和規律性的資料。 void getEencryptL

ELMo——一種新型的詞嵌入方法

一、概要

二、雙向語言模型

三、線性組合

相關推薦