1. 程式人生 > >【NLP】基於CRF條件隨機場的命名實體識別原理詳解

【NLP】基於CRF條件隨機場的命名實體識別原理詳解

1. 命名實體用來做什麼?

在自然語言處理應用領域中,命名實體識別是資訊檢索、知識圖譜、機器翻譯、情感分析、問答系統等多項自然語言處理應用的基礎任務,例如,我們需要利用命名實體識別技術自動識別使用者的查詢,然後將查詢中的實體連結到知識圖譜對應的結點上其識別的準確率將會直接影響到後續的一系列工作。

2. 命名實體識別有哪些難點?

  • 命名實體在不同領域或不同場景下的識別具有較大的差異。目前已標註的語料通常侷限於某些領域,難以適用於其他語料,例如:基於新聞語料進行訓練,然後在社交語料進行測試,測試的結果往往難以達到理想的效果,因為社交語料中存在大量非規範的用語。
  • 命名實體識別標註成本較大,目前命名實體識別標註語料較少,如何從較少的語料中學習到較好的模型,或者藉助其他相似任務語料以及大量未標記的語料進行學習,這給命名實體識別提出了新的挑戰。
  • 中文命名實體識別中“字”的邊界是確定的,但是“詞”的邊界是模糊的,因此通常會出現一些語義理解歧義的情況,例如:“讓人大吃一驚”這句話存在兩種分詞方案,“讓/人大/吃一驚”和“讓人/大吃一驚”,這兩種分詞方案的語句意思完全不一樣。中文命名實體識別通常要與中文分詞、淺層語法分析等過程相結合,而分詞、語法分析的準確率直接影響了命名實體識別的效果。
  • 待識別的文字中存在著大量的未登入詞,即新的實體詞,隨著時間的推移,我們難以維護這些新詞。

3 現有研究

基於統計模型的命名實體識別方法歸納

4 CRF Conditional Random Fields條件隨機場)

4.1 條件隨機場介紹

四種模型對比

在給定觀察序列X時,某個特定標記序列Y的概率可以定義為

4.2 CRF的引數估計

4.3 預測

實驗

1998年人民日報測試語料

#sentence

#PER

#LOC

#ORG

train

46364

17615

36517

20571

test

4365

1973

2877

1331

相關推薦

NLP基於CRF條件隨機命名實體識別原理

1. 命名實體用來做什麼? 在自然語言處理應用領域中,命名實體識別是資訊檢索、知識圖譜、機器翻譯、情感分析、問答系統等多項自然語言處理應用的基礎任務,例如,我們需要利用命名實體識別技術自動識別使用者的查詢,然後將查詢中的實體連結到知識圖譜對應的結點上其識別的準確率將會直接影

NLP基於機器學習角度談談CRF(三)

作者:白寧超 2016年8月3日08:39:14 【摘要】:條件隨機場用於序列標註,資料分割等自然語言處理中,表現出很好的效果。在中文分詞、中文人名識別和歧義消解等任務中都有應用。本文源於筆者做語句識別序列標註過程中,對條件隨機場的瞭解,逐步研究基於自然語言處理方面的應用。成文主要源於自然語言處理

NLP基於自然語言處理角度談談CRF(二)

作者:白寧超 2016年8月2日21:25:35 【摘要】:條件隨機場用於序列標註,資料分割等自然語言處理中,表現出很好的效果。在中文分詞、中文人名識別和歧義消解等任務中都有應用。本文源於筆者做語句識別序列標註過程中,對條件隨機場的瞭解,逐步研究基於自然語言處理方面的應用。成文主要源於自然語言處理

NLP基於統計學習方法角度談談CRF(四)

作者:白寧超 2016年8月2日13:59:46 【摘要】:條件隨機場用於序列標註,資料分割等自然語言處理中,表現出很好的效果。在中文分詞、中文人名識別和歧義消解等任務中都有應用。本文源於筆者做語句識別序列標註過程中,對條件隨機場的瞭解,逐步研究基於自然語言處理方面的應用。成文主要源於自然語言處理

CRF條件隨機總結

fields 學習筆記 call 馬爾科夫隨機場 detail strong 概率計算 觀測 play 根據《統計學習方法》一書中的描述,條件隨機場(conditional random field, CRF)是給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概

CRF++ 條件隨機訓練,Anaconda的centos環境搭建

一、安裝Anaconda環境(最好到官網下載最新版本) 1、檢視系統的型別:file /sbin/init (檢視系統是32位的,還是64位的,本人是32位的) 2、下載安裝包,並上傳,比如:Anaconda3-5.2.0-Linux-x86.sh 3、安裝命令:bas

專欄 - 基於時空條件隨機場(STCRF)的鐳射雷達地面點估計與分割

基於時空條件隨機場(STCRF)的鐳射雷達地面點估計與分割 本專欄為論文《Ground Estimation and Point Cloud Segmentation using SpatioTemporal Conditiona

CRF條件隨機簡介

 CRF(Conditional Random Field) 條件隨機場是近幾年自然語言處理領域常用的演算法之一,常用於句法分析、命名實體識別、詞性標註等。在我看來,CRF就像一個反向的隱馬爾可夫模型(HMM),兩者都是用了馬爾科夫鏈作為隱含變數的概率轉移模型,只不過HMM

CRF++/CRF/條件隨機的特徵函式模板

由於最近想實現CRF,學完了理論後就開始怎麼想怎麼實現,想參照CRF++的開源實現,但首先要解決的怎麼理解特徵模板,所以寫了此文,主要參考了2篇文章,在此感謝。 CRF++要求的訓練資料格

Viterbi(維特比)演算法在CRF(條件隨機)中是如何起作用的?

之前我們介紹過BERT+CRF來進行命名實體識別,並對其中的BERT和CRF的概念和作用做了相關的介紹,然對於CRF中的最優的標籤序列的計算原理,我們只提到了維特比演算法,並沒有做進一步的解釋,本文將對維特比演算法做一個通俗的講解,以便大家更好的理解CRF為什麼能夠得到最優的標籤序列。 通過閱讀本文你將能

庫函式版本基於STM32F103的MPU6050的原始資料讀取程式

 因為我的部落格已經對I2C協議的詳細過程已經做了一個例子!所以這個MPU6050的程式我將使用庫函式完成! 第一步:硬體連線: 第二步:初始化I2C埠的函式: /***PB6/PB7 埠初始化****/ static void I2C_GPIO_Config(voi

論文筆記基於深度學習的中文命名實體識別研究》閱讀筆記

作者及其單位:北京郵電大學,張俊遙,2019年6月,碩士論文 摘要 實驗資料:來源於網路公開的新聞文字資料;用隨機欠取樣和過取樣的方法解決分類不均衡問題;使用BIO格式的標籤識別5類命名實體,標註11種標籤。 學習模型:基於RNN-CRF框架,提出Bi-GRU-Attention模型;基於改進的ELMo可

讓你不再害怕指針——C指針(經典,非常詳細)

有一個 情況 value 第一個字符 接下來 意思 strcpy abcdefg 數值 前言:復雜類型說明 要了解指針,多多少少會出現一些比較復雜的類型,所以我先介紹一下如何完全理解一個復雜類型,要理解復雜類型其實很簡單,一個類型裏會出現很多運算符,他們也像普通的表

js中的事件委托或是事件代理

ava 程序 fff 員工 我們 cnblogs 上傳 on() 類型 起因: 1、這是前端面試的經典題型,要去找工作的小夥伴看看還是有幫助的; 2、其實我一直都沒弄明白,寫這個一是為了備忘,二是給其他的知其然不知其所以然的小夥伴們以參考; 概述: 那什麽叫

四款經典3.7v鋰電池充電電路圖

大小 來源 輸入 控制 電路原理圖 cfa and 繼續 lan 3.7v鋰電池充電電路圖(一) 1、鋰電池的充電: 根據鋰電池的結構特性,最高充電終止電壓應為4.2V,不能過充,否則會因正極的鋰離子拿走太多,而使電池報廢。其充放電要求較高,可采用專用的恒流、恒壓充電器進行

pythonNumpy中stack(),hstack(),vstack()函數

一起 int pan 控制 意思 name 體會 你們 如何 轉自 https://blog.csdn.net/csdn15698845876/article/details/73380803 這三個函數有些相似性,都是堆疊數組,裏面最難理解的應該就是stack()函數了,

VMware虛擬機三種網絡模式超

編輯器 網卡 host 子網 什麽 script network 如何解決 技術 【原文】https://www.toutiao.com/i6596228488666022403/ 由於Linux目前很熱門,越來越多的人在學習Linux,但是買一臺服務放家裏來學習,實在是很

ApacheApache ab壓力測試工具Window下載和用法

enc ons 所有 The 產生 ima 腳本 數據 等待 ab是apache自帶的網站壓力測試工具。 使用起來非常的簡單和方便。 不僅僅是可以apache服務器進行網站訪問壓力測試,還可以對其他類型的服務器進行壓力測試。 比如nginx,tomcat,IIS等 首先當然

C++靜態分配和動態分配 堆和棧(

但是,在使用陣列的時候,總有一個問題困擾著我們:陣列應該有多大?在很多的情況下,你並不能確定要使用多大的陣列,比如上例,你可能並不知道我們要定義的這個陣列到底有多大,那麼你就要把陣列定義得足夠大。這樣,你的程式在執行時就申請了固定大小的你認為足夠大的記憶體空間。即使你知道你想利用的空間大小,但是如果因為某種特

sklearn利用sklearn訓練LDA主題模型及調參

人生苦短,我愛python,尤愛sklearn。sklearn不僅提供了機器學習基本的預處理、特徵提取選擇、分類聚類等模型介面,還提供了很多常用語言模型的介面,sklearn.decomposition.LatentDirichletAllocation就