1. 程式人生 > >自然語言處理工具HanLP-基於層疊HMM地名識別

自然語言處理工具HanLP-基於層疊HMM地名識別

本篇接上一篇內容《HanLP-基於HMM-Viterbi的人名識別原理介紹》介紹一下層疊隱馬的原理。

首先說一下上一篇介紹的人名識別效果對比:

1. 只有Jieba識別出的人名

準確率極低,基本為地名或複雜地名組成部分或複雜機構名組成部分。舉例如下:

[1] 戰亂的阿富汗地區,槍支可隨意買賣,AK47價格約500人民幣

“阿富汗”被識別為人名。

[2] 安慶到桂林自駕遊如何規劃?

“桂林”被識別為人名。

[3] 2018天津市和平分局招聘社群戒毒、社群康復工作人員成績查詢入口

“康復”被識別為人名。

2. 只有HanLP識別出的人名

除了特別常用姓氏的名字識別正確,其他的都識別錯誤。舉例如下:

[1] 納溪區副區長李明帶隊到“花田酒地”景區檢查節前安全工作

“花田酒”被被識別為人名。

[2] 秀英“線上線下”齊發力 助力貧困戶“微互動”拓寬農產品銷路

“齊發力”被識別為人名。

[3] 緊急通知:秦報融媒粉團祖山一日遊日報名費大調整!

“秦報”被識別為人名。

3. HanLP與Jieba都識別出的人名

1. 非常用姓氏識別出的人名基本錯誤。

[1] 房產高管薪酬大起底 萬科鬱亮年薪1189.9萬僅排第二

[2] 生生不息 南通支雲釋出汶川地震十週年海報呼籲賽前默哀

[3] 為什麼伊郎不能有核武器,而美國有核武器?

2. 名字本身構成詞時基本錯誤。

[1] 周口一村莊楊絮著火,對付楊絮用啥方法好呢?

[2] 上聯: 三國魏蜀吳,如何對下聯?

[3] 上聯:燈火輝煌萬家樂。求下聯?

 

如何解決這些badcase呢,要看你的時間了,如果時間充裕的話,可以調整發射概率檔案也就是nr.txt檔案。如果時間不充裕的話,比如我現在的情況,那就只保留常用姓氏,以及特別需要關注的人名了。

上一篇的內容先說到這裡,介紹本篇的主題”基於層疊隱馬的命名實體識別”我這裡主要閱讀的是這篇文章《基於層疊隱馬爾可夫模型的中文命名實體識別》。層疊就是將模型級聯起來的意思,因此係統的結構如下圖所示:

如圖所示,層疊隱馬就是訓練三個隱馬模型,每個模型標註一種實體,三個模型採用級聯形式連線。

 

不同的實體有不同的角色標註,實際就是特徵,這些特徵需要有語言學的知識,實際上就是你的閱讀量,通過你大量閱讀總結經驗,比如姓氏可以作為名字的一個特徵(張、王、李、趙),常用地名的字尾可以作為一個特徵(省、市、區、縣),機構名錶處所的尾字可以作為一個特徵(局、處、所、院)。這裡地名的角色標註簡表如下所示:

相關推薦

自然語言處理工具HanLP-基於HMM地名識別

本篇接上一篇內容《HanLP-基於HMM-Viterbi的人名識別原理介紹》介紹一下層疊隱馬的原理。 首先說一下上一篇介紹的人名

Python中呼叫自然語言處理工具HanLP手記

HanLP方法封裝類: 1. # -*- coding:utf-8 -*- 2. # Filename: main.py 3. 4.from jpype import * 5.  5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\h

自然語言處理工具HanLP-N最短路徑分詞

本篇給大家分享baiziyu 寫的HanLP 中的N-最短路徑分詞。以為下分享的原文,部分地方有稍作修改,內容

自然語言處理工具HanLP在 Spring Boot中的應用

本文共 782字,閱讀大約需要 2分鐘 ! 概 述 HanLP 是基於 Java開發的 NLP工具包,由一系列模型與演算法組成,目標是普及自然語言處理在生產環境中的應用。而且 HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點,因此十分好上手,本文就結合 Spring Bo

Hanlp自然語言處理工具的使用演練

Hanlp是由一系列模型與演算法組成的工具包,目標是普及自然語言處理在生產環境中的應用。Hanlp具備功能完善、效能高效、架構清洗、語料時新、可自定義的特點;提供詞法分析(中文分詞、磁性標註、命名實體識別)、句法分析、文字分類和情感分析等功能。 本篇將使用者輸入的語句根據詞庫進行分詞、關鍵詞提取、摘要提取、

Spring Boot中對自然語言處理工具hanlp的呼叫詳解

概 述 HanLP 是基於 Java開發的 NLP工具包,由一系列模型與演算法組成,目標是普及自然語言處理在生產環境中的應用。而且 HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點,因此十分好上手,本文就結合 Spring Boot來將 HanLP用起來!  

自然語言處理工具HanLP的Python介面

pyhanlp: Python interfaces for HanLP HanLP的Python介面,支援自動下載與升級HanLP,相容py2、py3。 安裝 pip install pyhanlp 使用命令hanlp來驗證安裝,如因網路等原因自動安裝HanL

Hanlp自然語言處理工具之詞法分析器

  本章是接前兩篇《分詞工具Hanlp基於感知機的中文分詞框架》和《基於結構化感知機的詞性標註與命名實體識別框架》的。

自然語言處理工具python呼叫hanlp的方法步驟

Python呼叫hanlp的方法此前有分享過,本篇文章分享自“逍遙自在017”的部落格,個別處有修改,閱讀時請注意! 1.首先安

哈工大自然語言處理工具pyltp的本地安裝方法

在研究中發現,哈工大的LTP在分詞、實體識別等方面的效果甚至要優於中科院ICTCLAS,而且LTP還具備了目前在中文資訊處理領域較為罕見的語義角色標註(SRL)功能。以前我都是直接以get方式通過LTP-Cloud去使用的,但是由於受限於網速,當語料較大時 執行速度較慢。於是近期考慮在自己的機子

Python呼叫自然語言處理HanLP

Python呼叫自然語言處理包HanLP3.png一句話安裝pyhanlp,全自動下載安裝配置,還支援升級。 pip install pyhanlp 呼叫方法參考專案主頁:https://github.com/hankcs/pyhanlp Windows使用者如果遇到: building

斯坦福自然語言處理工具python環境配置

斯坦福自然語言處理工具python環境配置 1. 簡介 Stanford nlp group 是世界知名的自然語言處理研究組,該組的研究內容涵蓋了從基本的計算語言原理研究到NLP的關鍵應用技術。其中,該組所開發的coreNLP工具被廣泛應用,該工具提供了分詞、詞性標註、語

推薦一個自然語言處理工具——AllenNLP

AllenNLP: https://allennlp.org/   AllenNLP由艾倫人工智慧研究所建立和維護,與華盛頓大學和其他地方的研究人員密切合作。AllenNLP專案擁有一支由業內最佳研究人員和軟體工程師組成的專業團隊,與充滿活力的開源開發社群一起,在長期發展方面具有獨

Apache OpenNLP 1.9.1 釋出,自然語言處理工具

   Apache OpenNLP 1.9.1 釋出了,OpenNLP 是一個機器學習工具包,用於處理自然語言文字。支援大多數常用的 NLP 任務,例如:標識化、句子切分、部分詞性標註、名稱抽取、組塊、解析等。 更新內容如下: 新增 TrigramNameFeatureGe

自然語言處理工具包MALLET教程-中文版安裝使用指南

Mallet:自然語言處理工具包 MALLET是基於java的自然語言處理工具箱,包括分檔得分類、句類、主題模型、資訊抽取等其他機器學習在文字方面的應用,雖然是文字的應用,但是完全可以拿到多媒體方面來,例如機器視覺。 MALLET包含了足夠的文字分類的演算法,還有特徵提

自然語言處理一:基於樸素貝葉斯的語種檢測

本文來自是對七月線上寒小陽自然語言處理課程的總結。 本文使用樸素貝葉斯完成一個語種檢測的分類器,準確度經過簡單的引數調優可以達到99.1%。 機器學習的演算法要取得好效果,離不開資料,咱們先拉點資料(twitter資料,包含English, French, Germa

Python自然語言處理工具小結

import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.StringReader; import java.util.Collections; impor

自然語言處理hanlp,Python呼叫與構建,分詞、關鍵詞提取、命名主體識別

HanLP是一系列模型與演算法組成的NLP工具包,由大快搜索主導並完全開源,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。在Python中一種是直接呼叫hanlp的介面pyhanlp.還有就是

簡單應用復旦FNLP自然語言處理工具

FNLP是一個基於機器學習的中文自然語言文字處理的開發工具包,FNLP主要是為中文自然語言處理而開發的工具包,也包含為實現這些任務的機器學習演算法和資料集。                                                      ----------百度百科 資訊檢索 文

簡單應用復旦FNLP自然語言處理工具(一)

FNLP是一個基於機器學習的中文自然語言文字處理的開發工具包,FNLP主要是為中文自然語言處理而開發的工具包,也包含為實現這些任務的機器學習演算法和資料集。                                                      ----------百度百科 資訊