1. 程式人生 > >python自然語言處理——1.5 自動理解自然語言

python自然語言處理——1.5 自動理解自然語言

微信公眾號:資料運營人
本系列為博主的讀書學習筆記,如需轉載請註明出處。

第一章 語言處理與python

1.5 自動理解自然語言詞意消歧指代消解自動生成語言機器翻譯人機對話系統文字的含義

1.5 自動理解自然語言

詞意消歧

大家都應該知道,無論是漢語,英語甚至其他語言,每一個詞語都有不同的含義,所謂的詞意消歧就是通過文章的上下文來確定該詞語在該文中所表達的含義。

指代消解

指代消解作為資訊抽取領域的一個熱點技術,從廣義上看就是在文章中確定代詞紙箱那個名詞短語的問題。按照指向一般分為回指和預指,回指就是代詞的先行詞在代詞的前面;預指指代詞的先行詞子啊代詞的後面。一般包含人稱代詞,指示代詞普通名詞短語等。

自動生成語言

隨著近年來文字資料的指數級增長和AI技術的不斷髮展,一些大型的公司通過收集的文字進行建模學習,實現了自動生成語言的技術,如騰訊的新聞寫作機器人,自動生成股評等。

騰訊寫作機器人
騰訊寫作機器人
機器翻譯

長久以來,機器翻譯( MT)都是語言理解的聖盃,人們希望能找到從根本上提供高品質的符合語言習慣的任意兩種語言之間的翻譯。雖然目前的機器翻譯技術得到了很大的提升,但因為每一個詞語都有很多的含義,以及機器對上下文的銜接存在瑕疵,還有待去提高。

谷歌翻譯
谷歌翻譯
人機對話系統

我們所能看到的最基礎一些人機系統有淘寶京東客服等,通過一些關鍵詞與進行溝通對話。而語音的人機對話系統會稍微複雜,其中最為核心的技術

是語音識別成文字(ASR)/語言理解(NPU)/文字合成為語音(TTS)

人機對話系統框架
人機對話系統框架
文字的含義

近年來,一個叫做文字含義識別(Recognizing Textual Entailment,簡稱RTE)的“公開共享任務”成為語言理解所關注的焦點,和我們平常的語言理解不同,類似於公務員考試中的推理題。
如:
(1)如果有人是一本書的作者,那麼他寫了這本書;
(2)如果有人是一本書的編輯,那麼他沒有寫這本書;
(3)如果有人是18本書的編輯或作者,責無法斷定他是18本書的作者。