1. 程式人生 > >靈玖軟件:大數據語言新特征發現

靈玖軟件:大數據語言新特征發現

方法 相關 計算 立場 歧義 互信 中英文 編碼 常用

  信息的基本單位是句子,一個句子可以較表達完整連貫的易於理解的語義。句子中起主要作用的往往是關鍵詞、詞組或短語,而句子中的其他成分只是起到進一步修飾連接的作用,它們只是對基本信息的細化和補充。一旦獲取了這些有意義的關鍵信息,便能獲取句子的基本信息。因此,新特征語言和有意義串發現對中文自然語言理解是很有意義的。發現頻繁使用的新詞和短語等有意義串不僅能改進分詞準確率,也有著其他廣泛的應用前景。其應用領域主要如下幾個方面:

技術分享圖片

  首先,是對信息檢索索引詞的分析。例如,“計算技術研究所”是一個完整的查詢詞,而“計算”或者“技術”幾乎不會有人去查詢。當用戶想搜索大眾汽車時,輸入“大眾”得到的搜索結果可能不太準確,包含很多類似“人民大眾”、“勞苦大眾”這樣非大眾汽車的信息,而作為有意義串的“上海大眾”具有語義完整性,能夠排除歧義,一般能更準確地描述用戶的需求。所以,有意義串能夠應用到信息檢索的查詢詞修正以及相關搜索分析。

  其次,在社會熱點挖掘與跟蹤方面有應用價值。一個有意義串就是一個線索,就是一個很有價值的社會現象,它們往往包含了網民對當前社會各種現象的立場和觀點。因此,對新特征語言和有意義串的挖掘,對社會熱點挖掘與輿情監控的意義重大。

  第三,能用於信息分析與特征提取。除字和詞外,常用的文本特征項主要有短語、語義概念、有意義串等。有意義串的提取對於改善文本分類和聚類性能具有重要指導意義。

  第四,對詞典擴充與語料庫建設意義重大。由於新詞出現的速度不斷加快,新詞出現的領域不斷增多,使用傳統的人工方法搜集新詞語,既耗時又耗力且時效性差。如果利用電腦的計算能力和自動檢測方法,可以快速輸出新詞候選供人工進行篩選,這將大大減輕了人的負擔。若能將新詞屬於有意義串的一部分被自動提取出來,必將促進語料庫的自動化建設。此外,有意義串挖掘進一步深化可以進行關鍵頻繁模式挖掘,對更高層次的文本自動內容抽取、話題檢測和機器翻譯等應用都有比較重要的意義。

  新特征詞和有意義串是指具備統計意義的串,新特征詞和有意義串主要分為以下幾個類別(其中前兩類全部是詞語,後三類中既包括詞語又包括短語和詞組):

  (1). 命名實體,如 “民進黨”、 “巴西隊”等;

  (2). 新造詞,指狹義新詞,如“博客”、“戶型”、“撞衫”等;

  (3). 領域術語,指領域相關的常用術語,如“計算語言學”、“未登錄詞”、“股骨頭壞死”等;

  (4). 固定搭配,主要指通用語料中經常使用的常用搭配,如“住房需求”等;

(5). 成語、歇後語等慣用語,如“智者千慮,必有一失”,“仁者見仁,智者見智”等。

有很多學者用統計的方法提取有意義串,即根據一個字符串的頻率、互信息

(Mutual Information,MI)、鄰接類別(Accessor Variety, AV)等統計量來判斷該串是否為有意義串。這種方法對高頻與意義串處理結果較好,但對很難有效的提取低頻的有意義串。

  而NLPIR文本搜索與挖掘系統是針對互聯網內容處理的需要,融合了自然語言理解、網絡搜索和文本挖掘的技術,提供了用於技術二次開發的基礎工具集。

  NLPIR能夠全方位多角度滿足應用者對大數據文本的處理需求,包括大數據完整的技術鏈條:網絡抓取、正文提取、中英文分詞、詞性標註、實體抽取、詞頻統計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動註音、文本聚類等。

靈玖軟件:大數據語言新特征發現