1. 程式人生 > >NLPIR語義挖掘建互聯網內容處理全技術鏈條

NLPIR語義挖掘建互聯網內容處理全技術鏈條

ont 基於 轉化 面向 roi 海量數據 功能 開發接口 中間

  數據挖掘(或知識發現)就是從大量的數據中抽 取以前未知並具有潛在可用的模式。然而數據挖掘領域還缺之獨立性,數據挖掘是人工智能(AI)技術與數據庫技術的結合。它的核心概念是AI領域中的機器學習。數據挖掘系統所采用的主要算法是 AI中知識發現技術的應用。 目前數據挖掘研究和開發表明數據挖掘需 要覆蓋各種各樣不同的應用任務,從數據的預處理到關聯規則、聚類分析、數據分類、偏差檢查、序列模式等等特定的模式。因此,這一技術應用是一個極富挑戰性的任務。

  近年來出現的數據挖掘技術之所以被目前認為具有令人興奮的研究前景,是因為它能夠獲得廣泛的應用。如用於支持企業關鍵性決策,市場策略的制定等等。面對洶湧而來的大量數據,企業對數據挖掘應用形成極大的需求,將使這一技術迅速得到發展和完善。在大型商業、金融業、保險業、民航等 大型企業都開始得到應用。

  數據挖掘技術從一開始就是面向應用領域,它不僅是面向特定數據庫的簡單檢索查詢調用,而且,要對數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指定實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測.數據挖掘技術具有以下特點:

  1. 處理的數據規模十分龐大,達到GB、TB數量級,甚至更大。

  2. 查詢一般是決策制定者(用戶)提出的即時隨機查詢,往往不能形成精確的查詢要求,需要靠系統本身尋找其可能感興趣的東西。

  3. 在一些應用(如商業投資等)中,由於數據變化迅速,因此要求數據挖掘能快速做出相應反應以隨時提供決策支持。

  4. 數據挖掘中,規則的發現基於統計規律.因此,所發現的規則不必適用於所有數據,而是當達到某一臨界值時,即認為有效.因此,利用數據挖掘技術可能會發現大量的規則。

  5. 數據挖掘所發現的規則是動態的,它只反映了當前狀態的數據庫具有的規則,隨著不斷地向數據庫中加入新數據,需要隨時對其進行更新。

  北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。

  NLPIR大數據語義智能分析平臺主要有精準采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,雲服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統平臺,可以供Java,Python,C,C#等各類開發語言使用。

  數據挖掘技術本身就是當前數據技術發展的新領域,文本挖掘則發展歷史更短。傳統的信息檢索技術對於海量數據的處理並不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術是從信息抽取以及相關技術領域中慢慢演化而成的。在信息管理領域,綜合應用數據挖掘技術和人工智能技術,獲取用戶知識、文獻知識等各類知識,將是實現知識檢索和知識管理發展的必經之路。

NLPIR語義挖掘建互聯網內容處理全技術鏈條