1. 程式人生 > >智能挖掘:NLPIR大數據語義挖掘文本數據

智能挖掘:NLPIR大數據語義挖掘文本數據

大數據挖掘 語義分析 智能挖掘 信息智能過濾

  大數據應用有兩個場景,人工智能與 商業智能。兩者都是通對數據的感知、理解、挖掘,然後形成決策支持,最終反饋到“行動”中去;只不過AI對行動的“影響”是自動化的。

“大量”、“多源、異質、復雜”、“動態”、“價值高但價值密度低”的數據特征決定了當前的數據挖掘技術具有如下技術特征:

(1)“大量的”與並行分布式數據挖掘算法研究

  數據的“大”通常是指PB級以上的。這一特征需要更高性能的計算平臺支持,考慮大規模數據的分布式、並行處理,對數據挖掘技術帶來的挑戰是I/O交換、數據移動的代價高,還需要在不同站點間分析數據挖掘模型間的關系。雖然以往已有並行分布式數據挖掘算法的相關研究,但是,大數據環境下,需要新的雲計算基礎架構支撐。

(2)“多源的”與不確定數據挖掘算法研究

  大數據時代,收集和獲取各種數據倍受關註,更多方式、更多類型、更多領域的數據被收集。不同數據源的數據由於數據獲取的方式不同、收集數據的設備不同,大數據下,挖掘的數據對象常常具有不確定、不完整的特點,這要求大數據挖掘技術能夠處理不確定、不完整的數據集,並且考慮多源數據挖掘模型和決策融合。

  數據挖掘一直以來重視數據質量。數據的質量決定數據挖掘結果的價值。然而,大數據環境下,數據獲取能力逐漸高於數據分析能力。數據獲取過程中數據缺失、含有噪音難以避免,更值得註意的是,數據獲取的目標也與以前不同,並不是針對某個特定應用或特定任務收集的。數據填充、補全是困難的。因此,大數據挖掘技術要有更強地處理不確定、不完整數據集的能力。

(3)“復雜的”與非結構化、超高維、稀疏數據挖掘算法研究

  大數據下,來自網絡文本(用戶評論文本數據)、圖像、視頻的數據挖掘應用更加廣泛,非結構化數據給數據挖掘技術帶來了新的要求,特征抽取是非結構化數據挖掘的重要步驟,大數據挖掘算法設計要考慮超高維特征和稀疏性。也需要新型非關系型數據庫技術的支持,通常表現為關系型數據庫和非關系型數據庫互為補充。

  超高維特征分析的需求使得深度學習技術成為熱點。數據挖掘技術一直將統計學習、機器學習、人工智能等算法和技術與數據庫技術結合應用,發現數據中的規律。大數據環境下,深度學習與大數據的結合,也將成為尋找大數據其中規律的重要支撐技術之一。

(4)“動態的、演變的”與實時、增量數據挖掘算法研究

  時序數據挖掘是數據挖掘領域的一個研究主題。然而,大數據環境下,數據的獲取更加高速,關鍵是處理數據的需求在實時性方面的要求更高。早期的數據挖掘總是能容忍分鐘級別,甚至更長時延的響應。現在,許多領域已經使用數據挖掘技術分析本領域數據,各個領域對數據挖掘結果響應需求存在差異,不少領域需要有更到的響應度,例如實時在線精準廣告投放、證券市場高頻交易等。

(5)“高價值低密度”與聚類、不平衡分類、異常挖掘算法研究

  大數據環境下,產生了新的數據挖掘任務。其中,特異群組是一類低密度高價值的數據,特異群組是指在眾多行為對象中,少數對象群體具有一定數量的相同或相似的行為模式,表現出相異於大多數對象而形成異常的組群。特異群組挖掘問題既不是異常點挖掘問題也不是聚類問題,是一類全新的問題。

NLPIR文本搜索與挖掘系統針對互聯網內容處理的需要,融合了自然語言理解、網絡搜索和文本挖掘的技術,提供了用於技術二次開發的基礎工具集。開發平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中。

NLPIR文本搜索與挖掘系統充分融合了自然語言理解、信息檢索等方面多年的技術積累,具有智能、高效、自學習三大特點:

  智能主要體現在專家啟發式知識與機器學習的有機融合;

  高效體現在本系統在保證準確率的情況下,可以單機每秒處理10MB的文本數據;

  自學習是指通過機器學習,自動抽取新的語言知識,以適應新的網絡語言變化,做到因時而變。


智能挖掘:NLPIR大數據語義挖掘文本數據