1. 程式人生 > >NLPIR-KGB知識圖譜大資料語義挖掘新引擎

NLPIR-KGB知識圖譜大資料語義挖掘新引擎

  近些年,由於以社交網站、基於位置的服務LBS 等為代表的新型資訊產生方式的湧現,以及雲端計算、移動和物聯網技術的迅猛發展,無處不在的移動、無線感測器等裝置無時不刻都在產生資料,數以億計使用者的網際網路服務時時刻刻都在產生著資料互動,大資料時代已經到來。在當下,大資料炙手可熱,不管是企業還是個人都在談論或者從事大資料相關的話題與業務,我們創造大資料同時也被大資料時代包圍。在大量的資料中找到有意義的模式和規則。在大量資料面前,資料的獲得不再是一個障礙,而是一個優勢。對於資料量早已逾越TB、增長率驚人、實時性高的大資料,如何分析、管理、利用大資料等工作仍將面臨若干的挑戰。

  大資料(Big data)通常用來形容大量非結構化和半結構化資料,這些資料在下載到關係型資料庫用於分析時會花費過多時間和金錢。大資料分析常和雲端計算聯絡到一起,因為實時的大型資料集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。簡言之,從各種各樣型別的資料中,快速獲得有價值資訊的能力,就是大資料技術。

  大資料技術,從本質上講是從型別各異、內容龐大的資料中快速獲得有價值資訊的技術。目前,隨著大資料領域被廣泛關注,大量新的技術已經開始湧現出來,而這些技術將成為大資料採集、儲存、分析、表現的重要工具。

  大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。換言之,如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的“加工能力”,通過“加工”實現資料的“增值”。

  大資料處理的關鍵技術主要包括:資料採集、資料預處理(資料清理、資料整合、資料變換等)、大資料儲存、資料分析和挖掘、資料的呈現與應用(資料視覺化、資料安全與隱私等)。

  北京理工大學大資料搜尋與挖掘實驗室張華平主任研發的

NLPIR大資料語義智慧分析技術是對語法、詞法和語義的綜合應用。NLPIR大資料語義智慧分析平臺是根據中文資料探勘的綜合需求,融合了網路精準採集、自然語言理解、文字挖掘和語義搜尋的研究成果,並針對網際網路內容處理的全技術鏈條的共享開發平臺。

  其中KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發的知識圖譜構建與推理引擎,基於漢語詞法分析的基礎上,採用KGB語法實現了實時高效的知識生成,可以從非結構化文字中抽取各類知識,並實現了從表格中抽取指定的內容等。KGB同時可以定義不同的動作,如抽取動作,並能自定義各類後處理程式。利用KGB知識圖譜引擎可以抽取到產品的詳細報價資訊,方便進行下一步的資料探勘與圖譜構建。

  隨著雲端計算、移動網際網路以及物聯網等技術的發展和完善,相信大資料在各個領域的應用會越來越廣泛和深入,相關的研究也會越來越全面和深入,在資訊管理領域,綜合應用資料探勘技術和人工智慧技術,獲取使用者知識、文獻知識等各類知識,將是實現知識檢索和知識管理髮展的必經之路。