1. 程式人生 > >基於機器學習與人工智慧的資料(資料庫+大資料)技術

基於機器學習與人工智慧的資料(資料庫+大資料)技術

       該文主要介紹了資料技術的發展現狀和展望,通過對第35屆中國資料庫學術會議的內容整理以及總結而成,希望能夠給以後打算從事資料庫研發或者開發的朋友們指點迷津。本文主要內容包括:1.資料新技術簡介,2.資料質量管理(data cleaning),3.資料分析技術,4.大資料技術的發展,5.資料技術的研究熱點,6.總結。

  • 資料新技術簡介 

       隨著大資料、機器學習(深度學習)、人工智慧、區塊鏈等相關技術的迅速發展,資料技術發生著巨大的變化。我們通過兩個例子來說明這一點,第一個例子就拿資料質量管理中的實體識別(entity resolution)來說,對於兩個實體(比如資料庫裡面的兩條記錄),要判斷它們是否是同一個實體,我們一般的傳統做法是通過定義很多相似度函式(similar function)來生成兩個記錄的相似向量(向量中的每一維代表不同屬性的相似度,因為一個實體有多個屬性,所以要定義很多相似度函式),再通過對相似向量權值相加算出總體的相似度(標準化,一般滿足[0,1]之間),緊接著設定一個閾值a,若總體相似度大於a,則實體匹配,否則不匹配,這樣做的效果很不理想。而現在我們通常藉助於機器學習的方法來訓練權值以及分類器,或者基於圖計算以及深度學習方法來生成一些非監督分類器演算法,這一些方法與傳統的方法相比,它的效率與準確率有了很大的提升。第二個例子是資料庫語言的變化,眾所周知現在最流行的查詢語言是SQL,但是隨著未來技術的發展,通過自然語言支援資料庫查詢,或者是將機器學習語言納入到資料庫查詢語言將是一個非常具有發展潛力的研究方向。因而未來的資料庫發展離不開現在熱門的機器學習和人工智慧技術,而機器學習和人工智慧也會借鑑資料庫中的一些知識,完美自己,通過兩者不斷的迭代和相互促進,共同發展。

  • 資料質量管理

       資料清洗是資料管理中非常重要的一個方面,資料清洗主要包括錯誤檢測(error detection)和資料修復(data repairing)兩個過程。錯誤檢測主要包括資料丟失(NULL or N/A)、資料去重(duplicate data)、資料違規(data violation)以及資料錯誤(data error)。資料修復技術主要包括基於限制的(constraint-based)、基於規則(rule-based)、基於統計的(statistical)、基於人機共生(human-in-the-loop)的一些方法。而這些方法越來越多的由機器來完成,因此我們可以發現現在的資料清洗技術充滿著大量的機器學習人工智慧技術。隨著機器學習以及雲端計算的發展,未來的研究方向主要包括:生成標準測試集(benchmark)、資料清理和眾包(crowdsourcing)技術的結合、資料清理和深度學習的結合、隱私資料的清理、資料清理與遷移學習的結合。

  • 資料分析技術

       資料探勘是一個傳統的資料分析技術,隨著大資料的到來,資料的多樣性和大量性促使著傳統資料探勘技術的發展,它不再僅僅處理結構化的資料,未來的發展主要包括web資料探勘、文字資料探勘、時序資料探勘(資料具有時間屬性,如臨床路徑資料)、時空資料探勘(資料由時間和空間兩個維度,如GPS定位)、圖資料探勘、大資料探勘。而大資料探勘也會常常用到大資料近似演算法,它利用取樣(sampling)、略圖(sketch)、摘要等技術,引入可控誤差,解決由大資料規模帶來的時間/空間/通訊量效率的問題。大資料的近似演算法不像傳統的近似演算法(NP完全問題的近似解),它是P問題的線性甚至亞線性時間近似解,隨著資料規模的進一步擴充套件,近似演算法將在大資料處理和分析鄰域發揮越來越大的作用。

  • 大資料技術的發展

       經過40餘年的發展,當今資訊科技社會正在經歷IT時代到DT時代的轉變,大資料技術正在深刻的影響著社會和世界。現在的大資料技術主要包括Apache Hadoop、Apache Spark(批處理平臺)、Spark Streaming、Apache Flink(流處理平臺)、Apache Beam(混合批流處理平臺,它緊緊是一個框架,沒有真正的技術引擎)。隨著技術的發展和需求的增加,未來大資料主要集中在三個方面:第一是批流融合,因為現在還沒有一個真正意義上的批流融合大資料計算系統,而未來批流融合的現實需求非常巨大(如雙十一),該系統需要統一資料模型、統一操作、計算模型、統一使用者介面等等。第二是跨域處理,我們只需要在自己的節點去分析去計算,然後將計算的結果進行傳輸和融合,而不像現在的將資料集中起來。第三是邊緣計算,利用邊緣計算的能力,例如IoT、可穿戴裝置、自動駕駛汽車、無人飛機、AR/VR裝置等,提供高效能和低延時的邊緣大資料計算平臺。

  • 資料技術的研究熱點

       未來資料技術主要會集中在圖資料、文字資料、時空資料以及文字資料等型別;機器學習與資料管理技術的結合,如自然語言支援資料庫的查詢、機器學習引入查詢優化(分散式查詢優化)、機器學習技術減少資料庫引數配置的代價、機器學習技術提高資料庫中特有查詢,如近似查詢的效果等等;現有關係型資料庫發展,如海量併發事務管理、新的面向記憶體的架構設計,減少封鎖、IO代價等;圖資料管理技術發展,如圖資料探勘、知識圖譜、圖資料應用(異常檢測、應用)、大資料環境下傳統圖問題的新方法(分散式、近似演算法等);資料分析技術發展,如深度學習模型及其在不同資料的應用、時序資料的深度分析與挖掘、基於強化學習的資料分析方法、關聯規則、聚類、異常發現等;人工智慧和深度學習技術,將進一步和資料管理融合,在資料表示、查詢語言、執行優化、生命週期管理等方面提升資料管理的智慧化;區塊鏈技術也是一個很有意義的研究方向。

  • 總結

       我們可以看出未來的資料庫技術將與機器學習人工智慧技術息息相關、互相促進、共同繁榮,加之大資料和雲端計算的發展,也將促使著資料庫技術的巨大發展(甚至變革),而這些發展都需要我們解決一些底層的課題,這就需要學術界和工業界的深度融合,相互合作,我們堅信未來的資料庫技術是非常有發展潛力的,以及有著豐富多彩的先進知識。