1. 程式人生 > >數據挖掘之定義

數據挖掘之定義

-- 歷史 問題 數學 自己 條件 不同 計算 和數

大數據是2012的時髦詞匯,正受到越來越多人的關註和談論。

大數據之所以受到人們的關註和談論。是由於隱藏在大數據後面超千億美元的市場機會。

  大數據時代,數據挖掘是最關鍵的工作。

下面內容供個人學習用,感興趣的朋友能夠看一下。

  智庫百科是這樣描寫敘述數據挖掘的“數據挖掘又稱數據庫中的知識發現,是眼下人工智能和數據庫領域研究的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的並有潛在價值的信息的非平庸過程。

數據挖掘是一種決策支持過程。它主要基於人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等。高度自己主動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略。降低風險。做出正確的決策。

  數據挖掘的定義

  技術上的定義及含義

  數據挖掘(Data Mining)就是從大量的、不全然的、有噪聲的、模糊的、隨機的實際應用數據中。提取隱含在當中的、人們事先不知道的、但又是潛在實用的信息和知識的過程。

這個定義包含好幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;並不要求發現放之四海皆準的知識,僅支持特定的發現問題。

  與數據挖掘相近的同義詞有數據融合、人工智能、商務智能、模式識別、機器學習、知識發現、數據分析和決策支持等。

  ----何為知識從廣義上理解。數據、信息也是知識的表現形式,可是人們更把概念、規則、模式、規律和約束等看作知識。人們把數據看作是形成知識的源泉。好像從礦石中採礦或淘金一樣。

原始數據能夠是結構化的。如關系數據庫中的數據;也能夠是半結構化的,如文本、圖形和圖像數據。甚至是分布在網絡上的異構型數據。發現知識的方法能夠是數學的。也能夠是非數學的;能夠是演繹的,也能夠是歸納的。

發現的知識能夠被用於信息管理,查詢優化,決策支持和過程控制等,還能夠用於數據自身的維護。

因此,數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。在這樣的需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、並行計算等方面的學者和project技術人員,投身到數據挖掘這一新興的研究領域。形成新的技術熱點。

  這裏所說的知識發現,不是要求發現放之四海而皆準的真理。也不是要去發現嶄新的自然科學定理和純數學公式,更不是什麽機器定理證明。

實際上,全部發現的知識都是相對的。是有特定前提和約束條件,面向特定領域的,同一時候還要可以易於被用戶理解。最好能用自然語言表達所發現的結果。

  商業角度的定義

  數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其它模型化處理,從中提取輔助商業決策的關鍵性數據。

  簡而言之,數據挖掘事實上是一類深層次的數據分析方法。

數據分析本身已經有非常多年的歷史。僅僅只是在過去數據收集和分析的目的是用於科學研究。另外,因為當時計算能力的限制,對大數據量進行分析的復雜數據分析方法受到非常大限制。如今,因為各行業業務自己主動化的實現,商業領域產生了大量的業務數據,這些數據不再是為了分析的目的而收集的,而是因為純機會的(Opportunistic)商業運作而產生。分析這些數據也不再是單純為了研究的須要,更主要是為商業決策提供真正有價值的信息,進而

  獲得利潤。但全部企業面臨的一個共同問題是:企業數據量非常大,而當中真正有價值的信息卻非常少,因此從大量的數據中經過深層分析,獲得有利於商業運作、提高競爭力的信息,就像從礦石中淘金一樣,數據挖掘也因此而得名。

  因此,數據挖掘能夠描寫敘述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,並進一步將其模型化的先進有效的方法。

數據挖掘之定義