1. 程式人生 > >資料探勘中的視覺化方法

資料探勘中的視覺化方法

  1. 資料視覺化
    資料視覺化,是關於資料視覺表現形式的科學技術研究。其中,這種資料的視覺表現形式被定義為,一種以某種概要形式抽提出來的資訊,包括相應資訊單位的各種屬性和變數。[1]
    它是一個處於不斷演變之中的概念,其邊界在不斷地擴大。主要指的是技術上較為高階的技術方法,而這些技術方法允許利用圖形、影象處理、計算機視覺以及使用者介面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對資料加以視覺化解釋。與立體建模之類的特殊技術方法相比,資料視覺化所涵蓋的技術方法要廣泛得多。
  2. 傳統的視覺化隱喻用於單個或小維度資料,它們包括:
    A: 顯示聚合和頻數的條形統計圖
    B: 顯示變數值分佈的柱狀圖
    C: 瞭解走向程式的折線圖
    D: 總體的各部分視覺化的餅圖
    E: 二元分析的散點圖
    3.平行座標
    平行座標是一種通常的視覺化方法, 用於對高維幾何和多元資料的視覺化。
    Parallel Coordinates 平行座標
    為了表示在高維空間的一個點集, 在N條平行的線的背景下,(一般這N條線都豎直且等距),一個在高維空間的點被表示為一條拐點在N條平行座標軸的折線,在第K個座標軸上的位置就表示這個點在第K個維的值。
    平行座標是資訊視覺化的一種重要技術。為了克服傳統的笛卡爾直角座標系容易耗盡空間、 難以表達三維以上資料的問題, 平行座標將高維資料的各個變數用一系列相互平行的座標軸表示, 變數值對應軸上位置。 為了反映變化趨勢和各個變數間相互關係,往往將描述不同變數的各點連線成折線。所以平行座標圖的實質是將 維歐式空間的一個點Xi(xi1,xi2,…,xim) 對映到維平面上的一條曲線。
    平行座標圖可以表示超高維資料。 平行座標的一個顯著優點是其具有良好的數學基礎, 其射影幾何解釋和對偶特性使它很適合用於視覺化資料分析。
    4.自組織對映(SOM)進行視覺化
    自組織神經網路SOM是基於無監督學習方法的神經網路的一種重要型別。自組織對映網路理論最早是由芬蘭赫爾辛基理工大學Kohen於1981年提出的。此後,伴隨著神經網路在20世紀80年代中後期的迅速發展,自組織對映理論及其應用也有了長足的進步。
  3. 資料視覺化概述
    資料視覺化主要旨在藉助於圖形化手段,清晰有效地傳達與溝通訊息。但是,這並不就意味著資料視覺化就一定因為要實現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端複雜。為了有效地傳達思想概念,美學形式與功能需要齊頭並進,通過直觀地傳達關鍵的方面與特徵,從而實現對於相當稀疏而又複雜的資料集的深入洞察。然而,設計人員往往並不能很好地把握設計與功能之間的平衡,從而創造出華而不實的資料視覺化形式,無法達到其主要目的,也就是傳達與溝通訊息。
    資料視覺化與資訊圖形、資訊視覺化、科學視覺化以及統計圖形密切相關。當前,在研究、教學和開發領域,資料視覺化乃是一個極為活躍而又關鍵的方面。“資料視覺化”這條術語實現了成熟的科學視覺化領域與較年輕的資訊視覺化領域的統一。
  4. 資料視覺化技術
    ①資料空間:是由n維屬性和m個元素組成的資料集所構成的多維資訊空間;
    ②資料開發:是指利用一定的演算法和工具對資料進行定量的推演和計算;
    ③資料分析:指對多維資料進行切片、塊、旋轉等動作剖析資料,從而能多角度多側面觀察資料;
    ④資料視覺化:是指將大型資料集中的資料以圖形影象形式表示,並利用資料分析和開發工具發現其中未知資訊的處理過程。
    資料視覺化已經提出了許多方法,這些方法根據其視覺化的原理不同可以劃分為基於幾何的技術、面向畫素技術、基於圖示的技術、基於層次的技術、基於影象的技術和分散式技術等等。
  5. 資料視覺化的基本手段
    資料視覺化主要是藉助於圖形化手段,清晰有效地傳達與溝通訊息。但是,這並不就意味著,資料視覺化就一定因為要實現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端複雜。為了有效地傳達思想概念,美學形式與功能需要齊頭並進,通過直觀地傳達關鍵的方面與特徵,從而實現對於相當稀疏而又複雜的資料集的深入洞察。然而,設計人員往往並不能很好地把握設計與功能之間的平衡,從而創造出華而不實的資料視覺化形式,無法達到其主要目的,也就是傳達與溝通訊息。
    資料視覺化與資訊圖形、資訊視覺化、科學視覺化以及統計圖形密切相關。當前,在研究、教學和開發領域,資料視覺化乃是一個極為活躍而又關鍵的方面。“資料視覺化”這條術語實現了成熟的科學視覺化領域與較年輕的資訊視覺化領域的統一。