資料視覺化之"Surveying the complementary role of automatic data analysis and visualization in knowledge discovery"
Surveying the complementary role of automatic data analysis and visualization in knowledge discovery
Enrico Bertini; Denis Lalanne; VAKD '09 Proceedings of the ACM SIGKDD Workshop on Visual Analytics and Knowledge Discovery: Integrating Automated Analysis with Interactive Exploration Pages 12-20 Paris, France — July 28 - 28, 2009
分類
(1)VIS型:完全基於視覺化的技術,無需任何型別的演算法支援
(2)V++型:以視覺化為主要分析手段,包含一些支援視覺化的自動計算形式
(3)M++型:以資料探勘演算法為主要資料分析手段,視覺化提供支援理解和驗證結果
(4)VM型:包含視覺化和挖掘整合的技術,無法區分主導這兩個過程中的任何一個角色
V++型
(1)投影
自動分析方法通常在視覺化的內部工作中進行,通過在資料項和它們的圖形物件在螢幕上的位置之間建立對映。 這種方法最傳統的型別是多維縮放(MDS)。
(2)資料縮減
資料縮減是計算支援視覺化的另一個領域。視覺化具有眾所周知的可伸縮性問題,它限制了一次顯示的資料用例或維度的數量。自動方法可以降低資料複雜度,控制資訊丟失,同時允許更有效地使用螢幕空間。模式匹配技術可以用與使用者定義查詢匹配的選定資料用例的視覺化來代替資料概述。抽樣可以減少具有受控資訊丟失的資料用例數量。特性選擇可以通過保留包含資料中大部分有用資訊的子集(因此最有可能顯示有趣的模式)來減少資料維數。
(3)模式公開
在一些視覺化技術中,提取有用模式的有效性取決於視覺化的配置方式。自動方法可以幫助配置視覺化,使有用的模式更容易地出現在螢幕上。同樣,在視覺化中,視覺配置的自由度是有限的,模式檢測演算法可以幫助使一些視覺模式更突出,從而更容易看到。例如,Vizster將社交網路圖的節點組織在被彩色區域包圍的自動檢測叢集中。Johansson等人在中描述了一個增強版的平行座標,其中叢集和一系列使用者控制的傳遞函式幫助使用者揭示覆雜的結構,否則很難(如果不是不可能的話)捕捉到這些結構。
M++型
(1)模型表示
視覺化是為了便於對挖掘技術提取的模型進行解釋。根據所使用的方法,解釋模型的容易程度可能會有所不同。一些模型自然地適合於視覺化抽象(例如,分層聚類中的樹狀圖),而另一些模型則需要更復雜的設計(例如神經網路或神經網路、支援向量機)。除了解釋之外,視覺化還可以作為一種直觀地表達使用者對模型或模型部分的信任程度的方式。與視覺化相關的互動允許與模型“玩”,允許對模型及其底層資料進行更深入的理解。
(2)模式探索和過濾
一些挖掘方法產生了複雜和眾多的模式,難以用緊湊的表示形式加以總結;特別是關聯規則。在這種情況下,視覺化通常採用類似於普通資料視覺化的技術,模式的管理類似於原始資料。這裡的視覺化有助於獲得和概述這些模式的分佈,並理解它們的本質。互動過濾和直接操作工具在從大量無趣的模式中找到有趣的模式方面扮演了重要角色。
VM型
(1)白盒整合
在這種整合中,人與機器在模型構建過程中進行合作,以使演算法中的中間步驟視覺化,並由使用者決定如何指導模型構建過程。這種系統相當罕見。有一些合作構建分類樹的例子,如在[18]中介紹的,使用者控制構建過程,在任何階段都可以要求計算機在他或她的位置進行一步,比如分割節點或擴充套件子樹。
(2)黑盒整合(反饋迴路)
挖掘和視覺化之間的整合也可以通過將演算法作為黑盒來間接實現,但是使用者可以在一個緊湊的可視迴圈環境中“玩”引數設定,在這個環境中引數的變化會自動反映在視覺化中。這樣,即使不明確,引數和模型之間的聯絡也可以直觀地理解。或者,同樣的整合可以以一種“相關性”的方式獲得“反饋”方式,系統生成一組可選的解決方案,使用者指示系統上最有趣的方案,並給出如何生成新方案的提示。