1. 程式人生 > >資料視覺化之"A survey of visualization-driven interactive data mining approaches"

資料視覺化之"A survey of visualization-driven interactive data mining approaches"

A survey of visualization-driven interactive data mining approaches

Ma, Yuxin (State Key Laboratory of CAD&CG, Zhejiang University, Hangzhou; 310058, China); Cao, Zhendong; Chen, Wei Source: Jisuanji Fuzhu Sheji Yu Tuxingxue Xuebao/Journal of Computer-Aided Design and Computer Graphics, v 28, n 1, p 1-8, January 1, 2016 Language: Chinese
Database:Compendex

基於視覺化的互動資料探勘方法分類

(1)基於視覺化和資料探勘的參與程度

1) +V 型方法, 指以資料探勘為主要的知識發現和提取方法, 視覺化作為資料探勘的輔助方法;

2) +M 型方法, 指以視覺化方法為主, 其中資料探勘方法幫助完成視覺化中的資料處理、可視對映部分.

如在從資料轉化為可視表達的過程中, 資料探勘方法可以幫助生成資料點在二維平面上的投影.

(2)基於使用者參與形式

基於使用者參與形式(types of user involvement, TUI)的分類策略. TUI 用於描述基於使用者的視覺化探索參與資料探勘演算法的方式, 分別由以下 2 個維度組成:

1) 資訊流動方向

演算法本身產生的過程描述資訊形成演算法對使用者的反饋; 使用者對演算法的資訊輸入形成對演算法的控制.

2) 目標實體

資訊交換階段, 可以是演算法執行過程時進行資訊交換, 或是在演算法執行完畢時, 通過視覺化方法檢視和理解演算法結果.

(3)面向應用場景的方法

視覺化增強通用資料探勘演算法

(1)基於黑盒方式的視覺化增強方法

在基於黑盒方式的視覺化增強方法中, 視覺化設計者僅根據資料探勘演算法所面向的任務進行設計, 並不考慮具體演算法的內部機制, 即把演算法本身當作“ 黑盒” .

1) 面向輸入資料的視覺化方法

使用者在使用資料探勘方法之前, 可先使用視覺化方法對資料進行預探索. 這種方式有助於幫助使用者獲得輸入資料的大致分佈特徵, 可以指導其後續的資料清洗、引數設定等工作. 如使用多個散點圖並列排布的方式展示資料點所在的原始空間中各個維度的相關性, 使用者通過觀察散點圖中的資料點相關度來篩選出冗餘維度, 以得到不同子空間下的聚類結果.

2) 面向演算法結果的視覺化方法

3) 迭代式視覺化方法

迭代式視覺化方法幫助使用者基於已有探索結果對輸入引數或資料進行修改, 繼而生成新的模型和輸出結果, 並使用迭代策略引導使用者對演算法結果進行優化.

(2)基於白盒方式的視覺化增強方法

在基於白盒方式的視覺化增強方法中, 視覺化是對演算法過程本身進行展示, 使使用者能夠更好地理解計算結果與輸入資料、引數之間的關係.

1) 決策樹因其可解釋性較強的特性, 在視覺化界有不少針對決策樹模型的視覺化案例.

2) 針對支援向量機提出了基於投影的視覺化方案.

3) 面向影象識別的深度神經網路視覺化方法, 其使用視覺化方式展示出不同層次神經元上的特徵, 幫助使用者進行引數調整等工作.

面向應用場景的方法

(1)文字分析

基於 LDA(latent Dirichlet allocation)的視覺化文字探索方法.

(2)影象分析

加州大學伯克利分校的 deepViz系統用於視覺化面向影象分類任務的深度神經網路. 該工作的出發點是卷積網路的神經元都可直接表達為影象形式, 使用者可以直接看到模型內部的中間影象結果. 通過檢視每層神經元所代表的特徵影象, 使用者可在訓練過程中大致瞭解神經元上的特徵分佈, 據此對相應模型引數進行調整, 以完成模型訓練快速迭代.

(3)使用者行為分析

使用者在同一網站上的頁面瀏覽順序形成使用者在該網站的點選流. 針對使用者點選流進行分析, 可以刻畫出使用者在網頁間的瀏覽行為. 如自組織對映(self-organizing map)方法對使用者點選流進行投影分析,基於可視分析的多上下文移動社交網路社團發現方法.

(4)時空資料分析

基於LDA 模型和 STL(seasonal-trend decomposition procedure based on loess smoothing)方法分別提取某時間段內的文字主題和異常關鍵詞, 並可視化相關文字資訊的地理位置和時序波動資訊. 使用者可以通過多種互動方式漸進式探索和發現異常文字資訊, 並通過相關文字提取出事件.