Chart Constellations: 對合作和多使用者分析的有效圖表總結(Effective Chart Summarization for C...
考慮一個大而複雜的資料集。如果你的任務是分析此資料集,你可以通過繪製幾個圖表進行探索性可視分析(EVA)。這種迭代的圖表驅動方法很受歡迎,並得到Tableau等軟體和Kaggle Kernels等資料科學筆記本的支援。不幸的是,由於資料集的深度或寬度,這樣的任務對於一個人來說可能太多了。從這些領域中提取有趣知識的問題的直接解決方案並不清晰。一種方法是讓多個分析師共同工作以發現結論,無論是作為一個團隊(即協同工作)還是獨立(每個分析師進行自己的調查)。但現在的問題是,我們如何理解並從這一分析中學習?
假設一種元視覺化方法,使用視覺化來分析和審查先前分析師建立的其他視覺化。本文提出了Chart Constellations系統,該系統支援由多個使用者建立的視覺化集合和資料故事的EVA。
Constellations是一個完全互動的系統,包括多個協調的介面和一個帶有資料管理元件的後端伺服器。提供基於排序的圖表檢視,該檢視可以基於引入的距離啟發法進行互動式調整;該工具還支援視覺化聚類,選擇和過濾機制,以提取圖表子集,檢查單個圖表,建議新區域的工作流程。探索資料集,以及建立新圖表的機制。
本文希望實現對於先前建立的視覺化圖表進行靈活探索性的視覺分析(EVA)。遺憾的是,當前的系統要麼太麻煩,效率低,無法處理複雜的任務,或者(特別是在資料筆記本中)不便於同時進行多使用者分析。本文的目標是設計一個視覺化分析工具,用於組織視覺化集合並促進互動式探索和分析。在進行這種探索和分析後,使用者可能會受到啟發,進行自己的圖表創作,以進行進一步的資料探索。基於這些目標,本文確定了這樣一個系統應該滿足的高階任務如下:
任務1:提供所有圖表的基於排序的概覽
排序是對多變數物件進行排序的過程,使得相似的物件彼此靠近,而不同的物件彼此遠離。也就是說,維數減少技術可以在空間上將資料(視覺化)投影到二維空間,從而促進探索性可視分析。這樣做可以讓分析師通過探索彙總的集合來發現趨勢,模式和異常值。為此,本文實現了幾個功能。首先,在每個圖表之間產生一組派生的成對距離(基於它們的相似性),將相似的圖表放置在彼此附近。離散的圖表叢集可以通過分組或分箱進行聚合。
任務2:從概覽中提取圖表的子集
當希望一次只檢視一個子集,而不是檢視所有圖表時。也就是說,在發現過程中,使用者希望搜尋符合特定條件的圖表。這意味著系統應該包含查詢圖表的功能。對於概覽(任務1)中顯示的圖表,加以過濾以隱藏不符合所需約束的圖表。通過主動選擇一組圖表(例如使用套索)也可以進行過濾。圖表的佈局被更新,並且隨後可以重新計算新的聚合叢集。
任務3:檢查單個圖表
系統應該能夠以全解析度檢視使用者建立的特定圖表。選擇圖表將顯示它(即編碼它)以供檢查。
任務4:建議進一步探索的領域
除了檢查先前建立的圖表之外,使用者可能還希望在資料集中發現未探索的區域並進行探索。實現此目的的一種方法是識別資料集中迄今未被高度使用的屬性。因此,應該讓分析師根據他們之前的用法導航並選擇維度,過濾可用維度僅顯示這些未開發的區域。
任務5:建立新圖表
最後,作為探索的一部分,我們可以進行自己的調查(即建立我們自己的資料故事)。系統應該允許我們生成新的圖表。通過從原始資料集中選擇(並選擇性地聚合)一組資料點,將它們安排成所需的組織形式,將資料編碼為視覺化,然後將建立的圖表記錄到該系統供以後審查。
給定一組圖表,每個圖表都有自己的編碼規範:引用的資料點和描述性元標籤(標題,關鍵字,標題,作者等),我們如何確定它與語料庫中其他圖表的相似性?具體而言,圖表編碼距離,關鍵字標記和維度交叉這三個度量被組合成我們想要在Constellations中顯示的每對圖表的成對距離值。這使我們可以考慮構成資料故事的圖表的多個方面。
圖表編碼距離。GraphScape是最近推出的基於圖表編碼相似性的視覺化設計空間的有向圖模型。圖形節點表示圖表詳述,節點之間的邊權重表示將一個圖表轉換為另一個圖表的成本。給定兩個圖表,根據GraphScape的圖模型,通過對沿圖表之間的最短路徑遍歷的邊權重求和來計算它們之間的編碼距離。
關鍵字標記距離。在Constellations中,允許資料故事圖表附加手動註釋的描述性關鍵字。我們使用word2vec來獲取標記關鍵字的單詞向量,然後計算每個圖表的單詞向量之間的成對餘弦距離。
維度交叉距離。使用簡單的二進位制編碼將所有資料維度表示為向量。每個圖表都有自己的向量,如果維度用於其中一個圖表編碼,則維度的值為1,否則為0。使用向量,計算每對圖表之間的維度交叉距離。
聚合成對距離。在單獨計算每個圖表之間的圖表編碼,關鍵字標記和維度交叉的距離後,距離將按照[0,1]比例進行標準化,並在以下函式中與使用者定義的比例權重相結合:

圖片1 距離公式

圖片2 系統組成
圖2顯示了Constellations的主要系統元件。Collab View是使用排序投影視覺化的地方,通過選擇和過濾進行探索;資料覆蓋面板顯示過去的屬性用法並建議新的探索途徑。Chart View有助於檢視單個圖表和建立新圖表。後端伺服器提供資料儲存,計算必要的統計指標的功能。

圖片3 系統介面
Collab View(圖3A)用作主要概覽。基於聚合成對距離,使用降維(a1)在空間上定位先前建立的圖表的集合。每個圖表都用圓圈標記繪製,並使用色調錶示其建立作者。頂部選單(a2)中提供了標註選項,包括作者折線:顯示建立順序的作者圖表之間的有向箭頭。在檢視的左側(a3),選項板包含三個距離權重滑塊和多個過濾選項。調整滑塊會修改公式中使用的縮放權重,重新計算所有圖表的聚合成對距離並更新投影佈局(圖3B)。應用過濾器會根據所需的約束刪除圖表的子集。應用過濾器時,會在過濾板中建立描述性標籤(a5)。在底部,時間線滑塊允許時間過濾(a4);使用者還可以直接在投影上繪製套索以選擇圖表的子集。聚類用於將圖表分成不連續的組。聚類可以基於圖表之間的聚合成對距離或者基於它們的投影x / y座標。當投影更新時,例如通過過濾或調整距離權重滑塊,將重新計算群集。在右側,叢集板顯示有關當前繪製的叢集的統計資訊(a6)。上面是資料覆蓋面板(圖3C),其中包含一個樹形圖,顯示資料集中的可用屬性。每個塊對應一個屬性,並根據投影中是否有任何圖表使用它來著色。在資料覆蓋面板中選擇一個屬性會將其高亮顯示為藍色(c1)並高亮顯示任何相交的維度為橙色。交叉維度是在至少一個圖表中共同出現的維度。橙色塊的亮度表示共現量。
Chart View(圖3D)允許對現有圖表進行單個檢查,並提供建立新圖表的功能。要建立新圖表,使用者輸入SQL查詢(d1)以從後端伺服器檢索資料,並使用一組下拉選單(d2)設定圖表編碼以建立視覺化(d3)。可以手動新增自定義的關鍵字(d4,d5,d6)。建立新圖表時,Collab View中可用的圖表集合更新(圖3E)。
在本文中,通過有效地總結已建立的先前分析師的圖表,提出Chart Constellations系統以支援元視覺分析。 Constellations提供各種統計方法來組織和將結果投影到一個檢視中;相似的視覺化相互靠近。此外,Constellations提供了識別未探索資料子空間的方法,促進了對新區域的有針對性的探索。使用者研究結果表明,Constellations系統比傳統的資料筆記本介面(Kaggle Kernels)更有效,可以從一組視覺化結果中獲得高水平的洞察力,並瞭解探索過程。 使用者研究另外表明,有效地總結一組不同的視覺化對於協作視覺化分析是有益的。