1. 程式人生 > >從邊際投影中重構類別型聯合分佈的可視分析方法(A Visual Analytics Approach for Categorical Joint Distribution Reconstruction

從邊際投影中重構類別型聯合分佈的可視分析方法(A Visual Analytics Approach for Categorical Joint Distribution Reconstruction

來源: PKU Visualization Blog 作者: Chufan Lai

所謂邊際投影,指的是多維資料在少數幾個維度上的數量累積,例如兩份病患統計資料,分別展示病人在年齡和性別上的一維分佈。然而僅憑這些資料,我們無法確定不同性別的病患在各個年齡段上的二維分佈,因為邊際投影重構出的聯合分佈並不唯一。傳統的自動演算法能夠給出重構分佈的少數“可行解”,卻無法結合使用者的先驗知識、也不一定符合現實情況。
在這篇文章中[1],作者提出了一種可視分析方法,通過高維視覺化手段、重構並展示大量潛在的聯合分佈,以幫助使用者識別其中符合事實或預期的、有價值的分佈。

研究背景


這裡寫圖片描述
圖1. 由邊際投影重構聯合分佈

在現實生活中,我們常常把同一份多變數資料記錄在多張表格裡。圖1所示為一群人的患病情況統計,其中一張表格記錄了人群的年齡和性別分佈,另一張則記錄了性別和患病與否的資訊,它們是同一份資料的不同邊際投影。如何從中恢復出原始的聯合分佈,是資料處理中較為常見的問題。傳統的自動演算法[2]能夠給出可能的分佈,但這些分佈不一定符合事實和使用者的期望。譬如在手足口病中,青少年(0-17歲)的患病概率要明顯高於成年人(18-30歲),自動演算法卻無法運用這些先驗知識。該文章即針對這一情況設計了完整的可視分析流程,以幫助使用者結合自身知識,重構、觀察和篩選聯合分佈。

方法設計

文章提出的可視分析流程主要分為四步(如圖2):縮減解空間、解空間取樣、解樣本視覺化,以及互動分析。


這裡寫圖片描述
圖2. 解空間可視分析流程

1. 縮減解空間

對於給定的邊際投影,其重構出的所有可能的聯合分佈組成一個解空間(Solution Space)。在解空間中,每個點是一個聯合分佈,每個維度是一種變數取值的組合(如“0-17/男性/患病”、“18-30/女性/患病”等),各維數值則是相應的統計數目(如共有7人屬於“0-17/男性/患病”)。其中,變數取值的組合數量極其龐大:假設資料集具有10個變數,每個變數有四種可能的取值,則完整的聯合分佈將包含4^10約一百萬種取值組合。解空間的維度數高達百萬,非常難以探索。因此在處理之前,需要新增一定的條件限制,以減小解空間。事實上,很多變數取值的組合都是不可能的,例如孕情與性別兩個變數,“懷孕+男性”的取值組合就不可能發生,可以提前去掉。此外,各維取值即統計數目均為非負整數,可以進一步削減解空間。通過去除冗餘的組合、新增各類限制,我們能夠大為降低解空間的維度數。

2. 解空間取樣

解樣本視覺化在解空間中,任意一個點都是一個可能的聯合分佈,無法遍歷列舉。為探究其性質,有必要對其進行均勻、廣泛的取樣。文章採用了“Hit-and-run”的取樣策略:在解空間中任選一個起始點(圖3(a)),並選定一個任意的方向與距離(圖3(b)、(c))移動到下一個點,在移動一定步數後即得到候選樣本(圖3(d))。由於樣本在各維度上的取值只能是非負整數,最後還需要對樣本進行區域性位移,取其鄰近的整數點作為最終的解樣本。完成取樣後,所有樣本均儲存在資料庫中,以方便後續處理。


這裡寫圖片描述
圖3. 解空間的Hit-and-run取樣

3. 解空間視覺化

作者們採用了平行座標的方式來展現解樣本在不同指標上的分佈。其中各類指標由使用者自定義,如維度相關性、特定事件的統計數目等,用以檢驗解樣本是否符合客觀事實和使用者的先驗知識。具體的視覺化設計如圖4所示,其中軸上的和圖、頂部的概率密度函式等反映瞭解樣本集在不同指標上的分佈狀況與趨勢。


這裡寫圖片描述
圖4. 基於平行座標的解空間視覺化

4.互動分析

使用者可以在平行座標的各個軸上進行篩選,從而在選定範圍內增加樣本、過濾無關樣本,直到最終獲得滿意的聯合分佈。

案例分析

案例分析使用的是紐約市公共健康資料,包含六個變數、約一千萬份資料樣本。解空間共有84,240個變數取值的組合,通過縮減能夠減少至4505個有效組合。


這裡寫圖片描述
圖5. 案例分析:不同性別與族裔的新生兒數量比較

總的來說,該文章針對聯合分佈的重構問題,設計了完整的解空間構造、取樣、可視分析的流程,能夠有效地輔助使用者對潛在的聯合分佈進行檢驗和篩選。事實上,除了分佈重構,還有許多其他實際問題具有探索解空間的需求。如何通過可視分析的手段,幫助使用者對大量可行解進行了解、審視和挑選,仍然是一個值得研究的課題。

在圖5中,使用者利用了族裔、性別、年齡三個變數定義了數個關於新生兒的指標,分別是“白種人/男性/新生兒”、“白種人/女性/新生兒”、“黑種人/男性/新生兒”和“黑種人/女性/新生兒”(對應圖5第2至5軸)。由各軸的數值範圍可見,白種人的男性新生兒要多於女性新生兒,而黑種人的情況則恰好相反。但事實上,男、女新生兒的數量應該大致持平,這說明樣本集中的很大一部分可能並不符合現實情況。因此,使用者定義了新的指標為“男女新生兒比例”,並將其取值限定在1附近(圖5第1軸)。高亮的結果顯示,選出來的樣本使得男女新生兒數目更加接近,使用者可以繼續增加這部分樣本做進一步的探究。

[1] Xie C, Zhong W, Mueller K. A Visual Analytics Approach for Categorical Joint Distribution Reconstruction from Marginal Projections. IEEE Transactions on Visualization and Computer Graphics (TVCG), 2017, 23(1): 51-60.
[2] Deming W E, Stephan F F. On a least squares adjustment of a sampled frequency table when the expected marginal totals are known. The Annals of Mathematical Statistics, 11(4):427–444, 1940.