靈活文件:通過上下文視覺化連結文字和表格資料來幫助文件閱讀
資料豐富的文件本身就是複雜的資料集,它們由不同格式的資訊組成,如文字,圖形和資料表。這些額外的資訊形式更有利於我們對文件中的文字敘述的理解。但是,傳統的列印文件的靜態佈局通常會妨礙對其內容的深入理解,因為這些資訊往往分散各個部分。在本文中[1],我們尋求通過將文字內容與文件中包含的資料表格相結合的上下文視覺化技術來促進對這些文件的更好理解。我們解析文字內容和資料表格,使用基於關鍵字的匹配演算法來連結這兩部分,並根據讀者在文件中的當前關注點來生成視覺化。
首先,針對多樣化的資訊形式,他們選取的是文件中的文字和表格,而這些表格往往很長,使用傳統的列印方法會導致這兩個部分分散,從而不利於使用者的閱讀。針對這個問題,他們考慮了這項工作的設計需求:
- 通過視覺化來幫助並增強文字閱讀。
- 簡化長的表格結構,例如一些稀疏的表格。
- 將相關的文字描述和表格資料鏈接起來。
- 通過互動來適應使用者的興趣點。
因此,為了實現上述的需求,他們設計的方法主要分為三步:
1. 解析文件中的表格
根據Chen[2]的工作,他們將表格中的關係定義為6中,Stylistic similarity, Adjacent dependency, Layout design, Overview/detail, Semantic similarity 和 Metadata。根據這六種關係去解析一個完整的表格。

圖1 表格中的六種關係
下面是一個表格中存在的相應關係的舉例,如圖2所示:

圖2 表格中的不同關係
2. 生成視覺化
根據上面的不同的關係,他們首先根據演算法1(如圖3所示)來找到表格中存在的“子樹”的結構。他們定義了生成視覺化的資料來源為“組合”:一行&多列,多行&一列。然後根據演算法1得到的這些“子樹”,使用演算法2(如圖4所示)找到所有的複合條件的“組合”作為視覺化後面的資料。圖5是根據演算法得到的兩個資料案例。對於屬性值中存在時間屬性的資料,他們使用線圖來展示,其他的使用條形圖來展示。

圖3 演算法1-找到表格中的“子樹”結構

圖4 演算法2-找到表格中所有的“組合”

圖5 資料提取案例
3. 將文字描述和表格資料連線起來
在這一部分,首先對文件中的每一句話提取關鍵詞,然後將提取的關鍵詞與表格中的屬性,資料相匹配,得到一個相似度。根據這個相似度對所有的視覺化進行排序,從而達到適應使用者關注點的需求。
下面是整個系統的介面,包含文字檢視,表格檢視,以及視覺化檢視三部分。使用者可以在文字檢視中選取感興趣的文件描述,也可以在視覺化檢視中篩選剛興趣的資料屬性。

圖 6 系統介面
另外,我們還通過User Study來評估此技術,將這個方法與傳統閱讀體驗進行比較。我們的研究結果(如圖7所示)表明:
(1)參與者通過更緊密的文字和資料耦合可以更好地理解內容。
(2)上下文視覺化使參與者能夠開發更好地總結,捕獲內容中的主要資料。
(3)總體而言,我們的方法使參與者能夠更加詳細地瞭解文件內容。

圖7 User Study結果
總的來說,這篇文章從文件中提取表格和文字,並解析表格以生成視覺化。 這些包含結構化資料的視覺化與使用者在文字中的關注點相匹配,來呈現相關的資料從而適應使用者的興趣。
引用:
[1]Badam, Sriram Karthik, Zhicheng Liu, and Niklas Elmqvist. “Elastic Documents: Coupling Text and Tables through Contextual Visualizations for Enhanced Document Reading.” IEEE transactions on visualization and computer graphics (2018).
[2] Z. Chen and M. Cafarella. Integrating spreadsheet data via accurate and low-effort extraction. In Proceedings of the ACM Conference on Knowledge Discovery and Data Mining, pp. 1126–1135. ACM, New York, NY, USA, 2014. doi: 10.1145/2623330.2623617