1. 程式人生 > >空間相互作用資料探勘及視覺化分析相關文章綜述

空間相互作用資料探勘及視覺化分析相關文章綜述

  1. 祝曦在“海量空間相互作用資料探勘及視覺化”中提出了
  • 一種從大規模空間相互作用資料中提煉地理特徵資訊的方法,主要步驟包括:將空間點聚合成類,計算統計量度,然後視覺化統計量度來發現時空模式。文中將該方法作用在一組計程車資料上,這一組計程車資料描述中國深圳市的 2331 輛計程車五天內的軌跡。實驗在出租車資料上發現了各種時空模式,例如,不同時段的流量差等。方法主要解決的問題有:(1)如何識別大量空間點的自然邊界,(2)如何綜合移動資料,從而得到高層次的資訊,(3)如何有效的處理大規模空間點資料並有效的發現規律。
  • 一種將大量空間相互作用資料聚類的方法。該方法主要的思想是擴充套件傳統的空間點層次聚類方法,應用到空間相互作用資料。文章通過使用深圳計程車資料,對計程車的時空模式進行了分析。研究主要解決的問題有:(1)使用層次聚類方法,對空間相互作用資料進行聚類;(2)定義空間相互作用資料的相鄰關係;(3)提出了一種基於點密度分佈的空間相互作用的相似性量度(4)在空間聚類的結果上,對資料的時間模式進行了分析。
  • 空間相互作用資料核密度估計模型。該模型的主要思想是,將點的核密度估計模型擴充套件到空間相互作用資料。該演算法主要分為三個步驟:空間相互作用資料的核密度估計,代表性資料選擇,流向地圖視覺化。該演算法主要解決的問題有:(1)從大量的空間相互作用資料中提取出固有的模式規律(2)通過核密度估計模型,歸一化起點和終點區域大小,解決了 MAUP 問題和小單元區域問題。文中使用美國移民資料集,這組資料來源於 2000 年的人口普查。這次人口普查詢問了人們五年前的居住位置,和現在的居住位置。這組資料包含了 5 年內(2000-2005)人口的移動資訊。案例代表性資料選擇演算法選取 200 條移民差流資料。用藍色代表移出的人口比移入的人口多,用紅色代表人口移入比移出多的區域。密度估計後的資料能夠解釋移民差比例地圖。可以發現這些資料大部分都從藍色區域指向紅色區域。
  • 一種大規模空間相互作用資料的視覺化框架——多解析度多尺度的流向地圖。演算法通過改變鄰域半徑引數和搜尋半徑引數,在不同尺度和解析度上發現空間模式。本用例分析了一組紐約市計程車資料。這組資料描述了在 2009 年 12 月 31 日曼哈頓區域的 388352 條載客資料。通過設定不同的搜尋半徑,可以在大搜索半徑夠獲得一個計程車資料全域性模式的理解。比如,最強的計程車流發生在賓州車站和中央車站之間,因為它們是紐約最繁忙的交通樞紐,特別是在聖誕前夕,人們都湧向城市來慶祝新年的到來;同時也可以在小的搜尋半徑下,展示不同街道的流量分佈,從而發現具體路況變化。
  1. 郭殿升在“Flow Mapping and Multivariate Visualization of Large Spatial Interaction Data”中提出了一種探索性分析和大空間互動資料視覺化的方法框架。該框架包括用於分層區域化,流對映,多變數聚類和視覺化的方法。由於空間互動資料大容量、多變數、多種資料維度,可更改區域單元問題的特性,在應對大量流線並減少流圖中的混亂方面,傳統的匯出和視覺化線密度,或將邊緣分組成束的方法存在一些侷限性:首先,線密度或邊緣捆綁方法使用給定的地理單位和組流線進入束,這些束沒有明確地尋找並提供對自然區域的清楚理解難以發現有意義的模式和資訊(文中以移民模式為例,其中自東北的高階移民傾向於遷移到東南部這一模式在傳統方法中難以發現),其次,在視覺化空間互動資料(例如遷移)時,地圖中的流線表示起點和目的地之間的連線,並且可選地還可以使用諸如顏色和線寬的視覺變數來顯示關於移動物體的資訊。然而,線密度或邊緣捆綁方法使得難以察覺起源和目的地之間的對應關係。
    針對以上問題文章提出了一種新的方法框架,用於大空間互動資料的探索性分析和視覺化。給定這些位置之間的一組位置和一組互動(連結),所提出的分析框架包括以下過程以總結資料,發現一般模式併產生用於使用者探索的互動式流程圖。首先,使用新開發的區域化方法(郭的另一篇文中提出了一系列基於空間約束的層次聚類的區域化方法,包括單鏈接(SLK),完全連結(CLK)和平均連結(ALK)方法。)通過對空間互動網路進行最佳劃分來提取自然區域(社群結構),使得區域內的流量比跨區域的流量多得多。其次,基於發現的區域聚合原始空間互動及其相關的多變數資訊,以便可以在更高的抽象級別渲染流圖以揭示主要的流模式。由於區域形成層次結構,因此流程圖自然支援不同抽象級別的模式探索。第三,自組織對映用於執行流變數的聚類分析,並使用2-D顏色方案對聚類進行編碼。流程圖以顏色顯示流動(代表聚類),因此可以同時理解多變數資訊和流動結構。當用戶向上或向下導航區域層次結構時,流量集及其關聯的多變數值將發生變化,因此將自動再次執行群集。第四,支援各種使用者互動以有效地促進空間互動模式的探索和準確解釋。文中使用美國移民資料集,這組資料來源於 2000 年的人口普查。這次人口普查詢問了人們五年前的居住位置,和現在的居住位置。這組資料包含了 5 年內(2000-2005)人口的移動資訊。新的視覺化框架生成的流向地圖有效的解決了混亂問題,從而發現移民模式,例如其中自東北的高階移民傾向於遷移到東南部。

  2. 祝曦,郭殿升在“Mapping Large Spatial Flow Data with Hierarchical Clustering”中針對現有的流對映方法通常使用預定的高階地理單元(例如狀態)來聚合流或者捆綁在空間上很近的部分流線,這兩者都導致資訊的顯著丟失或失真並且可能錯過主要模式的問題,提出了一種流聚類方法,它可以提取相似流的聚類,以避免混亂問題,揭示抽象的流模式,同時儘可能地保留資料解析度。該方法擴充套件了傳統的層次聚類方法,以聚合和對映大流量資料。新方法在確定兩個流的相似性時考慮起源和目的地,這確保流叢集表示從相似起源到類似目的地的流,從而最小化聚合期間的資訊丟失。文章中分析了中國深圳市區一週工作周(5天)243,850次計程車行程的資料集。通過分層聚類對映的方法,有效的解決了流向地圖視覺阻塞問題,同時還可以有效揭示資料和重要地點/區域的主要流動模式。例如,在流程圖中可以輕鬆識別多個樞紐,包括與香港,火車站,地鐵站和其他重要中心接壤的皇崗口岸。同時,流動圖模式不僅可以很好地匹配位置測量模式,還可以顯示具有清晰連線,方向和流動強度指示的更具體的流動模式。

  3. 郭殿升,祝曦在“Discovering Spatial Patterns in Origin-Destination Mobility Data”中針對“起源 - 目的地對”這一特定型別流動資料提出了一種發現和理解運動中時空模式的新方法。針對這一類特殊流動資料中點的聚類,需要將區域劃分為更多群集以便能夠以更精細的解析度找到等多的模式。該要求還意味著該方法應該能夠識別不同點密度的聚類。例如,雖然火車站的點數比住宅區的點密度要大,但兩者都應該被認為是叢集。因此,基於密度的聚類方法不滿足此要求。此外,聚類方法不應採用預定形狀(例如圓形)並且應該能夠檢測不同形狀的聚類。例如,K-means聚類方法不滿足此要求,因為它傾向於找到圓形聚類。最後,每個群集應該是空間連續的,這對於定義有意義的地方或區域是必要的。針對以上問題,文章提出了一種基於共享鄰居數的點聚類方法,用於構建任意形狀和不同點密度的聚類,同時為了確保空間連續性並實現效率,為所有位置構建Delaunay三角剖分。文章使用中國深圳的大型計程車軌跡資料集,所有計程車旅行的原始和目的地位置692,634。結合地圖和視覺化技術,最終結果可以有效的識別出具有現實中的地理位置。

  4. 郭殿升、祝曦在“Origin-Destination Flow Data Smoothing and Mapping”
    本文介紹了一種新的流資料對映方法,該方法從大量地理移動資料中提取固有模式,並構建有效的資料視覺化表示,以便了解複雜的流動趨勢。
    該方法能夠從大量的空間相互作用資料中提取出固有的模式,並有效的視覺化大量空間相互作用資料,從而理解複雜資料中的規律。該方法主要包含一種空間相互作用資料核密度估計模型和一種代表性資料選擇的方法。這種方法能夠去掉資料中的隨機性誤差,發掘現有方法不能發現的規律模式。該方法能夠在分析和視覺化大量空間相互作用資料的過程中,達到三個主要的目標。第一,通過核密度估計的方法除去了空間單元大小不同的影響。第二,通過一種新的抽樣方法,在大量的資料中選擇一組有代表性的資料。第三,能夠有效的支援空間相互作用資料的視覺化。文章中使用美國移民資料和合成資料實驗的案例研究來評估和演示新方法,在生成的流向地圖中獲得一些新的美國全國和區域性移民的資訊。