1. 程式人生 > >白話空間統計之:Moran's I(莫蘭指數)

白話空間統計之:Moran's I(莫蘭指數)

元素 cal ltr div sdn glob 之間 計算 fonts

前兩天聊了空間統計學裏面的兩個經典概念,今天來說說第一篇文章留下的大坑:Moran‘s I

首先,Moran‘s I這個東西。官方叫做:莫蘭指數,是澳大利亞統計學家帕特裏克·阿爾弗雷德·皮爾斯·莫蘭(Patrick Alfred PierceMoran)(好長的名字。只是一般都簡稱為:帕克·莫蘭,就是下圖這位中年帥哥了)。在1950年提出的。這一年,朝鮮戰爭爆發。


技術分享

莫蘭同學1917年出生在澳大利亞的悉尼,後來考入了劍橋大學。第二次世界大戰的時候,增加了盟軍,而且由於在數學和物理學上面的特長,被安排在劍橋大學的外彈道學實驗室(External Ballistics Laboratory)負責火箭的研究工作。戰爭結束後,任教於牛津大學,而且就在牛津任教期間。提出了關於莫蘭指數的問題。

另外再加一點點小花絮,莫蘭同學終生未獲得博士學位,可是據他晚年回顧,他似乎對這個事情一直感到驕傲(自己並不是博士,可是帶出了無數的博士生)。

那麽莫蘭指數究竟是個啥東西呢?莫蘭指數通常是用來度量空間相關性的一個重要指標。

一般說來,莫蘭指數分為全局莫蘭指數(GlobalMoran‘s I)和安瑟倫局部莫蘭指數(AnselinLocal Moran‘s I)後者是美國亞利桑那州立大學地理與規劃學院院長Luc Anselin教授1995年提出的,後面我們會說到。

今天就簡單說說全局莫蘭指數,也是狹義上的莫蘭指數。

莫蘭指數是一個有理數,經過方差歸一化之後,它的值會被歸一化到

-1.0——1.0之間。(假設有喜歡看數學公式的,我最後貼出了全局莫蘭指數的計算公式,這裏是科普性質的,我就不貼數學公式來虐待大家的大腦了。

當然。這個歸一化是一般的情況,依據某些特殊的情況。也會計算出一些不在這個範圍內的值,最後來討論為什麽會超出這個範圍。

全局莫蘭指數計算完畢之後,所有的要素。就會給出你一個關於所有數據的相關性的數值(反之。局部莫蘭指數。就每一個要素都會給你一個相關性數值了,這個以後在說)。

所以我們能夠依據他給出的值,來看當前你須要計算的數據結果了。

Moran‘s I >0表示空間正相關性,其值越大,空間相關性越明顯。

Moran‘s I <0表示空間負相關性,其值越小,空間差異越大,否則,Moran‘s I = 0,空間呈隨機性

這裏須要註意一下啊。空間差異和空間異質性是不同的概念。

空間差異(spatialdisparity)是指不同地域範疇由於(社會、經濟等)發展水平及其結構不同。而產生的差異。

而空間異質性(spatialheterogeneity)是指由於空間位置的不同而引發的獲取到不同的數據。

所以二者切不可混為一談。

最後,我們們來看看,什麽叫做正相關,什麽叫做負相關。

所謂的相關。就是指相互關系,正相關,就是隨著自變量的增長,應變量也隨著增長,比方蝦神的年紀和血壓,就是標準的正相關……。而負相關當然就是相反了,隨著自變量的增長而降低,比方蝦神的年紀和體力……

那麽空間上面的正相關。就是指隨著空間分布位置(距離)的聚集,相關性就也就越發顯著。

空間上的負相關就正好相反了,隨著空間分布位置的離散,反而相關性變得顯著了。

像例如以下我採用中國行政區劃計算出來的結果:

技術分享

整個圖表能夠看出來,人口數和患病的人數,都與空間信息成正相關,就是說,空間分布聚集度大的地方,人口數和患病人數也對應多。

可是能夠看見的,患病人數,隨著時間推移,他的莫蘭指數在上升。而人口數隨著年份,莫蘭指數在下降。這說明了中國人口的數量慢慢的與空間分布的相關性在減弱,而患病人數與空間分布的相關性在添加。

當然,莫蘭指數僅僅是在衡量空間相關性時候的一個重要指標,並不全然可以代表空間相關性,還須要有其它的數據進行驗證和綜合考量。

以下部分部分僅供不怕死腦細胞的同學參考:(來源於ArcGIS for Destkop的幫助文檔)

1、全局莫蘭指數的公式:

技術分享

2、剛才討論了。莫蘭指數通常是在 -1——1之間,那麽有時候突然算出來超出這個區間的數據。是怎麽回事呢?是不是軟件出了bug

答案是和軟件bug無關。

通常,Global Moran‘s I 指數介於 -1.0 到 1.0 之間。

僅僅有對我們權重進行了行標準(行標準化的意思。就是在做空間距離矩陣的時候,對矩陣中的每一行,求和後。每一個元素除以所在行元素之和這樣的標準化操作)時才會這樣。假設沒有對權重進行行標準化處理,則指數值可能會落在-1.0 到 1.0 的範圍之外。這表示參數設置有問題。最常見的問題例如以下:

  1. 輸入的數據嚴重偏斜(創建數據值的直方圖可了解此情況),空間關系的概念化或距離範圍的設置使得某些要素的相鄰要素很少。Global Moran‘s I 統計量是漸進正態的。這意味著,對於偏斜數據,每一個要素至少須要具有 8 個相鄰要素。為距離範圍或距離閾值參數計算的默認值可確保每一個要素至少具有 1 個相鄰要素,但這可能不夠,尤其是在輸入數據中的有的出現嚴重偏斜時。
  2. 使用反距離空間關系的概念化。而且反距離很小。

關於反距離過小的問題,是由於在選擇反距離的冪的時候,為了突出拉伸。選擇了一個過高的冪。這樣就會把反距離(距離的倒數)變得很的小。看以下關於反距離中冪的說明:

技術分享


3.未選擇行標準化。但應選擇。除非聚合方案與所分析的字段直接相關,否則,僅僅要對數據進行了聚合處理。就應選擇行標準化。

好,關於全局莫蘭值的介紹今天先到這裏,下次我們來看看在ArcGIS裏面怎樣使用這個工具來進行計算。


白話空間統計之:Moran&#39;s I(莫蘭指數)