（資料科學學習手札78）基於geopandas的空間資料分析——基礎視覺化

阿新 • • 發佈：2020-02-28

本文對應程式碼和資料已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes

1 簡介

　　通過前面的文章，我們已經對geopandas中的資料結構、座標參考系以及檔案IO有了較為深入的學習，在拿到一份向量資料開始分析時，對其進行視覺化無疑是探索瞭解資料階段重要的步驟。

　　作為基於geopandas的空間資料分析系列文章的第四篇，通過本文你將會學習到基於geopandas的基礎視覺化。

2 基礎視覺化

　　geopandas使用matplotlib作為繪圖後端，使用plot()方法對GeoSeries或GeoDataFrame

進行視覺化，簡簡單單即可完成基本的視覺化，再結合上matplotlib的一些額外元素補充，便可以創建出更加精美的視覺化作品，下面我們分別進行介紹。

2.1 GeoSeries

　　GeoSeries由於僅有單獨一列幾何物件，無對應的數值故不涉及數值向視覺元素的對映，因此視覺化相對簡單，下面我們先來看看GeoSeries.plot()的常用的引數有哪些，如果你已經對matplotlib有一定了解，想必理解這些引數起來會更加輕鬆：

figsize：傳入(寬度, 高度)形式的元組或列表，用於控制繪製出影象的寬度和高度，單位均為英寸

facecolor：設定幾何物件的填充色，可接受顏色名稱和十六進位制色彩，設定為'none'時不填充顏色

edgecolor：設定幾何物件的邊界色，對面資料和點資料效果較為明顯，不建議對線資料設定該引數，傳入格式同facecolor

linewidth：設定幾何物件邊界寬度，對面資料和點資料效果較為明顯，不建議對線資料設定該引數

linestyle：字串型別，用於設定幾何物件邊界及線資料的線型

markersize：設定點資料的大小

marker：字串型別，用於設定點資料的形狀

alpha：設定對應幾何物件全域性的色彩透明度，0-1，越大越不透明

label：適用於純粹的線資料或點資料，在需要新增圖例時適用，用作各個物件在圖例中顯示的名稱

hatch：字元型，用於設定面數據內部的填充線樣式下文的例子中將具體舉例說明

ax：matplotlib座標軸物件，如果需要在同一個座標軸內疊加多個圖層就需要用這個引數傳入先前待疊加的ax

　　下面我們從實際例子上手，深入理解上述各引數，我們使用到的資料china-shapefiles.zip為中國國土+南海九段線，你可以在本文開頭列出的Github倉庫對應本文的路徑下找到它。

　　首先利用上一篇文章介紹的讀取.zip檔案中資料的方法，將我們所需的陸地及九段線資料分別讀入（其中由於原始資料china.shp中每個要素不是單獨的省份而是面，即有的包含眾多島嶼的省份會由若干行共同構成，因此使用geopandas地理操作中的融合dissolve()按照OWNER列融合分離的面為多面，從而使得每一行是對應的完整的省份，關於更多地理操作將會在後續的對應的文章介紹）：

import geopandas as gpd
import matplotlib.pyplot as plt

# 設定matplotlib繪圖模式為嵌入式
%matplotlib inline 
plt.rcParams["font.family"] = "SimHei" # 設定全域性中文字型為黑體

# 讀入中國領土面數據
china = gpd.read_file('zip://china-shapefiles.zip!china-shapefiles/china.shp',
                     encoding='utf-8')
# 由於每行資料是單獨的面，因此按照其省份列OWNER融合
china = china.dissolve(by='OWNER').reset_index(drop=False)

# 讀入南海九段線線資料
nine_lines = gpd.read_file('zip://china-shapefiles.zip!china-shapefiles/china_nine_dotted_line.shp',
                          encoding='utf-8')

　　用plot()方法疊加繪製不帶任何個性化引數的原始地圖（CRS為EPSG:4326即WGS84）：

# 初始化圖床
fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.plot(ax=ax)
ax = nine_lines.geometry.plot(ax=ax)
fig.savefig('圖1.png', dpi=300)

圖1

　　　　接下來我們一步一步，將適用於GeoSeries.plot()的引數展示運用：

Step1：選擇合適的投影

　　在之前關於座標參考系的文章中我們瞭解過繪製地圖時投影的重要性，參考超圖對繪製中國地圖投影選用方面的建議（http://support.supermap.com.cn/datawarehouse/webdochelp/idesktop/features/Visualization/MapSetting/ChooseAMapProjection.htm），我們使用繪製中國地圖常用的Albers Equal Area作為投影，在https://proj.org/operations/projections/aea.html查詢到其資訊說明：

圖2

　　將其proj資訊傳入to_crs()方法中（注意按照將新增上中央經線105度和標準緯度範圍25到47度），統一到所有圖層中：

# 定義CRS
albers_proj = '+proj=aea +lat_1=25 +lat_2=47 +lon_0=105'

fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax)
fig.savefig('圖3.png', dpi=300)

圖3

　　這時的形狀較為接近真實情況，看起來也比較自然。

Step2：修改顏色

　　下面我們來調整面資料的填充色與輪廓色，線資料（九段線）的色彩，並分別設定透明度alpha，這裡為了美觀，將座標軸順便移除：

fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax,
                                             facecolor='grey',
                                             edgecolor='white',
                                             alpha=0.8)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  alpha=0.4)
ax.axis('off') # 移除座標軸
fig.savefig('圖4.png', dpi=300)

圖4

Step3：修改線型與線寬

　　接下來我們在圖4的基礎上，修改線型和線寬，其中線型引數linestyle與matplotlib完全一致，不同選擇對應樣式如圖5：

圖5

　　參考圖５，我們維持九段線線型不變但適當增大其寬度為3，面數據的輪廓則設定為'--'：

fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax,
                                             facecolor='grey',
                                             edgecolor='white',
                                             linestyle='--',
                                             alpha=0.8)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)
ax.axis('off') # 移除座標軸
fig.savefig('圖6.png', dpi=300)

圖6

Step4：修改面填充陰影線樣式

　　接下來我們利用hatch引數來修改面數據填充陰影樣式，主要樣式對應如下，如'-'代表橫線填充：

圖7

　　參考圖7，我們設定面數據的填充陰影樣式為'x'，值得一提的是，hatch引數對於同一種陰影模式，可以通過增加字元數量來提高陰影密度，如下圖是hatch='x'時：

fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax,
                                             facecolor='grey',
                                             edgecolor='white',
                                             linestyle='--',
                                             hatch='x',
                                             alpha=0.8)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)
ax.axis('off') # 移除座標軸
fig.savefig('圖8.png', dpi=300)

圖8

　　而hatch='xxxx'時繪製出的地圖如下：

圖9

　　更有意思的是，不同陰影模式可以混合在一起，譬如我們下面設定hatch='x**'：

fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax,
                                             facecolor='grey',
                                             edgecolor='white',
                                             linestyle='--',
                                             hatch='x**',
                                             alpha=0.8)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)
ax.axis('off') # 移除座標軸
fig.savefig('圖10.png', dpi=300)

圖10

Step5：點資料個性化

　　GeoSeries.plot()中的markersize和marker專門針對點資料進行配置，可是我們的資料裡並沒有點資料，為了舉例說明，下面我們來從已有的資料中生成點資料，我最開始的想法是為每個面生成重心，作為每個省份的中心點：

fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax,
                                             facecolor='grey',
                                             edgecolor='white',
                                             linestyle='--',
                                             hatch='xxxx',
                                             alpha=0.8)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)
ax = china.geometry.centroid.to_crs(albers_proj).plot(ax=ax,
                                                      facecolor='black')
ax.axis('off') # 移除座標軸
fig.savefig('圖11.png', dpi=300)

圖11

　　但是細心觀察可以發現，有些省份的重心很尷尬地落在外面，譬如甘肅省，因為它是一個非常典型的非凸多邊形（凸多邊形內部任意兩點間連線都不會穿過其邊界），因此計算出來的重心落在了外部，好在geopandas為我們提供了representative_point()方法，用於求出任意多邊形內部的一個典型點：

fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax,
                                             facecolor='grey',
                                             edgecolor='white',
                                             linestyle='--',
                                             hatch='xxxx',
                                             alpha=0.8)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)
ax = china.geometry.representative_point() \
                   .to_crs(albers_proj) \
                   .plot(ax=ax, 
                         facecolor='black')
ax.axis('off') # 移除座標軸
fig.savefig('圖12.png', dpi=300)

圖12

　　這時可以發現生成的點符合了我們的需求，下面我們為此基礎上，利用marker調整點資料的樣式，參考圖13：

圖13

　　譬如我們將marker修改為'*'，並調整相關的其他引數使得點看起來更加明顯，

fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax,
                                             facecolor='grey',
                                             edgecolor='white',
                                             linestyle='--',
                                             hatch='xxxx',
                                             alpha=0.8)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)
ax = china.geometry.representative_point() \
                   .to_crs(albers_proj) \
                   .plot(ax=ax, 
                         facecolor='white',
                         edgecolor='black',
                         marker='*',
                         markersize=200,
                         linewidth=0.5)
ax.axis('off') # 移除座標軸
fig.savefig('圖14.png', dpi=300)

圖14

Step6：圖例與文字標註

　　接下來我們來學習如何為地圖新增圖例和文字標註，為了看著清楚我們移除陰影填充並降低點的大小，然後為九段線與點資料新增引數label，最後使用ax.legend()新增圖例並設定相應引數：

fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax,
                                             facecolor='grey',
                                             edgecolor='white',
                                             linestyle='--',
                                             alpha=0.8)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4,
                                                  label='南海九段線')
ax = china.geometry.representative_point() \
                   .to_crs(albers_proj) \
                   .plot(ax=ax, 
                         facecolor='white',
                         edgecolor='black',
                         marker='*',
                         markersize=100,
                         linewidth=0.5,
                         label='省級單位')
# 單獨提前設定圖例標題大小
plt.rcParams['legend.title_fontsize'] = 14

# 設定圖例標題，位置，排列方式，是否帶有陰影
ax.legend(title="圖例", loc='lower left', ncol=1, shadow=True)

ax.axis('off') # 移除座標軸
fig.savefig('圖15.png', dpi=300)

圖15

　　接下來我們把標記每個省級單位的星星換成名稱文字，這裡使用到matplolib中的text()方法，其以此傳入對應迴圈到的點的x、y、文字內容，ha與va用於調整文字水平和豎直對齊方式，size調整文字大小，更具體的引數可以去matplotlib官網搜尋檢視，本文不做重點介紹：

fig, ax = plt.subplots(figsize=(12, 8))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax,
                                             facecolor='grey',
                                             edgecolor='white',
                                             linestyle='--',
                                             alpha=0.8)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4,
                                                  label='南海九段線')

# 根據轉換過投影的代表點，迴圈新增文字至地圖上對應位置
for idx, _ in enumerate(china.geometry.representative_point().to_crs(albers_proj)):
    # 提取省級單位簡稱
    if ('自' in china.loc[idx, 'OWNER'] or '特' in china.loc[idx, 'OWNER']) \
    and china.loc[idx, 'OWNER'] != '內蒙古自治區':
        region = china.loc[idx, 'OWNER'][:2]
    else:
        region = china.loc[idx, 'OWNER'].replace('省', '') \
                                        .replace('市', '') \
                                        .replace('自治區', '')

    ax.text(_.x, _.y, region, ha="center", va="center", size=6)

# 單獨提前設定圖例標題大小
plt.rcParams['legend.title_fontsize'] = 14

# 設定圖例標題，位置，排列方式，是否帶有陰影
ax.legend(title="圖例", loc='lower left', ncol=1, shadow=True)

ax.axis('off') # 移除座標軸
fig.savefig('圖16.png', dpi=300)

圖16

Step7：新增小地圖

　　大家平時如果留意會記得，我們一般看到的中國地圖其南海區域都是單獨在右下角的小地圖裡顯示出來的，在geopandas裡製作這種地圖非常簡單，我們只需要結合matplotlib中新增子圖區域的add_axes()，即可完成製作，先來認識一下add_axes()的功能，它最重要的引數是rect，通過傳入形如(bottom, left, width, height)來實現在圖床中開闢子區域，讓我們從下面簡單的例子出發好好理解，首先我們使用plt.figure()建立一個方形畫布，並在畫布上使用add_axes((0, 0, 1, 1))：

圖17

　　發現原理了嗎？我們傳入的(0, 0, 1, 1)，其前兩位其實代表著子圖區域左下角座標在整個畫布中的比例座標！而後兩位則代表則代表著子圖區域的相對於整個畫布的比例寬度與長度！接著我們再為fig開闢新的子區域，並在新開闢的子區域正中心寫上文字：

圖18

　　新的子圖區域左下角座標位於畫布的底邊中點，比例長寬均為0.5，所以得到了如圖所示的效果，搞明白了這些之後，下面我們就可以來畫帶小地圖的中國地圖啦：

　　首先我們需要分別對中國地圖以及南海插圖的經緯度範圍進行限定，因為並沒有找到嚴格的範圍規定，所以這裡我們大致定義一下中國地圖和南海插圖的最小最大經緯度，生成GeoDataFrame並新增向量資訊，最後進行合適的投影轉換：

from shapely.geometry import Point

bound = gpd.GeoDataFrame({
    'x': [80, 150, 106.5, 123],
    'y': [15, 50, 2.8, 24.5]
})
# 新增向量列
bound.geometry = bound.apply(lambda row: Point([row['x'], row['y']]), axis=1)
# 初始化CRS
bound.crs = 'EPSG:4326'
# 再投影
bound.to_crs(albers_proj, inplace=True)
bound

圖19

　　接下來的步驟就一目瞭然了，只需要把前文繪製地圖部分的手法分別移植到兩個子圖上即可：

fig = plt.figure(figsize=(8, 8))

# 建立覆蓋整個畫布的子圖1
ax = fig.add_axes((0, 0, 1, 1))
ax = china.geometry.to_crs(albers_proj).plot(ax=ax,
                                             facecolor='grey',
                                             edgecolor='white',
                                             linestyle='--',
                                             alpha=0.8)
ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4,
                                                  label='南海九段線')

# 單獨提前設定圖例標題大小
plt.rcParams['legend.title_fontsize'] = 14

# 設定圖例標題，位置，排列方式，是否帶有陰影
ax.legend(title="圖例", loc='lower left', ncol=1, shadow=True)

ax.axis('off') # 移除座標軸
ax.set_xlim(bound.geometry[0].x, bound.geometry[1].x)
ax.set_ylim(bound.geometry[0].y, bound.geometry[1].y)

# 建立南海插圖對應的子圖，這裡的位置和大小資訊是我調好的，你可以試著調節看看有什麼不同
ax_child = fig.add_axes([0.75, 0.15, 0.2, 0.2])
ax_child = china.geometry.to_crs(albers_proj).plot(ax=ax_child,
                                                   facecolor='grey',
                                                   edgecolor='white',
                                                   linestyle='--',
                                                   alpha=0.8)
ax_child = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax_child,
                                                        edgecolor='grey',
                                                        linewidth=3,
                                                        alpha=0.4,
                                                        label='南海九段線')

ax_child.set_xlim(bound.geometry[2].x, bound.geometry[3].x)
ax_child.set_ylim(bound.geometry[2].y, bound.geometry[3].y)

# 移除子圖座標軸刻度，因為這裡的子圖需要有邊框，所以只移除座標軸刻度
ax_child.set_xticks([])
ax_child.set_yticks([])

fig.savefig('圖20.png', dpi=300)

圖20

2.2 GeoDataFrame

　　介紹完了圍繞GeoSeries展開的繪圖方法，下面我們來學習geopandas中圍繞GeoDataFrame展開的視覺化方法。

　　與GeoSeries相比，GeoDataFrame擁有多列資料，即我們可以將輔助列的數值資訊對映到地圖的視覺元素上，因此在GeoSeries常用引數的基礎上，新增了更多引數：

column：用於指定對映地圖視覺元素的數值資訊，可以是對應GeoDataFrame的列名，或是直接傳入與幾何物件一一對應得數值序列，預設為None

cmap：傳入對映視覺元素時的色彩方案，具體使用方式下文中會做詳細介紹

categorical：bool型，True表示指定對映目標列採取離散表示，對於數值型的列有意義，當對應目標列為類別型時自動變為True

legend：bool型，為True時會為地圖新增圖例

scheme：str型，用於指定地區分佈圖分層設色的數值劃分方案，下文中會做詳細介紹

k：int型，用於指定分層設色的色階數量

vmin：None或float，用於指定分層設色的數值範圍下限，預設為None即以對應資料中的最小值為下限

vmax：None或float，用於指定分層設色的數值範圍上限，預設為None即以對應資料中的最大值為上限

legend_kwds：字典型，傳入與圖例相關的個性化引數

classification_kwds：字典型，傳入與分層設色相關的個性化引數

missing_kwds：字典型，傳入與缺失值處理相關的個性化引數，用於對缺失值部分的視覺對映做個性化設定

　　同樣的，我們以實際例子出發，這裡我們使用新冠肺炎疫情資料，資料來源：https://github.com/BlankerL/DXY-COVID-19-Data ，同樣地你可以在本文開頭列出的Github倉庫中對應本文的路徑下找到下文所使用的資料，首先我們先對原資料做一些預處理，以得到每個省份最新一次更新記錄的資料：

圖21

　　這樣就得到我們所需的資料。

2.2.1 地區分佈圖與分層設色

　　地區分佈圖（Choropleth Map），指的是依據指定屬性進行層次劃分，並將對應的層次對映到對應幾何物件的色彩之上，下面我們先將上面處理好的表格資料與china相關聯，因為geopandas支援pandas的連線操作，所以我們使用pd.merge()以省級單位名稱為鍵來連線兩張表（由於連線之後的表格會變成pandas.DataFrame，所以這裡將其轉換回GeoDataFrame）：

data_with_geometry = pd.merge(left=temp.replace('澳門', '澳門特別行政區'),
                              right=china,
                              left_on='provinceName',
                              right_on='OWNER',
                              how='right'
                              ).loc[:, ['provinceName',
                                        'provinceEnglishName',
                                        'province_confirmedCount',
                                        'province_suspectedCount',
                                        'province_curedCount',
                                        'province_deadCount',
                                        'geometry'
                                        ]]
# 將資料從DataFrame轉換為GeoDataFrame
data_with_geometry = gpd.GeoDataFrame(data_with_geometry, crs='EPSG:4326')
data_with_geometry.head()

圖22

　　有了資料，我們先很“愚蠢魯莽”地直接將province_confirmedCount即地區確診數作為對映值傳入引數column，並選擇cmap為經典的Reds紅色漸變配色，以及調整一些前文中我們已經很熟悉的引數，看看得到什麼樣的結果：

圖23

　　為什麼會得到這樣奇怪的結果？讓我們逐一來分析一下問題所在：

臺灣省跑哪裡去了？

　　細心的你一定會發現，我們的寶島臺灣不見了，這並不是我們的幾何物件中缺失了它，一箇中國一寸土地都不可缺少，真正使得它消失的原因在於我們的原始資料中其實缺失香港和臺灣的資料，我們前面連線過程使用的右連線的方法使得我們保留了所有的土地，但是臺灣和香港由於資料缺失，對應資料位置是NaN，因此在數值對映到色彩的過程中變成了預設的白色，這時候missing_kwds引數就起到大用處了：

fig, ax = plt.subplots(figsize=(12, 12))

# 新增缺失值處理引數
ax = data_with_geometry.to_crs(albers_proj).plot(ax=ax,
                                                 column='province_confirmedCount',
                                                 cmap='Reds',
                                                 missing_kwds={
                                                     "color": "lightgrey",
                                                     "edgecolor": "black",
                                                     "hatch": "////"
                                                 })

ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)

ax.axis('off')

fig.savefig('圖24.png', dpi=300)

圖24

　　在字典格式的missing_kwds引數中，我們用color設定了缺失值區域的底色，用edgecolor設定了缺失值區域的線條顏色，並且用hatch設定了陰影填充樣式，這樣一來哪些地方缺失資料記錄就一目瞭然了。

為什麼只有湖北省顏色這麼深？

　　的確，這樣的地圖給我們的感覺就是：湖北省很嚴重，其他地方沒什麼區別嘛，我們在圖24的基礎上加上數值-色彩參考：

fig, ax = plt.subplots(figsize=(12, 12))

ax = data_with_geometry.to_crs(albers_proj).plot(ax=ax,
                                                 column='province_confirmedCount',
                                                 cmap='Reds',
                                                 missing_kwds={
                                                     "color": "lightgrey",
                                                     "edgecolor": "black",
                                                     "hatch": "////"
                                                 },
                                                 legend=True)

ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)

ax.axis('off')

fig.savefig('圖25.png', dpi=300)

圖25

　　這下我們搞清楚了，原來是因為湖北省的資料過於大，使得數值在均勻向有序色階上對映時，除湖北省之外的其他資料都被壓縮到非常淺色的區域，這時就到了本小結的主題——分層設色，這裡就涉及到相關的核心引數scheme以及k，其中scheme決定了資料分層的方法，其通過呼叫第三方包mapclassify中用於給資料分層的方法），來實現geopandas中的分層設色，譬如下面我們在圖25的基礎上，使用我們喜聞樂見的自然斷點法對應的'NaturalBreaks'作為引數，選擇分段數量k=5，來看看會有什麼樣的效果：

fig, ax = plt.subplots(figsize=(12, 12))

ax = data_with_geometry.to_crs(albers_proj).plot(ax=ax,
                                                 column='province_confirmedCount',
                                                 cmap='Reds',
                                                 missing_kwds={
                                                     "color": "lightgrey",
                                                     "edgecolor": "black",
                                                     "hatch": "////"
                                                 },
                                                 legend=True,
                                                 scheme='NaturalBreaks',
                                                 k=5)

ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)

ax.axis('off')

fig.savefig('圖26.png', dpi=300)

圖26

　　這時可以看到，區域顏色的分佈更加溫和，也使得我們看出了不同地區在疫情嚴重程度上的區別，且因為這時變成了離散的分層，所以圖例也由比色卡變為更為標準的分類圖例，但是這個圖例預設在右上角，對地圖造成了較為明顯的遮擋，下面我們在圖26的基礎上，利用引數legend_kwds，以及missing_kwds引數下的label，對其進行美化：

fig, ax = plt.subplots(figsize=(12, 12))

ax = data_with_geometry.to_crs(albers_proj).plot(ax=ax,
                                                 column='province_confirmedCount',
                                                 cmap='Reds',
                                                 missing_kwds={
                                                     "color": "lightgrey",
                                                     "edgecolor": "black",
                                                     "hatch": "////",
                                                     "label": "缺失值"
                                                 },
                                                 legend=True,
                                                 scheme='NaturalBreaks',
                                                 k=5,
                                                 legend_kwds={
                                                     'loc': 'lower left',
                                                     'title': '確診數量分級',
                                                     'shadow': True
                                                 })

ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)

ax.axis('off')

fig.savefig('圖27.png', dpi=300)

圖27

　　至此我們的地圖已經比最開始美觀了很多，再為其新增大標題、小標題和資料說明文字，這樣一張談不上好看但還湊合的疫情地圖便製作完畢：

fig, ax = plt.subplots(figsize=(12, 12))

ax = data_with_geometry.to_crs(albers_proj).plot(ax=ax,
                                                 column='province_confirmedCount',
                                                 cmap='Reds',
                                                 missing_kwds={
                                                     "color": "lightgrey",
                                                     "edgecolor": "black",
                                                     "hatch": "////",
                                                     "label": "缺失值"
                                                 },
                                                 legend=True,
                                                 scheme='NaturalBreaks',
                                                 k=5,
                                                 legend_kwds={
                                                     'loc': 'lower left',
                                                     'title': '確診數量分級',
                                                     'shadow': True
                                                 })

ax = nine_lines.geometry.to_crs(albers_proj).plot(ax=ax,
                                                  edgecolor='grey',
                                                  linewidth=3,
                                                  alpha=0.4)

ax.axis('off')
plt.suptitle('新型冠狀肺炎累計確診數量地區分佈', fontsize=24) # 新增最高級別標題
plt.title('截至2020年02月27日', fontsize=18) # 新增大標題
plt.tight_layout(pad=4.5) # 調整不同標題之間間距
ax.text(-2800000, 1000000, '* 原始資料來源：丁香園，\n其中臺灣及香港資料缺失') # 新增資料說明

fig.savefig('圖28.png', dpi=300)

圖28

2.2.2 搭配matplotlib實現創作

　　geopandas雖然自帶了如此豐富的地圖繪製功能，但很多時候作圖僅僅靠它是不夠的，想要實現更加個性化的效果，需要結合matplotlib中豐富的功能，如下圖是我隨意結合matplotlib中的若干功能實現的個性化視覺化，疊加了較多元素，由於篇幅有限，程式碼不在此放出，你可以去文章開頭的Github倉庫檢視本文所有程式碼，嘗試用你喜歡的顏色來對地圖調色：

圖29

2.2.3 在模仿中學習

　　
　　成為資料視覺化專家不是一件容易的事，但我們可以先從模仿其他大師的優秀作品出發，譬如圖30來自於Github倉庫https://github.com/Z3tt/TidyTuesday ，這個倉庫包含了眾多基於R的優秀作品，而圖30就是其中之一，對澳洲大火造成的影響進行視覺化：

圖30

　　而下面的圖31就是我利用geopandas對圖30的大致模仿，其中字型部分原始的R指令碼中使用ggtext實現方便的富文字生成，而Python中我暫時沒找到類似功能的輪子，所以這裡文字部分比較簡陋：

圖31

　　對應的程式碼如下，其中使用到的向量資料是我搜集到的精度較高的世界地圖資料：

world = gpd.read_file('world')
world['SOVEREI']

smoke_list = ['Denmark', 'France', 'Spain', 'Sweden', 'Norway', 'Germany', 'Finland', 'Poland', 'Italy', 'Greenland']
burnt_list = ['Latvia']

fig, ax = plt.subplots(figsize=(8, 8))

crs = '+proj=moll +lon_0=0 +x_0=0 +y_0=0 +ellps=WGS84 +datum=WGS84 +units=m +no_defs'

# 繪製過煙區域
ax = world[world['SOVEREI'].isin(smoke_list)] \
                        .to_crs(crs) \
                        .plot(ax=ax,
                              facecolor='#d9c09e',
                              edgecolor='#c49c67',
                              linewidth=0.2)

# 繪製拉脫維亞
ax = world[world['SOVEREI'].isin(burnt_list)] \
                        .to_crs(crs) \
                        .plot(ax=ax,
                              facecolor='#c82626',
                              edgecolor='#9d1e1e',
                              linewidth=0.2)

# 繪製剩餘國家
ax = world[-(world['SOVEREI'].isin(smoke_list) | world['SOVEREI'].isin(burnt_list))] \
                         .to_crs(crs) \
                         .plot(ax=ax,
                               facecolor='lightgrey',
                               edgecolor='grey',
                               linewidth=0.05,
                               alpha=0.7)

ax.set_xlim([-3200000, 2300000])
ax.set_ylim([4100000, 9000000])
ax.axis('off')

# 新增文字
plt.text(-3*10**6, 5.5*10**6, 
         '''
         由2019/20澳洲大火所導致
         的灌木叢、森林以及公園焚
         毀面積比拉脫維亞國土還要
         大，產生的濃煙也已經覆蓋
         了丹麥全境(包括格陵蘭島
         和法羅群島)島嶼)、法國、
         西班牙、瑞典、挪威、德國、
         芬蘭、波蘭和義大利
         ''', 
         fontdict={
             'color': 'black',
             'weight': 'bold',
             'size': 13
         })

plt.savefig('圖31.png', dpi=500)

　　以上就是本文的全部內容，如有筆誤望指出，接下來的文章我將會繼續介紹更高階的地圖視覺化方法，敬請期待

（資料科學學習手札78）基於geopandas的空間資料分析——基礎視覺化

1 簡介

2 基礎視覺化

2.1 GeoSeries

2.2 GeoDataFrame

2.2.1 地區分佈圖與分層設色

2.2.2 搭配matplotlib實現創作

2.2.3 在模仿中學習

（資料科學學習手札78）基於geopandas的空間資料分析——基礎視覺化

（資料科學學習手札74）基於geopandas的空間資料分析——資料結構篇

（資料科學學習手札75）基於geopandas的空間資料分析——座標參考系篇

（資料科學學習手札77）基於geopandas的空間資料分析——檔案IO

（資料科學學習手札79）基於geopandas的空間資料分析——深入淺出分層設色

（資料科學學習手札83）基於geopandas的空間資料分析——geoplot篇(下)

（資料科學學習手札84）基於geopandas的空間資料分析——空間計算篇（上）

（資料科學學習手札88）基於geopandas的空間資料分析——空間計算篇（下）

（資料科學學習手札76）基於Python的拐點檢測——以新冠肺炎疫情資料為例

（資料科學學習手札59）從抓取資料到生成shp檔案並展示

（資料科學學習手札93）利用geopandas與PostGIS進行互動

（資料科學學習手札96）在geopandas中疊加線上地圖

（資料科學學習手札51）用pymysql來操控MySQL資料庫

（資料科學學習手札62）詳解seaborn中的kdeplot、rugplot、distplot與jointplot

（資料科學學習手札63）利用pandas讀寫HDF5檔案

（資料科學學習手札64）在jupyter notebook中利用kepler.gl進行空間資料視覺化

（資料科學學習手札65）利用Python實現Shp格式向GeoJSON的轉換

（資料科學學習手札66）在ubuntu伺服器上部署shiny

（資料科學學習手札68）pandas中的categorical型別及應用

（資料科學學習手札69）詳解pandas中的map、apply、applymap、groupby、agg

（資料科學學習手札78）基於geopandas的空間資料分析——基礎視覺化

1 簡介

2 基礎視覺化

2.1 GeoSeries

2.2 GeoDataFrame

2.2.1 地區分佈圖與分層設色

2.2.2 搭配matplotlib實現創作

2.2.3 在模仿中學習

相關推薦