1. 程式人生 > >Python 項目實踐二(下載數據)第四篇

Python 項目實踐二(下載數據)第四篇

1.4 不同顏色 分享圖片 數據轉換 value 轉換成 ase itl only

接著上節繼續學習,在本節中,你將下載JSON格式的人口數據,並使用json模塊來處理它們。Pygal提供了一個適合初學者使用的地圖創建工具,你將使用它來對人口數據進行可視化,以探索全球人口的分布情況。

一 制作世界人口地圖

1 下載世界人口數據和提取相關的數據

可以去(http://data.okfn.org/)下載population_data.json,來研究一下population_data.json,看看如何著手處理這個文件中的數據:

[
  {
    "Country Name": "Arab World",
    "Country Code": "ARB",
    "Year": "1960",
    "Value": "96388069"
  },
  {
    "Country Name": "Arab World",
    "Country Code": "ARB",
    "Year": "1961",
    "Value": "98882541.4"
  },
省略。。。。
}

這個文件實際上就是一個很長的Python列表,其中每個元素都是一個包含四個鍵的字典:國家名、國別碼、年份以及表示人口數量的值。我們只關心每個國家2010年的人口數量,因此我們首先編寫一個打印這些信息的程序:

import json

#將數據加載到一個列表中
filename= ‘population_data.json‘

with open(filename) as f :
    pop_data = json.load(f)

for pop_dic in pop_data :
     if pop_dic["Year"] == ‘2010‘ :
         country_name= pop_dic[‘Country Name‘]
         population = pop_dic[‘Value‘]
         print(country_name + ":" + population)

結果如下:

技術分享圖片

2 將字符串轉換為數字值

population_data.json中的每個鍵和值都是字符串。為處理這些人口數據,我們需要將表示人口數量的字符串轉換為數字值,為此我們使用函數int():

 population = int(pop_dic[‘Value‘])
 print(country_name + ":" + str(population))

然而,對於有些值,這種轉換會導致錯誤,如下所示:

===== RESTART: D:/study/python/code/world_population/world_population.py =====
Arab World:357868000
Caribbean small states:6880000
East Asia & Pacific (all income levels):2201536674
East Asia & Pacific (developing only):1961558757
Euro area:331766000
Europe & Central Asia (all income levels):890424544
Europe & Central Asia (developing only):405204000
European Union:502125000
Heavily indebted poor countries (HIPC):635663000
Traceback (most recent call last):
  File "D:/study/python/code/world_population/world_population.py", line 12, in <module>
    population = int(pop_dic[‘Value‘])
ValueError: invalid literal for int() with base 10: ‘1127437398.85751‘
>>>

導致上述錯誤的原因是,Python不能直接將包含小數點的字符串‘1127437398.85751‘轉換為整數(這個小數值可能是人口數據缺失時通過插值得到的)。為消除這種錯誤,我們先將字符串轉換為浮點數,再將浮點數轉換為整數:

population = int(float(pop_dict[‘Value‘]))

函數float()將字符串轉換為小數,而函數int()丟棄小數部分,返回一個整數。每個字符串都成功地轉換成了浮點數,再轉換為整數。以數字格式存儲人口數量值後,就可以使用它們來制作世界人口地圖了。

三 獲取兩個字母的國別碼

制作地圖前,還需要解決數據存在的最後一個問題。Pygal中的地圖制作工具要求數據為特定的格式:用國別碼表示國家,以及用數字表示人口數量。處理地理政治數據時,經常需要用到幾個標準化國別碼集。population_data.json中包含的是三個字母的國別碼,但Pygal使用兩個字母的國別碼。我們需要想辦法根據國家名獲取兩個字母的國別碼。Pygal使用的國別碼存儲在模塊i18n(internationalization的縮寫)中。字典COUNTRIES包含的鍵和值分別為兩個字母的國別碼和國家名。要查看這些國別碼,可從模塊i18n中導入這個字典,並打印其鍵和值:

from pygal.i18n import COUNTRIES
? for country_code in sorted(COUNTRIES.keys()):
    print(country_code, COUNTRIES[country_code])

報錯:

======== RESTART: D:/study/python/code/world_population/countries.py ========
Traceback (most recent call last):
  File "D:/study/python/code/world_population/countries.py", line 1, in <module>
    from pygal.i18n import COUNTRIES
ModuleNotFoundError: No module named ‘pygal.i18n‘
>>> 

原因和解決方案:

The i18n module was removed in pygal-2.0.0, however, it can now be found in the pygal_maps_world plugin.
You can install that with pip install pygal_maps_world. Then you can access COUNTRIES as pygal.maps.world.COUNTRIES:
from pygal.maps.world import COUNTRIES

按上面的操作:

技術分享圖片

from pygal.maps.world import COUNTRIES

for country_code in sorted(COUNTRIES.keys()):
    print(country_code, COUNTRIES[country_code])

結果如下:

技術分享圖片

為獲取國別碼,我們將編寫一個函數,它在COUNTRIES中查找並返回國別碼。我們將這個函數放在一個名為country_codes的模塊中,以便能夠在可視化程序中導入它:

from pygal.maps.world import COUNTRIES

def get_country_code(country_name):
    #根據指定的國家,返回Pygal使用的兩個字母的國別碼
    for code,name in COUNTRIES.items():
        if name == country_name :
            return code
    # 如果沒有找到指定的國家,就返回None
    return None

print(get_country_code(‘Andorra‘))
print(get_country_code(‘United Arab Emirates‘))
print(get_country_code(‘Afghanistan‘))

結果如下:

======= RESTART: D:/study/python/code/world_population/contry_codes.py =======
ad
ae
af
>>> 

接下來,在world_population.py中導入get_country_code:

import json
from country_codes import get_country_code

#將數據加載到一個列表中
filename= ‘population_data.json‘

with open(filename) as f :
    pop_data = json.load(f)

# 打印每個國家2010年的人口數量
for pop_dic in pop_data :
     if pop_dic["Year"] == ‘2010‘ :
         country_name= pop_dic[‘Country Name‘]
         population = int(float(pop_dic[‘Value‘]))
         code =get_country_code(country_name)

         if code :
             print(code + ":" + str(population))
         else :
             print("ERROR -" + country_name)

結果如下:

技術分享圖片

導致顯示錯誤消息的原因有兩個。首先,並非所有人口數量對應的都是國家,有些人口數量對應的是地區(阿拉伯世界)和經濟類群(所有收入水平)。其次,有些統計數據使用了不同的完整國家名(如Yemen, Rep.,而不是Yemen)。當前,我們將忽略導致錯誤的數據,看看根據成功恢復了的數據制作出的地圖是什麽樣的。
3 繪制世界地圖

有了國別碼後,制作世界地圖易如反掌。Pygal提供了圖表類型Worldmap,可幫助你制作呈現各國數據的世界地圖。為演示如何使用Worldmap,我們來創建一個突出北美、中美和南美的簡單地圖:

import pygal
#此處書中的代碼已過時,請用最新的。
wm = pygal.maps.world.World()
wm.title = ‘North, Central, and South America‘
wm.add(‘North America‘, [‘ca‘, ‘mx‘, ‘us‘])
wm.add(‘Central America‘, [‘bz‘, ‘cr‘, ‘gt‘, ‘hn‘, ‘ni‘, ‘pa‘, ‘sv‘])
wm.add(‘South America‘, [‘ar‘, ‘bo‘, ‘br‘, ‘cl‘, ‘co‘, ‘ec‘, ‘gf‘,
‘gy‘, ‘pe‘, ‘py‘, ‘sr‘, ‘uy‘, ‘ve‘])

wm.render_to_file(‘americas.svg‘)

(1)我們創建了一個Worldmap實例,並設置了該地圖的的title屬性

(2)了方法add(),它接受一個標簽和一個列表,其中後者包含我們要突出的國家的國別碼。每次調用add()都將為指定的國家選擇一種新顏色,並在圖表左邊顯示該顏色和指定的標簽。我們要以同一種顏色顯示整個北美地區,因此第一次調用add()時,在傳遞給它的列表中包含‘ca‘、‘mx‘和‘us‘,以同時突出加拿大、墨西哥和美國。接下來,對中美和南美國家做同樣的處理。

(3)方法render_to_file()創建一個包含該圖表的.svg文件,你可以在瀏覽器中打開它。輸出是一幅以不同顏色突出北美、中美和南美的地圖,如下圖:

技術分享圖片

4 繪制完整的世界人口地圖

要呈現其他國家的人口數量,需要將前面處理的數據轉換為Pygal要求的字典格式:鍵為兩個字母的國別碼,值為人口數量。為此,在world_population.py中添加如下代碼:

import json
from country_codes import get_country_code
import pygal
#將數據加載到一個列表中
filename= ‘population_data.json‘

with open(filename) as f :
    pop_data = json.load(f)
    
cc_populations ={}
for pop_dict in pop_data :
    if pop_dict[‘Year‘] == ‘2010‘ :
        country_name= pop_dict[‘Country Name‘]
        population = int(float(pop_dict[‘Value‘]))
        code =get_country_code(country_name)

        if code :
            cc_populations[code] = population

wm = pygal.maps.world.World()
wm.title="World Population in 2010,by Country"
wm.add(‘2010‘,cc_populations)

wm.render_to_file("world_population.svg")

如下圖:

技術分享圖片

5根據人口數量將國家分組

印度和中國的人口比其他國家多得多,但在當前的地圖中,它們的顏色與其他國家差別較小。中國和印度的人口都超過了10億,接下來人口最多的國家是美國,但只有大約3億。下面不將所有國家都作為一個編組,而是根據人口數量分成三組——少於1000萬的、介於1000萬和10億之間的以及超過10億的。

import json
from country_codes import get_country_code
import pygal
#將數據加載到一個列表中
filename= ‘population_data.json‘

with open(filename) as f :
    pop_data = json.load(f)
    
cc_populations ={}
for pop_dict in pop_data :
    if pop_dict[‘Year‘] == ‘2010‘ :
        country_name= pop_dict[‘Country Name‘]
        population = int(float(pop_dict[‘Value‘]))
        code =get_country_code(country_name)

        if code :
            cc_populations[code] = population


# 根據人口數量將所有的國家分成三組
cc_pops_1, cc_pops_2, cc_pops_3 = {}, {}, {}

for cc, pop in cc_populations.items():
    if pop < 10000000:
        cc_pops_1[cc] = pop
    elif pop < 1000000000:
        cc_pops_2[cc] = pop
    else:
        cc_pops_3[cc] = pop
# 看看每組分別包含多少個國家?
print(len(cc_pops_1), len(cc_pops_2), len(cc_pops_3))

wm = pygal.maps.world.World()
wm.title="World Population in 2010,by Country"
#wm.add(‘2010‘,cc_populations)
wm.add(‘0-10m‘, cc_pops_1)
wm.add(‘10m-1bn‘, cc_pops_2)
wm.add(‘>1bn‘, cc_pops_3)

wm.render_to_file("world_population.svg")
             

結果如下:

技術分享圖片

現在使用了三種不同的顏色,讓我們能夠看出人口數量上的差別。在每組中,各個國家都按人口從少到多著以從淺到深的顏色。

6 使用Pygal設置世界地圖的樣式

在這個地圖中,根據人口將國家分組雖然很有效,但默認的顏色設置很難看。例如,在這裏,Pygal選擇了鮮艷的粉色和綠色基色。下面使用Pygal樣式設置指令來調整顏色。我們也讓Pygal使用一種基色,但將指定該基色,並讓三個分組的顏色差別更大:

import json
from country_codes import get_country_code
import pygal
from pygal.style import RotateStyle
#將數據加載到一個列表中
filename= ‘population_data.json‘

with open(filename) as f :
    pop_data = json.load(f)
    
cc_populations ={}
for pop_dict in pop_data :
    if pop_dict[‘Year‘] == ‘2010‘ :
        country_name= pop_dict[‘Country Name‘]
        population = int(float(pop_dict[‘Value‘]))
        code =get_country_code(country_name)

        if code :
            cc_populations[code] = population


# 根據人口數量將所有的國家分成三組
cc_pops_1, cc_pops_2, cc_pops_3 = {}, {}, {}

for cc, pop in cc_populations.items():
    if pop < 10000000:
        cc_pops_1[cc] = pop
    elif pop < 1000000000:
        cc_pops_2[cc] = pop
    else:
        cc_pops_3[cc] = pop
# 看看每組分別包含多少個國家?
print(len(cc_pops_1), len(cc_pops_2), len(cc_pops_3))
wm_style=RotateStyle(‘#336699‘)
wm = pygal.maps.world.World(style=wm_style)
wm.title="World Population in 2010,by Country"
#wm.add(‘2010‘,cc_populations)
wm.add(‘0-10m‘, cc_pops_1)
wm.add(‘10m-1bn‘, cc_pops_2)
wm.add(‘>1bn‘, cc_pops_3)

wm.render_to_file("world_population.svg")
             

Pygal樣式存儲在模塊style中,我們從這個模塊中導入了樣式RotateStyle。創建這個類的實例時,需要提供一個實參——十六進制的RGB顏色;Pygal將根據指定的顏色為每組選擇顏色。十六進制格式的RGB顏色是一個以井號(#)打頭的字符串,後面跟著6個字符,其中前兩個字符表示紅色分量,接下來的兩個表示綠色分量,最後兩個表示藍色分量。每個分量的取值範圍為00(沒有相應的顏色)~FF(包含最多的相應顏色)。如果你在線搜索hex color chooser(十六進制顏色選擇器),可找到讓你能夠嘗試選擇不同的顏色並顯示其RGB值的工具。這裏使用的顏色值(#336699)混合了少量的紅色(33)、多一些的綠色(66)和更多一些的藍色(99),它為RotateStyle提供了一種淡藍色基色。

效果如下圖:

技術分享圖片

7 加亮顏色主題

Pygal通常默認使用較暗的顏色主題。為方便印刷,我使用LightColorizedStyle加亮了地圖的顏色。這個類修改整個圖表的主題,包括背景色、標簽以及各個國家的顏色。要使用這個樣式,先導入它:

from pygal.style import LightColorizedStyle, RotateStyle

再使用RotateStyle創建一種樣式,並傳入另一個實參base_style:  

wm_style = RotateStyle(‘#336699‘, base_style=LightColorizedStyle)

最後的代碼和效果圖如下:

import json
from country_codes import get_country_code
import pygal
from pygal.style import RotateStyle,LightColorizedStyle

#將數據加載到一個列表中
filename= ‘population_data.json‘

with open(filename) as f :
    pop_data = json.load(f)
    
cc_populations ={}
for pop_dict in pop_data :
    if pop_dict[‘Year‘] == ‘2010‘ :
        country_name= pop_dict[‘Country Name‘]
        population = int(float(pop_dict[‘Value‘]))
        code =get_country_code(country_name)

        if code :
            cc_populations[code] = population


# 根據人口數量將所有的國家分成三組
cc_pops_1, cc_pops_2, cc_pops_3 = {}, {}, {}

for cc, pop in cc_populations.items():
    if pop < 10000000:
        cc_pops_1[cc] = pop
    elif pop < 1000000000:
        cc_pops_2[cc] = pop
    else:
        cc_pops_3[cc] = pop
# 看看每組分別包含多少個國家?
print(len(cc_pops_1), len(cc_pops_2), len(cc_pops_3))
wm_style=RotateStyle(‘#336699‘,base_style=LightColorizedStyle)
wm = pygal.maps.world.World(style=wm_style)
wm.title="World Population in 2010,by Country"
#wm.add(‘2010‘,cc_populations)
wm.add(‘0-10m‘, cc_pops_1)
wm.add(‘10m-1bn‘, cc_pops_2)
wm.add(‘>1bn‘, cc_pops_3)

wm.render_to_file("world_population.svg")
             

技術分享圖片

未完待續,今天是元旦節第二天,加油!

Python 項目實踐二(下載數據)第四篇