簡單的資料視覺化
阿新 • • 發佈:2018-12-16
直方圖(Histogram)
- 又稱質量分佈圖,可以直觀地展示每個屬性的分佈情況;
- 一般用橫軸表示資料型別,縱軸表示分佈情況;
- 可以很直觀看到資料是高斯分佈、指數分佈還是偏態分佈。
下面使用 Pandas 的 DataFrame 物件的 hist()
方法就可以直接得到直方圖。
import pandas as pd
import matplotlib.pyplot as plt
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class' ]
data = pd.read_csv(filename, names=names)
data.hist()
plt.show()
顯示如下:
密度圖(density)
- 密度圖類似於直方圖,它用平滑的曲線來描述資料的分佈。
import pandas as pd
import matplotlib.pyplot as plt
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
data.plot(kind='density', subplots=True, layout=(3, 3), sharex=False)
plt.show()
顯示如下:
箱線圖
- 首先畫一條中位數線;
- 然後以下四分位數和上四分位數畫一個盒子;
- 上下各有一條橫線,表示上邊緣和下邊緣,通過橫線來顯示資料的伸展狀況;
- 遊離在邊緣之外的點為異常值。
import pandas as pd
import matplotlib.pyplot as plt
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres' , 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
data.plot(kind='box', subplots=True, layout=(3, 3), sharex=False)
plt.show()