1. 程式人生 > >簡單的資料視覺化

簡單的資料視覺化

直方圖(Histogram)

  • 又稱質量分佈圖,可以直觀地展示每個屬性的分佈情況;
  • 一般用橫軸表示資料型別,縱軸表示分佈情況;
  • 可以很直觀看到資料是高斯分佈、指數分佈還是偏態分佈。

下面使用 Pandas 的 DataFrame 物件的 hist() 方法就可以直接得到直方圖。

import pandas as pd
import matplotlib.pyplot as plt

filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'
] data = pd.read_csv(filename, names=names) data.hist() plt.show()

顯示如下: 在這裡插入圖片描述

密度圖(density)

  • 密度圖類似於直方圖,它用平滑的曲線來描述資料的分佈。
import pandas as pd
import matplotlib.pyplot as plt

filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename,
names=names) data.plot(kind='density', subplots=True, layout=(3, 3), sharex=False) plt.show()

顯示如下: 在這裡插入圖片描述

箱線圖

  • 首先畫一條中位數線;
  • 然後以下四分位數和上四分位數畫一個盒子;
  • 上下各有一條橫線,表示上邊緣和下邊緣,通過橫線來顯示資料的伸展狀況;
  • 遊離在邊緣之外的點為異常值。
import pandas as pd
import matplotlib.pyplot as plt

filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres'
, 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pd.read_csv(filename, names=names) data.plot(kind='box', subplots=True, layout=(3, 3), sharex=False) plt.show()

在這裡插入圖片描述