kaggle中的視覺化（一）：House Prices

阿新 • • 發佈：2019-02-05

kaggle中預測的get started專案，原文連結。
看原文可以入門特徵工程，這裡主要說視覺化部分，用到matplotlib和seaborn。
導庫增加

import seaborn as sns
from scipy.stats import norm
from scipy import stats
from sklearn.preprocessing import StandardScaler

基本資訊

獲取列名

.cloumns

獲取DataFrame的所有列名

df_train.columns

輸出

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
   'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
   'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
   'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
   'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
   'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
   'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
   'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
   'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
   'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
   'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
   'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
   'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
   'GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF',
   'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC',
   'Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType',
   'SaleCondition', 'SalePrice'],
  dtype='object')

獲取列資訊

.describe()用於獲取DataFrame某列的基本資訊

df_train['SalePrice'].describe()

輸出

count      1460.000000
mean     180921.195890
std       79442.502883
min       34900.000000
25%      129975.000000
50%      163000.000000
75%      214000.000000
max      755000.000000
Name: SalePrice, dtype: float64

直方圖

用seaborn畫直方圖

sns.displot(df_train['SalePrice' 
])

直方圖

偏度和峰度

.skew() 獲取偏度
.kurt() 獲取峰度

print("Skewness: %f" % df_train['SalePrice'].skew())
print("Kurtosis: %f" % df_train['SalePrice'].kurt())

輸出

Skewness: 1.882876
Kurtosis: 6.536282

散點圖

以特徵GrLivArea為X軸，預測物件SalePrice為Y軸，觀察相關性，如是否有線性關係

var = 'GrLivArea'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
data.plot.scatter(x=var, y='SalePrice', ylim=(0,800000));

散點圖

用seaborn的.pairplot() 畫很多散點圖

sns.set()
cols = ['SalePrice', 'OverallQual', 'GrLivArea', 'GarageCars', 'TotalBsmtSF', 'FullBath', 'YearBuilt']
sns.pairplot(df_train[cols], size = 2.5)
plt.show();

這裡寫圖片描述

盒圖

用seaborn的.boxplot() 方法畫盒圖，觀察特徵OverallQual與SalePrice的關係

var = 'OverallQual'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
f, ax = plt.subplots(figsize=(8, 6))
fig = sns.boxplot(x=var, y="SalePrice", data=data)
fig.axis(ymin=0, ymax=800000);

熱圖

seaborn庫的.heatmap() 方法
協方差矩陣熱圖，顏色越深代表相關性越強

corrmat = df_train.corr()
f, ax = plt.subplots(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.8, square=True);

這裡寫圖片描述

選取與SalePrice相關係數最高的10個特徵作熱圖，顯示相關係數

k = 10 #number of variables for heatmap
cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index
cm = np.corrcoef(df_train[cols].values.T)
sns.set(font_scale=1.25)
hm = sns.heatmap(cm, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

這裡寫圖片描述

缺失值

計算各特徵對應缺失值佔比，返回前20的情況

total = df_train.isnull().sum().sort_values(ascending=False)
percent = (df_train.isnull().sum()/df_train.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
missing_data.head(20)

這裡寫圖片描述

離群點

單變數分析

首先用標準化（標準化不會改變資料相對分佈的特性）把資料轉變成正態分佈，分別檢視最大和最小的十個值

saleprice_scaled = StandardScaler().fit_transform(df_train['SalePrice'][:,np.newaxis]);
low_range = saleprice_scaled[saleprice_scaled[:,0].argsort()][:10]
high_range= saleprice_scaled[saleprice_scaled[:,0].argsort()][-10:]
print('outer range (low) of the distribution:')
print(low_range)
print('\nouter range (high) of the distribution:')
print(high_range)

輸出

outer range (low) of the distribution:
[[-1.83820775]
 [-1.83303414]
 [-1.80044422]
 [-1.78282123]
 [-1.77400974]
 [-1.62295562]
 [-1.6166617 ]
 [-1.58519209]
 [-1.58519209]
 [-1.57269236]]

outer range (high) of the distribution:
[[ 3.82758058]
 [ 4.0395221 ]
 [ 4.49473628]
 [ 4.70872962]
 [ 4.728631  ]
 [ 5.06034585]
 [ 5.42191907]
 [ 5.58987866]
 [ 7.10041987]
 [ 7.22629831]]

可以發現，Low range值偏離原點並且都比較相近，High range離遠點較遠，7.很可能是異常值

雙變數分析

以GrLivArea為X軸，SalePrice為y軸畫散點圖

var = 'GrLivArea'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
data.plot.scatter(x=var, y='SalePrice', ylim=(0,800000));

這裡寫圖片描述
從圖中看出二者很可能有線性關係，則圖中右下方的兩個點作為異常值捨棄

df_train.sort_values(by = 'GrLivArea', ascending = False)[:2]
df_train = df_train.drop(df_train[df_train['Id'] == 1299].index)
df_train = df_train.drop(df_train[df_train['Id'] == 524].index)

正態化

scipy庫中stats物件的.probplot() 方法擬合一個高斯正態分佈，以SalePrice為例

sns.distplot(df_train['SalePrice'], fit=norm);
fig = plt.figure()
res = stats.probplot(df_train['SalePrice'], plot=plt)

這裡寫圖片描述

可以看到資料呈正偏態分佈，現在我們想把它轉變成正太分佈。統計學裡面一個常用的做法就是對SalePrice的取log。

df_train['SalePrice'] = np.log(df_train['SalePrice'])
sns.distplot(df_train['SalePrice'], fit=norm);
fig = plt.figure()
res = stats.probplot(df_train['SalePrice'], plot=plt)

這裡寫圖片描述

可以看到對SalePrice做了log變換之後近似於正態分佈了

kaggle中的視覺化（一）：House Prices

kaggle中預測的get started專案，原文連結。看原文可以入門特徵工程，這裡主要說視覺化部分，用到matplotlib和seaborn。導庫增加 import seaborn as sns from scipy.stats import

Caffe視覺化（一）：網路結構視覺化（用Caffe自帶程式實現）

Caffe視覺化（一）：網路結構視覺化（用Caffe自帶程式實現）本文記錄瞭如何利用Caffe自帶的程式實現網路的視覺化，包括可能遇到的問題和解決方案。更新於2018.10.25。文章目錄 Caffe視覺化（一）：網路結構視覺化（用Caffe自帶程式實現

Caffe視覺化（二）：權重及輸出視覺化（用Deep Visualization Toolbox實現）

Caffe視覺化（二）：權重及輸出視覺化（用Deep Visualization Toolbox實現）本文記錄了博主在研究Caffe權重及輸出視覺化過程中發現的工具包，包括工具包的安裝、使用和調整（以適應自定義網路）的相關內容。更新於2018.10.26。文章目錄

Cesium中級1 - 空間資料視覺化（一）

#[CesiumJS]Cesium中級1 - 空間資料視覺化（一） Cesium中文網：http://cesiumcn.org/ | 國內快速訪問：http://cesium.coinidea.com/ 本教程將教讀者如何使用Cesium的實體（Entity）API繪製空間資料，如點、標

Android中使用OrmLite（一）：表建立及增刪改查

OrmLite是一個輕量級的ORM框架，面向JAVA語言。也是時下流行的Android的ORM框架之一。在Android中使用Sqlite資料，如果又不想寫SQL，OrmLite或許是個不錯的選擇。使用OrmLite，首先要在gradle

【caffe】在windows平臺中安裝caffe（一）：基礎安裝及簡單測試

基礎配置本文中的配置：win10 + vs2015 + python2.5 + cmake3.12 + git2.15 + CUDA8.0 + cuDNN-8.0-5 在進行windows下的caffe安裝前，一定要把以上的這些軟體安裝好，並加入系統路徑中。

Android studio中NDK開發（一）：CMakeLists.txt編寫入門

自定義變數主要有隱式定義和顯式定義兩種。隱式定義的一個例子是PROJECT指令，它會隱式的定義< projectname >_BINARY_DIR和< projectname >_SOURCE_DIR兩個變數；顯式定義使用SE

數據中臺系列（一）：你的企業真的需要「數據中臺」嗎？

反饋沒有精細化運營畫像保險可能盈利項目關於如何理解數據中臺在解決你是否需要數據中臺這個問題之前，讓我們先理理它究竟是什麽。它是工具？是方法？還是組織架構？我的回答是：都不僅僅是。數據中臺包括平臺、工具、數據、組織、流程、規範等一切與企業數據資產如何用起來

Android MediaPlayer中的RTSP（一）：RTSP簡介

背景：我在最近的專案中遇到了使用Android的MediaPlayer來進行RTSP播放的場景。但對於RTSP這種流媒體協議，其實Android原生的播放器支援得不是很好，所以有許多需要修改的地方。本文主要簡單介紹RTSP協議及其在MediaPlayer

CentOS中使用VeraCrypt（一）：安裝及建立整個加密硬碟

前一階段看了一些關於資料安全，系統安全，以及社會工程學的書籍，突然覺得資料加密是一項十分重要的工作，由其是公司的敏感資料、商業機密，或者個人的重要檔案都應該隨時進行加密；就算是平時的備份資料也要進行合理的加密，以保證資料安全。VeraCrypt是目前一款比較流行

Kaggle八門神器（一）：競賽神器之XGBoost介紹

Xgboost為一個十分有效的機器學習模型，在各種競賽中均可以看到它的身影，同時Xgboost在工業屆也有著廣泛的應用，本文以Titanic資料集為研究物件，簡單地探究Xgboost模型建模過程，同時對資料清理以及特徵工程的內容作簡單的介紹，以此作為Xgboost模型的學習筆記，錯誤和不足之處還請各位看官指出

Matplotlib資料視覺化（1）：入門介紹

1 matplot入門指南¶ matplotlib是Python科學計算中使用最多的一個視覺化庫，功能豐富，提供了非常多的視覺化方案，基本能夠滿足各種場景下的資料視覺化需求。但功能豐富從另一方面來說也意味著概念、方法、引數繁多，讓許多新手望而卻步。據我瞭解，大部分人在對m

Matplotlib資料視覺化（2）：三大容器物件與常用設定

上一篇部落格中說到，matplotlib中所有畫圖元素（artist）分為兩類：基本型和容器型。容器型元素包括三種：figure、axes、axis。一次畫圖的必經流程就是先建立好figure例項，接著由figure去建立一個或者多個axes，然後通過axes例項呼叫各種方法

Matplotlib資料視覺化（3）：文字與軸

在一幅圖表中，文字、座標軸和影象的是資訊傳遞的核心，對著三者的設定是作圖這最為關心的內容，在上一篇部落格中雖然列舉了一些設定方法，但沒有進行深入介紹，本文以圍繞如何對文字和座標軸進行設定展開（對影象的設定在後續介紹到各種圖繪製時介紹）。這裡所說的文字是指在使用matplot

Matplotlib資料視覺化（4）：折線圖與散點圖

In [1]: from matplotlib import pyplot as plt import numpy as np import matplotlib as mpl mpl.rcParams['font.sans-serif'] = ['SimHei'] # 中

Matplotlib資料視覺化（5）：柱狀圖與直方圖

柱狀圖和直方圖是兩種非常類似的統計圖，區別在於：直方圖展示資料的分佈，柱狀圖比較資料的大小。直方圖X軸為定量資料，柱狀圖X軸為分類資料。因此，直方圖上的每個條形都是不可移動的，X軸上的區間是連續的、固定的。而柱狀圖上的每個條形是可以隨意排序的，有的情況下需要按照分

Matplotlib資料視覺化（6）：餅圖與箱線圖

In [1]: from matplotlib import pyplot as plt import numpy as np import matplotlib as mpl mpl.rcParams['font.sans-serif'] = ['SimHei'] # 中文字型支

Matplotlib資料視覺化（7）：圖片展示與儲存

In [1]: import os import matplotlib.image as mpimg from PIL import Image import matplotlib.pyplot as plt import numpy as np import matplot

雲中奈飛（一）：Netflix的上雲之旅

作者按： Netflix（譯為奈飛/網飛）公司自1997年創立以來，已發展成為美國最大的網際網路流媒體服務商。它從2008到2015年間長達七年的將其所有IT系統從自有資料中心遷移到AWS之上的旅程，在當時可謂前無古人的創舉，對公有云的發展、傳統企業上雲及基於雲的業務轉型等都有很大的推動和促進作用

Seaborn中文教程（一）：視覺化變數間的關係

眾所周知，Seaborn“可能”是Python下最友好、易用的視覺化工具了，視覺化效果也非常好。但是截止目前，並沒有一份中文教程供廣大國內Python使用者查閱學習。怎麼能因為語言的問題，讓大家錯過這麼好用的一個視覺化工具呢？思考再三，我決定花一些時間將官方的英文文件整理出來，為大

kaggle中的視覺化（一）：House Prices

基本資訊

獲取列名

獲取列資訊

直方圖

偏度和峰度

散點圖

盒圖

熱圖

缺失值

離群點

單變數分析

雙變數分析

正態化

相關推薦