1. 程式人生 > >視覺化:迴歸分析和分類屬性

視覺化:迴歸分析和分類屬性

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import numpy as np
import pandas as pd
from scipy import stats, integrate
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
sns.set(color_codes=True)
np.random.seed(sum(map(ord, "distributions")))
x = np.random.normal(size=100)
sns.distplot(x,kde
=False) #直方圖繪製 sns.distplot(x, bins=20, kde=False) #根據均值和協方差生成資料 mean, cov = [0, 1], [(1, .5), (.5, 1)] data = np.random.multivariate_normal(mean, cov, 200) df = pd.DataFrame(data, columns=["x", "y"]) #觀測兩個變數之間的分佈關係最好用散點圖 sns.jointplot(x="x", y="y", data=df); iris = sns.load_dataset("iris") #讀入自帶的資料集 sns.pairplot(iris) #
4.REG sns.set(color_codes=True) np.random.seed(sum(map(ord, "regression"))) tips = sns.load_dataset("tips") tips.head() #迴歸分析繪製圖 #regplot()和lmplot()都可以繪製迴歸關係,推薦regplot() sns.regplot(x="total_bill", y="tip", data=tips) #x_jitter:小範圍的浮動 sns.regplot(x="size", y="tip", data=tips, x_jitter=.05) #多變數分析圖 sns.
set(style="whitegrid", color_codes=True) np.random.seed(sum(map(ord, "categorical"))) titanic = sns.load_dataset("titanic") tips = sns.load_dataset("tips") iris = sns.load_dataset("iris") sns.stripplot(x="day", y="total_bill", data=tips); sns.stripplot(x="day", y="total_bill", data=tips, jitter=True)#jitter:小範圍的浮動 sns.swarmplot(x="day", y="total_bill", hue="sex",data=tips)#樹形圖 #盒圖 #IQR即統計學概念四分位距,第一/四分位與第三/四分位之間的距離 #N = 1.5IQR 如果一個值>Q3+N或 < Q1-N,則為離群點 sns.boxplot(x="day", y="total_bill", hue="time", data=tips); #小提琴圖 sns.violinplot(x="total_bill", y="day", hue="time", data=tips); #條形圖可以顯示值的集中趨勢 sns.barplot(x="sex",y="survived",hue="class",data=titanic) #點圖可以更好的描述變化差異 sns.pointplot(x="sex", y="survived", hue="class", data=titanic) sns.boxplot(data=iris,orient="h");#盒型圖,orient=“h'橫著畫 #分類屬性 #多層面板分類圖 sns.factorplot(x="day", y="total_bill", hue="smoker", data=tips) sns.factorplot(x="day", y="total_bill", hue="smoker", col="time", data=tips, kind="swarm")#點圖 sns.factorplot(x="time", y="total_bill", hue="smoker",#盒圖 col="day", data=tips, kind="box", size=4, aspect=.5) ''' Parameters: •x,y,hue 資料集變數 變數名 •date 資料集 資料集名 •row,col 更多分類變數進行平鋪顯示 變數名 •col_wrap 每行的最高平鋪數 整數 •estimator 在每個分類中進行向量到標量的對映 向量 •ci 置信區間 浮點數或None •n_boot 計算置信區間時使用的引導迭代次數 整數 •units 取樣單元的識別符號,用於執行多級引導和重複測量設計 資料變數或向量資料 •order, hue_order 對應排序列表 字串列表 •row_order, col_order 對應排序列表 字串列表 •kind : 可選:point 預設, bar 柱形圖, count 頻次, box 箱體, violin 提琴, strip 散點,swarm 分散點 size 每個面的高度(英寸) 標量 aspect 縱橫比 標量 orient 方向 "v"/"h" color 顏色 matplotlib顏色 palette 調色盤 seaborn顏色色板或字典 legend hue的資訊面板 True/False legend_out 是否擴充套件圖形,並將資訊框繪製在中心右邊 True/False share{x,y} 共享軸線 True/False '''