python 資料分析學習筆記 (第三章)
阿新 • • 發佈:2019-01-26
boxplot 箱形圖
catering_sale = '../data/catering_sale.xls' #餐飲資料
data = pd.read_excel(catering_sale) #讀取資料,指定“日期”列為索引列
import matplotlib.pyplot as plt #匯入影象庫
plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標籤
plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號
plt.figure() #建立影象
p = data.boxplot(return_type='dict' ) #畫箱線圖,直接使用DataFrame的方法
x = p['fliers'][0].get_xdata() # 'flies'即為異常值的標籤
y = p['fliers'][0].get_ydata()
y.sort() #從小到大排序,該方法直接改變原物件
#用annotate添加註釋
#其中有些相近的點,註解會出現重疊,難以看清,需要一些技巧來控制。
#以下引數都是經過除錯的,需要具體問題具體除錯。
for i in range(len(x)):
if i>0:
plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8 /(y[i]-y[i-1]),y[i]))
else:
plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))
plt.show() #展示箱線圖
統計量分析
from __future__ import print_function
import pandas as pd
catering_sale = '../data/catering_sale.xls' #餐飲資料
data = pd.read_excel(catering_sale) #讀取資料,指定“日期”列為索引列
data = data[(data[u'銷量' ] > 400)&(data[u'銷量'] < 5000)] #過濾異常資料
statistics = data.describe() #儲存基本統計量
statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #極差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #變異係數
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位數間距
print(statistics)
帕累託圖
dish_profit = '../data/catering_dish_profit.xls' #餐飲菜品盈利資料
data = pd.read_excel(dish_profit)
data = data[u'盈利'].copy()
data.sort(ascending = False)
import matplotlib.pyplot as plt #匯入影象庫
plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標籤
plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號
plt.figure()
data.plot(kind='bar')
plt.ylabel(u'盈利(元)')
p = 1.0*data.cumsum()/data.sum()
p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2)
plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) #添加註釋,即85%處的標記。這裡包括了指定箭頭樣式。
plt.ylabel(u'盈利(比例)')
plt.show()
相關係數的 d.corr()
from __future__ import print_function
import pandas as pd
catering_sale = '../data/catering_sale_all.xls' #餐飲資料,含有其他屬性
data = pd.read_excel(catering_sale) #讀取資料,指定“日期”列為索引列
data.corr() #相關係數矩陣,即給出了任意兩款菜式之間的相關係數
data.corr()[u'百合醬蒸鳳爪'] #只顯示“百合醬蒸鳳爪”與其他菜式的相關係數
data[u'百合醬蒸鳳爪'].corr(data[u'翡翠蒸香茜餃']) #計算“百合醬蒸鳳爪”與“翡翠蒸香茜餃”的相關係數
d.describe()
import pandas as pd
cc='../data/catering_sale.xls'
data=pd.read_excel(cc)
data.describe()