[Python資料探勘]第3章、資料探索
阿新 • • 發佈:2018-11-30
1、缺失值處理:刪除、插補、不處理
2、離群點分析:簡單統計量分析、3σ原則(資料服從正態分佈)、箱型圖(最好用)
離群點(異常值)定義為小於QL-1.5IQR或大於Qu+1.5IQR
import pandas as pd catering_sale = '../data/catering_sale.xls' #餐飲資料 data = pd.read_excel(catering_sale, index_col = u'日期') #讀取資料,指定“日期”列為索引列 import matplotlib.pyplot as plt #匯入影象庫 #plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標籤#plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號 plt.figure() #建立影象 p = data.boxplot(return_type='dict') #畫箱線圖,直接使用DataFrame的方法 x = p['fliers'][0].get_xdata() # 'fliers'即為異常值的標籤 y = p['fliers'][0].get_ydata() y.sort() #從小到大排序,該方法直接改變原物件 #用annotate添加註釋 #其中有些相近的點,註解會出現重疊,難以看清,需要一些技巧來控制。 #以下引數都是經過除錯的,需要具體問題具體除錯。for i in range(len(x)): if i>0: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i])) else: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i])) plt.show() #展示箱線圖
3、貢獻度分析(帕累託分析,20/80定律)
import pandas as pd import matplotlib.pyplot as plt #匯入影象庫 dish_profit = 'data/catering_dish_profit.xls' #餐飲菜品盈利資料 data = pd.read_excel(dish_profit, index_col = u'菜品名') data = data[u'盈利'].copy() data.sort_values(ascending = False) plt.figure() data.plot(kind='bar') plt.ylabel(u'盈利(元)') p = 1.0*data.cumsum()/data.sum() p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2) plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) #添加註釋,即85%處的標記。這裡包括了指定箭頭樣式。 plt.ylabel(u'盈利(比例)') plt.show()
4、相關性分析(以餐飲資料為例)
匯入資料
求相關係數的三種方式
5、統計作圖函式