1. 程式人生 > >機器學習-累計分佈函式(CDF)

機器學習-累計分佈函式(CDF)

1.累計分佈函式(The Cumulative Distribution Function):在x點左側事件發生的總和。

累計分佈函式的特性:

①因為累計分佈函式是計算x點左側的點的數量,所以累計分佈函式CDF是單調遞增的。

②CDF比沒有直方圖變化劇烈,但是CDF包含了相同的資訊,並且減少了噪聲。。

③由於CDF不存在裝箱(分段),因此比直方圖能更好的展現資料。

④所有的CDF中,在x趨近-∞時,CDF趨近於0,當x趨近+∞時,CDF趨近與1(100%)

⑤對於給定的資料集,CDF是唯一的

CDF可以看做直方圖的積分,直方圖可以看做是CDF對x的導數。

2 對比概率圖和特定分佈

通過直方圖/KDE和理論的密度函式對比是非常困難的,通過CDF進行對比是一個好點的選擇,但是也不是特別容易。

針對高斯分佈:

取反函式:

因此這個式子是斜率為σ並且截距是μ的一條直線。

針對垂直軸,採用原來資料的單位,針對水平軸x可以稱為概率單位(probits)。

需要生成一個概率圖,不但需要資料本身,還需要知道每一個點xi對應的分位點(quantile)yi。分位點取得方法如下:

①把資料進行升序排列

②分配每個資料的級別(rank),從1開始

③資料的分位點(quantile)yi定義為級別(rank)除以n+1,n是資料的總個數。

以下是例子: