1. 程式人生 > >資料分析、資料探勘的本質

資料分析、資料探勘的本質

觀點一,如上圖所示,資料是資訊的載體,資訊是資料的本質

觀點二,任何對於資料的分析和挖掘的做法,實質上都是對於資訊的加工和轉換。

觀點三,在將資訊記錄成資料的過程中,可能產生資訊的損失。

觀點四,在資料的傳輸過程中可能產生資料的損失,同時也就是資訊的損失。

觀點五,在從資料還原成資訊的過程中很可能產生理解的偏差,造成資訊的損失。


如上圖所示,資料分析挖掘的過程也就是從資訊A到資訊B*的過程;

資訊A記錄成資料A,資料A經過傳輸變成資料A*,可能不再等於資料A;

資料A*經過清洗過程變成資訊A*,資訊A*與資訊A的差異也就是資料清洗要解決的問題。資料清洗應該儘量保證它們一致。

資訊A*經歷轉換(可能是彙總、分類、聚類、機器學習等)變成資訊B;

資訊B被記錄成資料B;

資料B經過傳輸給到資料消費方,變成資料B*,同樣有可能與資料B不同。

資料B*被資料消費方理解為資訊B*,這與原資訊B之間有可能存在不同或者誤解。

這就是從巨集觀上看的一個流程。