1. 程式人生 > >怎麼進行大資料的入門學習?

怎麼進行大資料的入門學習?

 資料科學並沒有一個獨立的學科體系,統計學,機器學習,資料探勘,資料庫,分散式計算,雲端計算,資訊視覺化等技術或方法來對付資料。但從狹義上來看,我認為資料科學就是解決三個問題:

1. data pre-processing;
2. data interpretation;
3.data modeling and analysis. 
這也就是我們做資料工作的三個大步驟:
1、原始資料要經過一連串收集、提取、清洗、整理等等的預處理過程,才能形成高質量的資料;
2、我們想看看資料“長什麼樣”,有什麼特點和規律;
3、按照自己的需要,比如要對資料貼標籤分類,或者預測,或者想要從大量複雜的資料中提取有價值的且不易發現的資訊,都要對資料建模,得到output。

這三個步驟未必嚴謹,每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經驗來看,按照這個大思路走,資料一般不會做跑偏。

yyk.familydoctor.com.cn/21523/yyk.familydoctor.com.cn/21524/jbk.39.net/yiyuanzaixian/aynjyy/jbk.39.net/yiyuanzaixian/cqxdnzyy/