“大資料”已經過時了嗎

圖片發自簡書App
“大資料”與其說是過時了,倒不如說還沒有真正開始。只要摩爾定律還在生效,每過18個月電子技術就要翻一番的話,那麼大資料時代就只能在路上。這是因為,隨著計算技術的不斷進步,儲存成本的不斷降低,人們有越來越多的資本去收集更多的資料,進行更顆粒化的分析。然而,在傳統的資料分析中,當資料量大到一定的程度時,分析結果就不會進一步優化了。
舉一個最簡單的線形分類的例子,對於平面上一堆被零散放置的兩種球(紅球和藍球),通過畫一條直線儘可能好的將兩類球分開,然後對於新的放進來的球(可能被包起來),單憑直線的劃分去判斷新球的顏色。很容易就可以看出,由於我們分類的模型相當簡單(只有一條直線),那麼海量的資料可能對於提升模型精度的意義不是太大,這也是傳統資料科學遇到的問題。機器學習(資料科學主要的分析手段)方法遇到的主要瓶頸也在這裡,在這種情況下,更多的資料是沒有更大意義的。
深度學習使得這一瓶頸得到突破,這一學習方法簡單來說就是通過多層、多個計算運算元進行分析,從而可以建立足夠複雜的模型,以提高資料分析能力。這種方法也被稱為神經網路,因為每個運算元就像神經一樣微小而彼此相連,當然這一科學本身並沒有仿生學的意義,只是僅僅看上去與神經相類似而已。在這種學習方法下,更大的資料量通常可以帶來更高的精度,而且還存在精度從量變到質變提升的可能,因此資料科學家們對資料的需求也突然增大,大資料科學也因此應運而生。
對深度學習的詬病之一,是由於模型開始複雜起來,人們沒有辦法再像一條直線那樣容易理解機器分類的標準規範。當存在理解的黑洞時,機器學習在一部分人眼中也就成了巫術。比如,給模型提供一批好的作文和不那麼好的作文,經過學習,機器可以對新的作文進行評分,這些評分僅僅是根據前面提供的素材學習而來的,但是機器無法給出詳細的評分理由,這就讓結果的信任度大打折扣。不過,近來有關於深度學習演算法原理的解釋,這可能是把深度學習從“巫術”變成有理論支撐的科學的第一步。
無論怎麼說,隨著深度學習的快速發展,大資料應該只是僅僅拉開了幕布一角,遠沒有到全面降臨的時刻。而隨著深度學習、人工智慧(後者往往是以前者為基礎的)的快速發展,對資料需求的量級也會越來越多,到那時,可能才是真正的“大資料時代”