1. 程式人生 > >大資料時代:大智慧成就大資料

大資料時代:大智慧成就大資料

近年來,有關大資料的熱點話題一浪高過一浪,關注大資料應用的人也越來越多。總體來說,人們對大資料的前景持樂觀態度,比如談到大資料技術特徵,人們最容易想起的就是4個“v”:vast(數量龐大)、variety(種類繁多)、velocity(增長迅速)和value(總價值高)。這些都沒錯,但仔細一想,它們都是偏重說明大資料的正面優勢的。但其實,大也有大的難處,大資料也不可避免地存在著一些負面劣勢。結合筆者的從業經驗,大資料的負面劣勢可以概括為4個“n”,下面逐一說明每個n的含義。


inflated大資料是肥胖的。大資料的大不僅僅體現在資料記錄的行數多,更體現在欄位變數的列數多,這就為分析多因素之間的關聯性帶來了難度。哪怕是最簡單的方差分析,計算一兩個還行,計算一兩百個就讓人望而生畏了。

abnormal大資料是異常的。同樣,在現實的世界裡,大資料裡還有不少異常值(outlier)。比如某些連續型變數(如一個短期時間內的交易金額)的取之太大,某些離散型變數(如某個被選購的產品名稱)裡的某個水平值出現的次數太少,等等。如果不刪除,很可能干擾模型係數的計算和評估;如果直接刪除,又覺得缺乏說服力,容易引起他人的質疑。這使得分析人員落到了一個進退兩難的境地。

unstructured大資料是非結構化的。大資料的結構也是非常複雜的,既包括像交易額、時間等連續型變數,像性別、工作型別等離散型變數這樣傳統的結構化資料,更增添了如文字、社會關係網路,乃至語音、影象等大量新興的非結構化資料,而這些非結構化資料蘊含的資訊量往往更加巨大,但分析手段卻略顯單薄。

incomplete大資料是殘缺的。在現實的世界裡,由於使用者登記的資訊不全、計算機資料儲存的錯誤等種種原因,資料缺失是常見的現象。在大資料的場景下,資料缺失更是家常便飯,這就為後期的分析與建模質量增加了不確定的風險。

如果不能處理好這些不利因素,大資料應用的優勢很難發揮出來。想要擁抱大資料,並不是一項在常規條件下資料分析的簡單升級,而是一項需要大智慧的綜合工作。STIR(喚醒)策略是筆者在實踐工作中提煉出來的、能夠在實際工作中有效克服大資料負面劣勢的應對方法。具體來說,STIR策略包含了四種技術手段,目前都已經有機地整合在統計分析與資料探勘專業軟體JMP中了,它可以用來解決上文提出的四個問題。

總之,我們必須要對大資料有一個全面、客觀的認識。只有在不同的業務和資料背景下采用不同的戰略戰術,才能在大資料時代,真正發揮大資料的槓桿作用,有效提高企業的運營效率和市場競爭力。

Bingdata優網助幫匯聚多平臺採集的海量資料,通過大資料技術的分析及預測能力為企業提供智慧化的資料分析、運營優化、投放決策、精準營銷、競品分析等整合營銷服務。

北京優網助幫資訊科技有限公司(簡稱優網助幫)是以大資料為基礎,並智慧應用於整合營銷的大資料公司,隸屬於亨通集團。Bingdata是其旗下品牌。優網助幫團隊主要來自阿里、騰訊、百度、金山、搜狐及移動、電信、聯通、華為、愛立信等著名企業的技術大咖,兼有網際網路與通訊運營商兩種基因,為大資料的演算法分析提供強大的技術支撐。