1. 程式人生 > >×××世界杯,“痛恨”大數據?

×××世界杯,“痛恨”大數據?

不想 革命 4.5 理想 積累 貸款 廣泛 HR 現在

作者 | 張戈 (公眾號ID:TechECR)

昨夜,阿根廷不相信眼淚,但也沒相信梅西。藍白軍團0:3輸給了格子軍團,比德國還沒有尊嚴,估計一群人已上了天臺。

技術分享圖片


首先聲明,世界杯期間我沒有參與×××,也從未站上天臺。不是不想一試手氣,只是沒這個底氣。由此我開始“痛恨”那些大數據企業,平日總是宣傳自己技術能力如何強大,但關鍵時刻,在我期盼天上掉餡餅的時候,在我無限接近財務自由的時候,他們為什麽集體“失聲啞火”,沒有進行任何靠譜的預測呢?

白巖松說的一點都不對

“世界杯,中國除了足球隊沒去,其他都去了。” 我看白巖松說的一點都不對,至少中國一家大數據企業也沒有去。首輪,德國對陣墨西哥,威廉·希爾開出的勝平負賠率分別為:1.44、 4.50、7.00。如果大數據企業技術靠譜,重註投向墨西哥,恐怕一場球90分鐘,就會搞定一年的企業利潤,中國也將會出現首家盈利上市的大數據企業。

技術分享圖片


言歸正傳,我雖不是內行,但也不能光說些外行話。大數據不是萬能的,至少現在不是萬能的。理論上,擁有全部數據就能預測所有的未來。但這只是理想理論,因為我們不可能擁有全部數據,或者說,擁有了世界上全部的數據,將是極其可怕的事情,如何一切均可預測,生活還有什麽意義。

“科學預測”是個偽命題

回到世界杯的話題,即使排除×××做球的陰謀論影響,我們也不可能拿到所有相關數據。此前,英國媒體《電訊報》就不信邪,綜合多維度數據給出了一套所謂“科學預測”方法論。《電訊報》針對世界排名、預選賽表現、歷史成績、陣容年齡、球員國際比賽經驗、球員所效力俱樂部、主教練經驗、球隊和教練的磨合等,8類數據維度進行預測,其結論依舊是:天註定。

舉例說明,從1950年到2014年的世界杯,只有巴西隊在1962年,以世界排名第一的身份奪冠。17屆世界杯中,世界排名第二的球隊奪冠次數最多,高達6次。此外,世界排名第四的球隊奪冠4次,世界排名第三的球隊奪冠有1次。以此推斷,巴西、比利時、葡萄牙將成為本屆世界杯的奪冠熱門,而世界第一的德國隊應該小心為上。

另一數據維度。目前為止,所有世界杯冠軍球隊奪冠的平均年齡為26.4歲,本次英格蘭隊的年齡結構最接近“冠軍水準”,平均年齡26.1歲。

由此可見,不同維度的數據分析,產生不盡相同的結果,而綜合上述數據的分析結果依然是:天註定。

技術分享圖片


Y等於幾?

回到專業話題。其實,大數據的專業能力體現在數據算法建模,而基礎能力則是海量多維度的數據采集。而所謂數據算法,可以簡單粗暴的理解為多元一次方程式:X1Y1+X2Y2+X3Y3……XnYn=A。其中,X代表權重比例,Y代表不同維度的數據。

《電訊報》以8個維度進行分析,即Y8。事實上,數據維度肯定不只Y8,例如比賽當時2個小時內的天氣數據,草坪長短數據、草皮濕滑程度數據,甚至運動員情緒數據。如果上述數據很難取得,也就很難預測比賽結果。所以與其相信大數據能預測世界杯,還不如相信章魚“保羅”、神貓“阿基利斯”。

技術分享圖片


不能僅看見水晶球

這正是大數據產業所面臨的困境之一。大數據不是萬能的,甚至大數據能體現的效果,也是未知數。如果可以拍胸脯說,一定會產生效果。大數據公司的盈利模式就肯定不是現在這種苦哈哈的項目服務制。其完全可以按利潤分成方式,與用戶共建系統。舉例說明,與銀行共建貸款大數據體系,在長尾的客戶群體中,篩選出潛在貸款客戶,即使成功率只是提升1%,銀行與大數據企業的收入也會明顯增加。當然,如果銀行此類重資本高門檻的市場很難進入,大數據企業也完全可以自己組建一家輕資本的P2P金融機構。而事實上,類似的模式案例,現在好像還未出現。

為什麽?還是回答世界杯的話題,很難同時獲取高價值、高品質、多維度的數據。大數據平臺建設、數據算法建模可稱為大數據的“水晶球”,但支撐“水晶球”魔力展現的是數據。數據始終是制約大數據發展的關鍵因素,因為企業業務流程再造,即業務流程數據化遠遠沒有完成,不同標簽的數據治理也依然任重道遠。此外,多維度的數據融合,也還是遠遠沒有實現。

巧婦難為無米之炊,證券行業希望通過梳理所有數據關聯,嚴查關聯交易,但上市公司高管同樣可以慫恿“舅舅”這樣的外戚開設賬戶,提前透露消息,並從中牟利。原因即在於,原始的戶籍數據一時難以進行對接。

不必唱衰大數據產業

當然,我們並不是在唱衰大數據產業,即使數據支撐力度有限,大數據也還有其發揮價值的空間。首先,業務流程數據化、數據治理、數據融合等基礎工作,也應歸屬於大數據的業務範疇,畢竟數據才是革命的資本。

同時,在不同行業領域,也已經展現出不同的大數據強應用場景。在政務領域,至少可以大數據為抓手,促進數據治理、數據融合;在金融領域,大數據已經在客戶畫像分析、金融風險控制等領域得到廣泛應用;在制造領域,大數據正在用於設備的運行狀態監控,判斷是否需要更換零件。此外,公安、醫療等自身原始數據積累較好的領域,更將成為大數據的強應用場景。

最後說一句,我們不能因為大數據不能預測世界杯,就痛恨貶低大數據。當然,也不能以最理想化的數據接入狀態,去忽悠用戶,誇大大數據的價值。或許大數據技術已經成熟,但大數據的基礎工作才剛剛起步。

當然,如問我距離理想狀態還有多遠?

或許就在中國下次入圍入世界杯之時。

技術分享圖片


技術分享圖片


- END -

作者簡介:TechECR,關註科技企業生態體系建設,這裏有思考、有觀點;有點頭咂嘴,也有會心一笑。創始人:張戈,曾任《商業夥伴》、《電腦商報》副總編,不碼字,不寫稿子、只輸出有質感的文章。以生態合作為視角,研究IT產業18年,常年保持對ICT企業、IT方案商、IT渠道商保持高頻度采訪。合作聯系:[email protected]

關於


×××世界杯,“痛恨”大數據?