1. 程式人生 > >數字化時代的企業進取心精神:建立大資料和機器學習戰略

數字化時代的企業進取心精神:建立大資料和機器學習戰略

本文轉載自:https://digitx.cn/2018/03/30/bigdata-strategy-with-greenplum/

大資料和機器學習:未來企業終極競爭點

《Cloud Foundry:從數字化戰略到實現》著作當中的第二章節中我們闡述了汽車行業數字化的方方面面。假設20年以後,所以企業都完成了數字化變革,建立了數字化的基礎設施,資料的協作方式也更加合理。在那個階段,企業核心能力就建立在資料的分析能力上。作為一個汽車企業,我們能想象到的差異可能在機器學習上。例如無人駕駛,使用者不再圖新鮮感,安全性的比較可能是實打實的。如果一個車企的安全係數比另外一個車企高一點點就能獲得極大優勢。作為智慧維護,汽車保養的報警的誤報率下降一點點可能就有優勢。作為一個客運公司,能夠第一時間滿足使用者的用車請求,排程演算法不僅僅發生在排程請求進來以後,更隨時隨地的根據人群的密集度在調配自己的車隊。

金融行業對於公開市場上的大資料和機器學習的競爭其實在今天早就廣泛展開了。金融模型在無時無刻不停地計算各個公開市場資產的套利機會,因此各種套利機會稍縱即逝。所以券商和投行很早就有僱傭大量物理數學博士量化分析師(Quants)的習慣。今天發生的比較有意思的事情就是大資料和機器學習在影響傳統銀行業,特別是小額貸款。傳統的商業銀行一般利用政府擔保的固定利息獲取存款,然後利用和大企業關係獲取貸款投資給對方的機會。傳統的商業銀行在大額貸款方面可以有專員去做風險評估,但是對於小額貸款而言,這樣人工評估的零售成本是無法承受的。反而是儲存有大量使用者交易、購物和社交資料的網際網路企業,根據大資料和機器學習模型很容易在使用者貸款請求進行風險打分評估而快速放款投資。另外,隨著知識密集企業的興起,傳統的資產抵押融資慢慢轉變為股權融資,大量的私募投資的興起,也給商業銀行獲得儲蓄帶來挑戰。大型的私募基金通常有大量的行業分析師,他們逐步建立起一個行業知識系統,對於股權融資企業的風險模型越發精準。作者也曾給一些商業銀行提過戰略建議,建議他們圍繞現有的使用者(存方和貸方)資料的動態來外推那些需要股權融資的企業的風險分數來獲得低風險投資機會,在投資有效的情況下募資也必然容易。本質上說,金融機構的主要職責是資源分配,它要獲得競爭優勢,勢必上游獲取資金機會和下游獲得投資機會。根據現有的使用者資料,作出精度高於競爭對手的模型可以更好的捕捉這些機會。國內不少知名的商業銀行已經紛紛成立科技公司應對網際網路企業和私募行業利用大資料的兩面夾擊。

在數字化之前的社會,很多通過資訊壟斷獲得套利。就像傳統銀行家留給我們的形象就是一邊說服VIP客戶存錢,一邊社交獲取專案機會。雖然我們對於商人投機取巧建立財富感到不公平,但是經濟學又說這是無可厚非——從資源配置角度上這是必須的。但是深究一下,事實上這裡的不公平來自於資訊的獲取。隨著數字化程度的加深,資訊流通和獲取在越發改善。這就是Eric Schmit的書《How Google Works 》提到的,以前離交易越近的地方獲取報酬越多,現在慢慢轉變為離產品越近的人獲取報酬更多。因為前者優勢建立在資訊壟斷上,後者優勢建立在資訊的處理和再加工。

大資料設施建設的必要性

在談大資料基礎數字設施建設之前,我們先看看其它的物理基礎設施。2008年的時候,我假期從美國回到中國,看到中國正在飛速發展的高速路和高鐵的基礎設施建設。當時正值美國房產泡沫危機,雷曼兄弟公司倒閉。我在想中國這些設施的建設是以刺激經濟為目標呢,還是以應用(例如電子商務和春運)需求滿足為目標,或者兼而有之?經過10年的建設,我們看到很多不可能成為可能。一個遊客乘坐高鐵可以在10多個小時從一個城市到達另外中國大部分城市,京東的物流可以12小時內投遞產品(相比之下美國的亞馬遜需要24到48小時)。10年前一個做鮮活產品的企業的直覺可能是,鮮活產品怎麼也不可能在線上,那麼今天他們已經面臨線上的巨大競爭。

中國基礎設施蓬勃發展的時候,其實美國在泡沫之下的雲端計算基礎設施也在蓬勃發展。谷歌在2006年提出雲端計算的概念以後,亞馬遜推出了第一款公有云計算服務AWS,雖然分析界並不看好,但是矽谷公司確實看到了一個基礎設施帶來的時代變更。我那時候在甲骨文公司(Oracle)的伺服器技術部門從事網格計算的資源調控(Grid Control)。甲骨文雖然在一開始沒有看明白雲計算的含義,Larry Ellison開玩笑說他的賽艇也在雲上。但是2007年的時候甲骨文看到了時代變更,我們網格計算部門也開始大規模部署到雲端計算,為甲骨文雲端計算奠定基礎。2010年我回國的時候,阿里雲已經在虹橋機場附近樹立了雲端計算的廣告牌,到今天騰訊雲、阿里雲和華為雲將中國雲基礎設施推入新高潮。記得我08年那時候採訪一些商業企業關於中國企業對於雲端計算的接受度,他們普遍認為誰也不會把自己的軟體執行在外部。而2017年阿里雲的營收額達到了66億人民幣(美國的亞馬遜雲更達到了180億美元之巨)。公有云已經成了企業的影子IT部門(意思就是說企業自己的IT部門做得不好的話,業務部門就會採購公有云。)

如果我現在談公有云基礎設施和交通基礎設施可能有些事後諸葛亮的感覺的話,那麼我們迴歸到這篇博文的正題——大資料和機器學習,它們是當今世界正在發生的一個如火如荼的數字化基礎設施的建設。如果說中國在交通基礎設施和雲基礎設施在緊跟美國(雖然今天我們的高鐵網可能領先美國屬於躍背(leapfrog)效應,但是還是要記得美國的高速公路的完成遠領先於中國幾十年),在大資料基礎和機器學習基礎設施的建設上,中國可以說和美國都是齊頭並進。

在前面的《ABC關係》討論中我們以經提過機器模型是一個特定型別的數學模型。這些模型隨著資料量的上升精度都有提高。所以我們可以看到未來企業的競爭要麼在模型上,要麼在資料上,要麼兼而有之。模型的基礎理論研究能力對於大量普通機構是難於建立的,而且學術機構一旦在模型上所有突破也很快就會對所有機構開放。所以企業在競爭機器學習的時候,大資料基礎競爭更為關鍵。大資料基礎設施建設是企業可以操作而且必須操作的。進取企業為了在未來競爭獲得優勢,今天開始已經腳踏實地建設大資料基礎設施。建設大資料基礎設施,不僅是支援現有的機器學習應用,也為現在尚未知道的未來模型做好準備。就好像我們在做高鐵和高速路的時候,雖然沒有預見今天形形色色的快遞 ,但是卻為今天的物流創新做了準備。

大資料和機器學習的未來眺望

大資料基礎設施用來存取企業和使用者資料。可以從企業和消費者兩個角度上看,企業會使用Greenplum等軟體把企業的運營資料,和產品/服務相關的使用者資料儲存起來。使用者個人的資料通常是在網際網路上完成,例如搜尋應用、郵件應用、社交應用和網盤應用。個人通過免費和付費服務使用網際網路公司的共享基礎設施。

資料基礎設施越來越完善是一方面:企業和使用者資料不再刪除、也不在丟失,哪怕在一些天災人禍的情況下(火災地震),資料都有異地災備能力。資料的組織也更加便於訪問。資料的訪問速度也在繼續提高。

資料合作的生產關係越發合理也是基礎建設的另外一面:資料貢獻者應該像生產資料的貢獻者一樣獲得資料應用價值帶來的應有收益。資料資源就好像生產資料,所以社會的前進,生產資料的分配也必然更加合理。目前企業這端對於資料資料有很好的保管。但是使用者這邊的資料聚集在網際網路的幾個核心應用上。在大家沒有認識到資料價值之前,幾個網際網路巨頭承擔鉅額虧損獲取使用者資料,然後在資料上實現價值至少看上去是風險收益對稱的。但是隨著巨頭無節制不經使用者授權使用他們資料變現的做法越發會受到立法約束【參考人民網評論資料使用】。更合理的合作方式可能是使用者作為資料的貢獻者提供生產資料,應該獲得生產資料合理的邊際收益【參考:微觀經濟學概念】,就好像早期土地擁有者把土地提供給工廠,土地應該獲得應對的邊際收益。 區塊鏈技術在資料合作關係的合理性上又往前了一步。【更多探討區塊鏈技術】