1. 程式人生 > >從互聯網+角度看雲計算的現狀與未來(2)

從互聯網+角度看雲計算的現狀與未來(2)

大數據平臺 堅強 隱藏 用戶管理 圖像識別 都是 人工智能 大致 統計數據

此文已由作者劉超授權網易雲社區發布。

歡迎訪問網易雲社區,了解更多網易技術產品運營經驗。


六、業務架構趨勢一:互聯網沖擊已成必然,快速變更成為核心競爭力,DevOps重構組織架構,流程,文化是必然選擇

在業務架構方面,我這裏強調的是服務化。是解決如何避免開發和運維的黑天鵝問題。

技術分享圖片

所謂黑天鵝,就是遇到了原來沒有遇到過的問題,原來我們想象應用不改,從而穩定,已經因為互聯網的沖擊而成為了泡影。

互聯網要求你的應用變化快,所以你不得不改。你的傳統的應用,例如傳統的刷卡支付,一旦對接到互聯網平臺,例如在線支付,你所面臨的吞吐量,比原來大很多倍,這是一個新問題,不改比改風險更大。

所以,如上面那個圖中所說,因為變化快,所以我們要把應用,拆成微服務,每一個模塊獨立叠代,獨立發布,這樣才能應對變化。因為扛不住,所以我們還是要用微服務,原來一個程序去扛,現在多個應用一起去扛,才可能扛住。

然而拆成了微服務,服務多了,版本也多了,運維就變成了一個大難題,一般的傳統公司,開發和運維的比例相當高,讓如此少的運維去運維如此多的服務和版本,運維壓力非常大,而且會非常的不穩定。

所以這個時候是應該使用容器,使得對於環境的部署這件事情提前到開發階段來做,開發人員不能做甩手掌櫃,而從開發完代碼的時候,就要關心環境的配置,生成容器鏡像。

這個時候,雖然每個開發都多了一些工作,但是每個模塊的開發人員,僅僅維護自己模塊的容器鏡像,工作量不是特別大,而如果把所有的環境部署全部交給少數的運維,則非常容易出錯,這其實是相當於每個開發多了5%的工作量,從而減少了運維人員200%的工作量。

有人說這樣運維部開心了,開發部不願意打鏡像怎麽辦呢,所以這就需要DevOps的文化,將開發和運維中間的墻打通,才能加快叠代速度,保障系統的穩定性。

技術分享圖片

網易有一個專門做DevOps的質量管理平臺,將整個過程打通。

技術分享圖片

這裏面還有一個故障演練平臺,是利用故意的方式,模擬一些系統錯誤,從而測試系統的穩定性和容錯性,只有經過了故障演練系統還不出問題,才是真正的穩定,而不是不動它,因為你不動它,不知道什麽原因,突然他掛了整個系統就不可用了,如果你時常故障演練,在演練的過程中,還能保持系統可用,這才是避免黑天鵝的主動出擊的方法。

技術分享圖片

所以互聯網化的沖擊,使得原來所有不變就相當於穩定的幻想破滅了,快速變更,成為核心競爭力,DevOps的文化成為必然的選擇,這就是我們常說的高頻打低頻。

七、業務架構趨勢二:服務化形成能力復用中心,快速推出產品,打通數據平臺,占領新產業生物鏈的高端

服務化的第二個作用,就是可以形成能力復用的中心。

如果像原來那樣煙囪式的系統建設,會使得信息之間彼此是獨立的,而且每當開發一個新應用,成本都會非常的高,每個系統都有自己的用戶管理,每個系統都有自己的商品管理。其實應該有一個用戶中心,有一個商品中心,並且用戶中心和商品中心全部做成服務,這樣當你要開發一個新的系統的時候,你只要調用用戶中心的接口就可以了,不需要重新開發一個用戶中心系統,當這樣的能力復用的中心越來越多的時候,你創新出來的新的應用會越來越薄,越來越輕便,推出的越來越快。而且這樣信息也是彼此互通的,一個用戶聽了音樂,買了商品,坐了公交,買了海鮮,上了在線課程,這樣一個完整的用戶的畫像,就能夠勾勒出來。

技術分享圖片

技術分享圖片

只有數據打通,數據才能成為你的核心競爭力之一,只有能力復用,才能盡快推出新的產品。

現在所謂的新零售,和第四方物流,都是要建立這樣的數據中心和能力中心。最苦最累的活兒,比如說最終端的送快遞,平臺不會去做,然而物流怎麽流通,到底送到哪裏,倉儲如何分配,這個卻在能力中心和數據中心已完成。新零售也是同樣的道理,你的供應鏈,到底應該進哪些貨,進多少,什麽時候送到哪裏,這些統一的數據中心和能力中心都會幫你計算,你只要老老實實開你自己的小店就可以。這樣,無論你是一個開店的,還是一個終端物流,你的喉嚨就在別人的手中,苦活都是你來幹,鈔票都是別人賺。

八、數據架構趨勢一:戰略性的數據收集,整合,反饋使得公司成為AI時代牌桌上的競爭者的基礎

技術分享圖片

對於數據的收集和數據的應用的頻率和實時性,是互聯網公司和傳統公司的一大區別。很多傳統的公司也有自己的運營平臺,然而它的運營工作是從各個終端收集數據,然後用Excel表格進行整理,每兩周做一次整合,寫成報告,然後反饋給高層,高層根據這些報告,作出下一個階段的運營策略,從而指導下一個階段的運營。

這種運營方式在傳統行業是沒有問題的,然而對於互聯網公司是不可能的。大家可能想象,對於一家電商來講,618和雙11是多麽的重要,一年中大部分的營業額都是在這兩天完成的,而最關鍵的就是淩晨過後的四個小時,在雙11的淩晨的四個小時中,所有的運營都要在現場,他們看著大數據平臺發出來的實時數據,需要迅速的推出營銷策略,保證在這四個小時之內能夠大賣,如果這四個小時完不成,很可能他一年的業績指標就會完不成,這種實時性和靈敏度是傳統行業無法想象的。

技術分享圖片

所以戰略性的數據整合,是數字化運營的一個前提,所以說你的所有的終端的數據都要收集起來,這裏面有交易的數據,可以存放在數據庫裏面,也有埋點的瀏覽的數據,可以放在日誌庫裏面,另外還有客服的數據,也可以統一收集起來,放到大數據平臺中,進行統一的分析,並通過BI實時反饋給運營。

技術分享圖片

今年有一個非常火的節目,就是羅永浩和羅振宇進行了九個小時的長談,在這裏面,羅永浩說了一個牌桌理論,就是他想從事最大的計算平臺——手機,使得下一次浪潮的時候,先不說勝出,至少能上牌桌。這個理論同樣適用於AI,先不談AI時代的勝出問題,戰略性的收集數據,實時的反饋數據,還能成為AI公司牌桌上的競爭者。

九、數據架構趨勢二:人工智能雖然如火如荼,概念多,落地少,人工智能模型通用性差,試用範圍小,需要場景化落地,通用人工智能任重道遠。

技術分享圖片

人工智能主要經歷了三個階段,第一個階段,我們稱為專家系統階段,希望專家能夠把一些知識總結出來,告訴機器。但是知識這個事兒,一般人可能就做不來了,可能專家可以,比如語言領域的專家,或者財經領域的專家。語言領域和財經領域知識能不能表示成像數學公式一樣稍微嚴格點呢?例如語言專家可能會總結出主謂賓定狀補這些語法規則,主語後面一定是謂語,謂語後面一定是賓語,將這些總結出來,並嚴格表達出來不久行了嗎?後來發現這個不行,太難總結了,語言表達千變萬化。就拿主謂賓的例子,很多時候在口語裏面就省略了謂語,別人問:你誰啊?我回答:我劉超。但是你不能規定在語音語義識別的時候,要求對著機器說標準的書面語,這樣還是不夠智能,就像羅永浩在一次演講中說的那樣,每次對著手機,用書面語說:請幫我呼叫某某某,這是一件很尷尬的事情。

人工智能這個階段叫做專家系統。專家系統不易成功,一方面是知識比較難總結,另一方面總結出來的知識難以教給計算機。因為你自己還迷迷糊糊,似乎覺得有規律,就是說不出來,就怎麽能夠通過編程教給計算機呢?

於是人們想到,看來機器是和人完全不一樣的物種,幹脆讓機器自己學習好了。機器怎麽學習呢?既然機器的統計能力這麽強,基於統計學習,一定能從大量的數字中發現一定的規律。

其實在娛樂圈有很好的一個例子,可見一斑。

有一位網友統計了知名歌手在大陸發行的 9 張專輯中 117 首歌曲的歌詞,同一詞語在一首歌出現只算一次,形容詞、名詞和動詞的前十名如下表所示(詞語後面的數字是出現的次數):

技術分享圖片

如果我們隨便寫一串數字,然後按照數位依次在形容詞、名詞和動詞中取出一個詞,連在一起會怎麽樣呢?

例如取圓周率 3.1415926,對應的詞語是:堅強,路,飛,自由,雨,埋,迷惘。稍微連接和潤色一下:

堅強的孩子,
依然前行在路上,
張開翅膀飛向自由,
讓雨水埋葬他的迷惘。

是不是有點感覺了?當然真正基於統計的學習算法比這個簡單的統計復雜的多。

然而統計學習比較容易理解簡單的相關性,例如一個詞和另一個詞總是一起出現,兩個詞應該有關系,而無法表達復雜的相關性,並且統計方法的公式往往非常復雜,為了簡化計算,常常做出各種獨立性的假設,來降低公式的計算難度,然而現實生活中,具有獨立性的事件是相對較少的。

於是人類開始從機器的世界,反思人類的世界是怎麽工作的。

技術分享圖片

人類的腦子裏面不是存儲著大量的規則,也不是記錄著大量的統計數據,而是通過神經元的觸發實現的,每個神經元有從其他神經元的輸入,當接收到輸入的時候,會產生一個輸出來刺激其他的神經元,於是大量的神經元相互反應,最終形成各種輸出的結果。例如當人們看到美女瞳孔放大,絕不是大腦根據身材比例進行規則判斷,也不是將人生中看過的所有的美女都統計一遍,而是神經元從視網膜觸發到大腦再回到瞳孔。在這個過程中,其實很難總結出每個神經元對最終的結果起到了哪些作用,反正就是起作用了。

於是人們開始用一個數學單元模擬神經元:

技術分享圖片

這個神經元有輸入,有輸出,輸入和輸出之間通過一個公式來表示,輸入根據重要程度不同(權重),影響著輸出。

技術分享圖片

於是將n個神經元通過像一張神經網絡一樣連接在一起,n這個數字可以很大很大,所有的神經元可以分成很多列,每一列很多個排列起來,每個神經元的對於輸入的權重可以都不相同,從而每個神經元的公式也不相同。當人們從這張網絡中輸入一個東西的時候,希望輸出一個對人類來講正確的結果。例如上面的例子,輸入一個寫著2的圖片,輸出的列表裏面第二個數字最大,其實從機器來講,它既不知道輸入的這個圖片寫的是2,也不知道輸出的這一系列數字的意義,沒關系,人知道意義就可以了。正如對於神經元來說,他們既不知道視網膜看到的是美女,也不知道瞳孔放大是為了看的清楚,反正看到美女,瞳孔放大了,就可以了。

對於任何一張神經網絡,誰也不敢保證輸入是2,輸出一定是第二個數字最大,要保證這個結果,需要訓練和學習。畢竟看到美女而瞳孔放大也是人類很多年進化的結果。學習的過程就是,輸入大量的圖片,如果結果不是想要的結果,則進行調整。如何調整呢,就是每個神經元的每個權重都向目標進行微調,由於神經元和權重實在是太多了,所以整張網絡產生的結果很難表現出非此即彼的結果,而是向著結果微微的進步,最終能夠達到目標結果。當然這些調整的策略還是非常有技巧的,需要算法的高手來仔細的調整。正如人類見到美女,瞳孔一開始沒有放大到能看清楚,於是美女跟別人跑了,下次學習的結果是瞳孔放大一點點,而不是放大鼻孔。

聽起來也沒有那麽有道理,但是的確能做到,就是這麽任性。

神經網絡的普遍性定理是這樣說的,假設某個人給你某種復雜奇特的函數,f(x):

技術分享圖片

不管這個函數是什麽樣的,總會確保有個神經網絡能夠對任何可能的輸入x,其值f(x)(或者某個能夠準確的近似)是神經網絡的輸出。

如果在函數代表著規律,也意味著這個規律無論多麽奇妙,多麽不能理解,都是能通過大量的神經元,通過大量權重的調整,表示出來的。

這讓我想到了經濟學,於是比較容易理解了。

我們把每個神經元當成社會中從事經濟活動的個體。於是神經網絡相當於整個經濟社會,每個神經元對於社會的輸入,都有權重的調整,做出相應的輸出,比如工資漲了,菜價也漲了,股票跌了,我應該怎麽辦,怎麽花自己的錢。這裏面沒有規律麽?肯定有,但是具體什麽規律呢?卻很難說清楚。

基於專家系統的經濟屬於計劃經濟,整個經濟規律的表示不希望通過每個經濟個體的獨立決策表現出來,而是希望通過專家的高屋建瓴和遠見卓識總結出來。專家永遠不可能知道哪個城市的哪個街道缺少一個賣甜豆腐腦的。於是專家說應該產多少鋼鐵,產多少饅頭,往往距離人民生活的真正需求有較大的差距,就算整個計劃書寫個幾百頁,也無法表達隱藏在人民生活中的小規律。

基於統計的宏觀調控就靠譜的多了,每年統計局都會統計整個社會的就業率,通脹率,GDP等等指標,這些指標往往代表著很多的內在規律,雖然不能夠精確表達,但是相對靠譜。然而基於統計的規律總結表達相對比較粗糙,比如經濟學家看到這些統計數據可以總結出長期來看房價是漲還是跌,股票長期來看是漲還是跌,如果經濟總體上揚,房價和股票應該都是漲的。但是基於統計數據,無法總結出股票,物價的微小波動規律。

基於神經網絡的微觀經濟學才是對整個經濟規律最最準確的表達,每個人對於從社會中的輸入,進行各自的調整,並且調整同樣會作為輸入反饋到社會中。想象一下股市行情細微的波動曲線,正是每個獨立的個體各自不斷交易的結果,沒有統一的規律可循。而每個人根據整個社會的輸入進行獨立決策,當某些因素經過多次訓練,也會形成宏觀上的統計性的規律,這也就是宏觀經濟學所能看到的。例如每次貨幣大量發行,最後房價都會上漲,多次訓練後,人們也就都學會了。

網易將人工智能這個強大的技術,應用於反垃圾工作中,從網易1997年推出郵箱產品開始,我們的反垃圾技術就在不停的進化升級,並且成功應用到各個億量級用戶的產品線中,包括影音娛樂,遊戲,社交,電商等產品線。比如網易新聞、博客相冊、雲音樂、雲閱讀、有道、BOBO、考拉、遊戲等產品。總的來說,反垃圾技術在網易已經積累了19年的實踐經驗,一直在背後默默的為網易產品保駕護航。現在作為雲平臺的SaaS服務開放出來。

回顧網易反垃圾技術發展歷程,大致上我們可以把他分為三個關鍵階段,也基本對應著人工智能發展的三個時期:

第一階段主要是依賴關鍵詞,黑白名單和各種過濾器技術,來做一些內容的偵測和攔截,這也是最基礎的階段,受限於當時計算能力瓶頸以及算法理論的發展,第一階段的技術也能勉強滿足使用。

第二個階段時,基於計算機行業裏有一些更新的算法,比如說貝葉斯過濾(基於概率論的算法),一些膚色的識別,紋理的識別等等,這些比較優秀成熟的論文出來,我們可以基於這些算法做更好的特征匹配和技術改造,達到更優的反垃圾效果。

最後,隨著人工智能算法的進步和計算機運算能力的突飛猛進,反垃圾技術進化到第三個階段:大數據和人工智能的階段。我們會用海量大數據做用戶的行為分析,對用戶做畫像,評估用戶是一個垃圾用戶還是一個正常用戶,增加用戶體驗更好的人機識別手段,以及對語義文本進行理解。還有基於人工智能的圖像識別技術,更準確識別是否是色情圖片,廣告圖片以及一些違禁品圖片等等。

技術分享圖片


技術分享圖片


技術分享圖片


網易人工智能的第二個應用就是七魚全智能雲客服,也是從第一代的關鍵字匹配,到後來基於概率的NLP,和基於深度學習神經網絡的第三代,逐漸發展到今天的。

技術分享圖片

AlphaGo事件,讓人工智能開始如火如荼,我們發現很多領域都是這樣子的,當大牛沒有拿出相應的方案來講,大部分都是幹看著沒有辦法,自從TensorFlow出來,大大降低了機器學習和人工智能的門檻,所以說很多號稱人工智能的公司開始冒了出來,這裏面往往概念多,落地少,外延無限擴大。

其實目前深度學習形成的模型,適用範圍非常小,通用性相對比較差,往往只能幹某一件特殊的事情,例如我們如果有很多電商的數據,我們就可以用來做客服,但是客服性質的模型不能用來反垃圾,我們有很多郵箱反垃圾的數據,可以訓練出檢測垃圾數據的模型,但是這個模型就不能用於推薦音樂,所以通用的人工智能還任重道遠,當前在工業界需要找到非常聚焦的場景化落地,才能讓人工智能盡快應用起來。


網易雲計算基礎服務為您提供容器服務,歡迎點擊免費試用。


相關文章:
【推薦】 淺析Kubernetes的工作原理

從互聯網+角度看雲計算的現狀與未來(2)