1. 程式人生 > >技術和商業的碰撞,談阿裏雲與天貓雙11這十年

技術和商業的碰撞,談阿裏雲與天貓雙11這十年

優酷 然而 人工智 虛擬機 升級 可能 ssd shadow 智能推薦

摘要: 2009年,發生了兩件看似不起眼的事。 初春剛過,阿裏雲在北京一棟沒有暖氣的寫字樓寫下了飛天第一行代碼。 同年11月11日,淘寶商城啟動了一個叫做雙11的促銷活動。 誰也沒想到,多年以後他們會是現在這模樣。

2009年,發生了兩件看似不起眼的事。

初春剛過,阿裏雲在北京一棟沒有暖氣的寫字樓寫下了飛天第一行代碼。

同年11月11日,淘寶商城啟動了一個叫做雙11的促銷活動。

誰也沒想到,多年以後他們會是現在這模樣。

前傳

2007年淘寶的交易額突破了400億,技術團隊卻喜憂參半:現有集中式架構已經捉襟見肘,該如何應對?

隨即啟動的分布式改造獲得巨大成功,淘寶所有的業務都做了模塊化。

盡管這次技術升級在現在看來存在諸多局限性:更多的是為了應對不斷增多的圖片緩存,在CDN端對海量的圖片緩存做了一些限流操作。但就是這次改造成就了歷史上第一個雙11,2009年雙11當天的流量達到了一個高峰,在舊的架構體系下,這幾乎是一項不可能完成的任務。

一年後,飛天的第一個版本上線,僅有幾十臺機器的集群開始服務第一個內部客戶——阿裏金融。

技術分享圖片

這些探索讓所有人看到了一個趨勢:用分布式的方法將傳統、昂貴的小型機硬件和軟件,替換成通用的X86的服務器集群,虛擬化等技術可以讓計算能夠按量、隨時被啟動。

流量狂奔:脈沖計算

從計算機誕生到90年代,計算資源都是作為“可計劃性”的資源來使用。無論是探索月球,還是研究基因的奧秘,計算資源本身是可規劃的。然而,互聯網時代的到來,一個爆發性事件,就有可能挑戰整個計算資源,不確定性如影隨形。

毫無疑問,雙11就是這樣一個典型場景。

2011雙11的流量洪峰給技術團隊留下了午夜驚魂般難忘的回憶:系統性技術問題,使大量商家可能出現超賣。

事後,這群國內互聯網行業最優秀的技術人開始意識到這已經不僅僅是一場商業促銷活動,更是一次技術大考。

次年,天貓與阿裏雲、萬網宣布聯合推出聚石塔平臺,率先以雲計算為“塔基”,為天貓、淘寶平臺上的電商及電商服務商提供IT基礎設施。

技術分享圖片

基於阿裏雲的ECS雲服務器、RDS雲數據庫、SLB負載均衡網絡,商家訂單源源不斷的推送到商家平臺上,保障了數據的穩定和延續。這是雲計算首次參與雙11,並且實現了191億的交易總額。

飛天的高速成長也給了所有人信心:5年的時間,飛天平臺集群規模從1500臺到3000臺,2013年8月,單集群超越5000臺,同時支持多集群跨機房計算……

接下來幾年,雲計算逐漸成為這場狂歡節中的基石,到2014年,聚石塔上96%的交易使用了阿裏雲。

2015年開始,雙11構建了全球最大的混合雲,將公共雲和專有雲無縫連接。

而這些成果最終成為了全社會的能力:無論是春節在12306搶票,還是在世界杯期間的狂歡,抑或是微博上的明星八卦,脈沖計算的能力在今天已經變成了常態。

數據平臺,計算創造價值

2013年前後,“船票論”在互聯網圈極為流行。“船票”成為了人們對於一家公司有沒有未來的判斷依據。至於如何拿到這張船票,彼時都非常模糊。

然而,移動端帶來的海量數據卻是真實存在的,移動端帶來的新需求,也推動了阿裏雲大數據平臺的發展。

鮮為人知的是,2004年,為了從大數據中分析當前狀況,並預測未來的趨勢,阿裏就擁有了第一個大數據倉庫,到2008年,淘寶的業務量與數據量已達到2004年的數千倍,為了讓數據成為生產資料,從底層重構大數據技術就顯得尤為重要。

2010年春,大數據引擎MaxCompute的前身SQL Engine第一版上線,運行在當時30臺機器的飛天集群上。

2011年,飛天團隊開始探索支撐集團內部數倉業務,在1500臺機器上並行運行雲梯2的生產作業,並取得了不輸於Hadoop的性能和穩定性成績。

飛天5K項目之後,MaxCompute隨之進入5000臺機器和跨機房調度時代,並且可以在377秒完成100TB的排序。

通過MaxCompute引擎助力,從2014年雙11開始,千人千面成為常態。現在,這一產品已經成為阿裏巴巴的主力計算平臺:

l阿裏巴巴集團99%的數據存儲以及95%的計算能力使用MaxCompute;

l每天有超過500萬個作業在平臺上運行;

l2017年雙11,MaxCompute單日數據處理超過320PB。

幾年過去,“船票論”煙消雲散,然而大數據平臺帶來的價值已顯山露水,通過大數據與人工智能算法的結合,MaxCompute已成為ET大腦最重要的組成部分,ET城市大腦自動指揮城市路口信號燈,並且成功應用於馬來西亞的交通治理;ET工業大腦推動工廠取得更好的良品率,致力於幫助制造企業提升1%的良品率。

從數字化阿裏到數字化城市,MaxCompute可以承載EB級的數據存儲能力,成為全球首個100TB規模Bigbench測試通過的大數據計算平臺;在公共雲上覆蓋國內外的十幾個國家和地區,專有雲上部署超過100+套。

史上最大規模的人機協同

2017年的雙11被認為是人類歷史上最大規模的人機協同“超級工程”:技術運維、商品推薦、客服、支付、物流等各個環節都引入機器智能。

數據、計算力、算法是人工智能的三大核心要素。飛天在通用計算服務的基礎上,開始探索面向人工智能的異構計算。

2017年9月12日,阿裏雲宣布推出全新一代異構計算加速平臺,在行業內第一次覆蓋了包括AMD、NVIDIA的GPU和Intel、XILINX的FPGA在內的所有6款主流異構實例,提供最高可達75TFLOPS的算力。

全新的基礎設施讓全球最大規模的人機協同成為了可能。雙11大量AI和視頻轉碼業務部署在ECS的GPU集群之上,包括視頻雲的視頻智能處理、阿裏小蜜、拍立淘和新零售的智能供應鏈管理等AI業務都通過阿裏雲異構計算GPU昊天平臺進行加速。

l ● 阿裏巴巴數據中心機器人“天巡”每天在機房巡邏,能接替運維人員以往30%的重復性工作。

l ● AI調度官“達靈”將數據中心資源分配率拉升到90%以上。

l ● 人工智能助手‘阿裏小蜜’在雙11當天承擔95%的客服咨詢。

l ● 菜鳥智慧貨倉機器人單日可發貨超過100萬件。

l ● AI設計師“鹿班”,在雙11期間設計了4.1億張商品海報。

l ● 阿裏機器智能推薦系統雙11當天為用戶生成超過567億個專屬“貨架”,像智能導購員一樣,給消費者“億人億面”的個性化推薦。

半年後的武漢雲棲大會上,阿裏雲首次和合作夥伴一起展出了AI智能點單設備,在沒有任喚醒詞的情況下,客戶以每秒5個字的速度,向一臺機器點單,並頻繁更換語句,這臺機器對每次對話均作出了精準應答。

現在,這些基礎設施以及商業化的產物正服務於各行各業。

飛天2.0支撐2018全社會的雙11

如果說最初的技術變革是為了解決平臺的流量峰值問題,那麽現在新的篇章已經開啟,新技術正在引領商業變革。

今年雙11期間,阿裏雲上新增調用的彈性計算能力累計超過1000萬核,相當於10座大型數據中心,創造了“脈沖計算”的新紀錄。不僅如此,飛天2.0的新能力全面支撐雙11:

● 阿裏雲自研神龍彈性裸金屬服務器在核心系統中發揮巨大作用。其基於完全自研的新一代軟硬融合的X-Dragon虛擬化架構,兼具物理機和虛擬機優勢,解決了高峰值流量下的性能瓶頸。

● 業界首個百萬級IOPS的ESSD雲盤提供了數十PB的存儲規模,應對了史上最大的高並發IO挑戰。

● 貓晚網絡直播創下帶寬峰值記錄,阿裏雲視頻雲高可靠直播方案完美保障了優酷2500萬用戶的體驗。

● CDN為中國1/3以上的互聯網流量提供加速,視頻雲在海外為Lazada提供直播服務。

● 國內首次大規模IPv6商業應用實踐,雲、網、端以及應用全面支持IPv6。

● 實時計算Blink處理峰值達到每秒17.18億條,相當於120萬本新華字典的數據量。

● MaxCompute支撐在線流量洪峰12萬筆/秒交易,承載45%導購流量。

● 雲盾為雲上客戶提供上千萬次風險識別服務,並將DDoS高防技術輸出到全球,保障全球業務。

……

技術分享圖片

在這些技術底座之上,整個系統應對流量洪峰更加從容,當天交易額達到創紀錄的2135億。

當然,IoT的登場則為雙11創造了更大的想象空間。

在消費側,IoT技術服務新零售的同時,正在催生新的追蹤經濟。消費者可以查看進口商品完整的商品溯源實時信息,確保天貓進口商品安全可溯,遠洋運輸也實時可見。

在制造側,助力天貓品牌服裝廠商數字化接單、下單和備貨,個性化生產、柔性化制造,交期準確率近乎100%;對農業生產、運輸、銷售進行全鏈路升級。

從線上到線下,從生產制造到物流配送,從國內到海外,阿裏雲的技術能力延伸到各行各業。而這只是這些新技術應用的冰山一角,雲與AI、IoT的有機融合未來還會產生什麽化學反應?我們拭目以待。

結語

從27個品牌參加成交額不過數千萬元開始,到現在的千億級體量,雙11已經成為一個未來商業實踐的範本,也是新技術的最大試驗場,這些新技術逐漸變成全社會的基礎能力,撬動一場全球的社會大協作。

技術和商業的碰撞,談阿裏雲與天貓雙11這十年