1. 程式人生 > >阿里雲單盤百萬IOPS的背後

阿里雲單盤百萬IOPS的背後

640?wx_fmt=png&wxfrom=5&wx_lazy=1

本文組織:

  1. 單盤100萬IOPS意味著?

  2. 背後的技術猛料!

  3. 效能這麼高,安全性有保障麼?

  4. 笑對Intel漏洞?

  5. 儲存界已三足鼎立?

2018年1月9日,阿里雲在北京隆重發布瞭如下產品和技術:

640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1

其中,ESSD是塊儲存服務,其達到了恐怖的單盤100萬IOPS的峰值。阿里雲現場演示了對一個10TB容量的ESSD塊盤加I/O壓力,然後輕易超越了友商、本地SSD盤的效能,最後直衝到了100萬IOPS。另外,阿里雲研究員伯瑜現場指出:100萬IOPS,讀和寫均可達到。這一條很勁爆,作為NAND Flash介質,讀效能比寫效能可能要高六七倍以上。而阿里雲竟然可以做到寫也100萬IOPS。

為何測試時效能吊炸天而上線卻慘不忍睹?一文中,冬瓜哥指出,不談時延的IOPS都是耍流氓。而阿里雲本次釋出的ESSD在100萬IOPS情況下平均延遲500us,50萬IOPS情況下平均延遲100us。這個值已經超越了目前的SAN/全快閃記憶體廠商能夠提供的最佳值。

另外,對於大併發高壓力的網際網路前端業務而言,除了關注IOPS和時延之外,另一個非常重要的指標就是抖動,因為一次抖動可能會導致系統的連鎖反應,重則崩潰。阿里雲很有信心的將一個測試系統的實時延遲值展示到了網路上,可以掃描下面的二維碼直接檢視。

0?wx_fmt=png

可以發現,去年釋出的NAS Plus的效能也獲得了極大提升,同時提升的還有極速OSS物件儲存。

阿里雲研究員吳結生表示,在儲存界,一些廠商的產品其實也可以達到類似效能,但是他們都使用了本地盤加高速本地匯流排。能夠在資料中心規模內部以雲服務方式達到這種效能的,目前只有阿里雲能夠做到。

很顯然,這種恐怖效能的背後,一定產生了一場大規模的後端技術、架構的升級、變革。

1
“單盤百萬IOPS”意味著?

0?wx_fmt=png

ESSD單盤容量最大可到256TB,而之前SSD雲盤則為32TB。而且,加量不加價,仍然是每GB 1塊錢。阿里雲研究員伯瑜指出,現在有不少使用者對大容量、高效能的單盤有需求,比如一些做Elastic Search的使用者,要求幾十TB以上容量的單盤,同時效能要求幾十萬IOPS,在ESSD推出之前,這類需求只能用本地盤來彌補,但是安全性就沒有保障了。

單盤100萬IOPS意味著:

  1. 相比上一代SSD雲盤,峰值效能直接翻50倍!

  2. 相比上一代NVMe本地盤,峰值效能直接翻4倍!

  3. 一盤在手,打遍各類業務無敵手。無需再用多塊盤組軟raid,lvm等。

  4. 省錢!

  5. 別家真是沒法玩了。

2背後的技術猛料?

冬瓜哥有幸與阿里雲端儲存的兩位資深研究員Jason(吳結生)和伯瑜進行了交流,也瞭解到了阿里雲端儲存本次效能飆升背後的猛料。

1. 硬體升級。除了伺服器、SSD等基礎規格升級之外,這裡面最關鍵的其實是網路上的升級。目前阿里雲VM上的雲盤(本地盤)統一走的是乙太網訪問後端的盤古分散式儲存平臺上提供的各種儲存資源。一百萬[email protected],對網路的頻寬耗費為40Gb/s,再加上開銷,需要至少50Gb的頻寬才能達到。阿里雲端儲存引擎2.0採用了25Gb/s乙太網,提升了頻寬密度。另外,採用了全自研交換晶片和交換機,針對RDMA協議做了晶片級優化,能夠讓跨交換機端到端通訊時延降低到2微秒(4KB+128B ack round robin時延)

2. Luna通訊庫框架。有了強力網路硬體的支撐,軟體的開銷會成為優化的重中之重。在固態儲存時代,傳統較長的I/O路徑已經嚴重拖累了I/O時延,對於NVMe SSD而言,由於NVMe協議棧原生已經為我們開鑿好了高併發的通路,那麼,降時延就是升IOPS的唯一途徑了。阿里雲端儲存2.0引擎在後端採用了SPDK框架來與NVMe SSD互動,採用使用者態驅動,多佇列自適應Polling模式。在前端,採用私有的I/O協議+RDMA+使用者態驅動方式來轉發前端I/O請求到後端盤古系統上。這一整套的通訊庫框架被稱為鯤鵬。SPDK是Intel搞的一套使用者態I/O棧,但是根據業界一些儲存廠商的反饋,其中坑很多,效能也有待優化。阿里雲研究員伯瑜指出,SPDK庫已經在阿里實施了2年多,對它已經是駕輕就熟,該踩的坑也基本踩完了,而且阿里雲應該是第一家將SPDK廣泛使用的。研究員吳結生提到,鯤鵬庫的誕生為阿里雲端儲存的開發效率和效能這兩個矛盾點找到了一個很好的平衡。

3. 執行緒模型改進。阿里雲端儲存2.0引擎採用了使用者態驅動,加co-routine協程,加run to completion模式。使用者態驅動可以避免每次傳送I/O都必須經歷系統呼叫到核心來處理的效能損失。在使用者態上實現協程,把核心的執行緒排程開銷進一步降低,協程之間自主實現使用者態上下文切換,和自主排程切換,這一切核心根本感知不到,這樣可以在有限的執行緒執行時間片內全速的以非常低的切換開銷執行多個協程。再加上核心可感知的多個使用者執行緒併發充分利用處理器物理多核心,實現充分的併發。協程的另外一個關鍵點是其可以避免使用鎖,因為多個協程執行在單個核心上,全序列無併發,靠上層邏輯實現手動同步。另外,採用run to completion執行緒模型,避免I/O路徑上太多的非同步耦合點,後者會帶來較高的長尾效應,導致I/O時延不穩定。可參考冬瓜哥另一片文章:【冬瓜哥手繪】它保你上線效能也吊炸天!

4. 資料佈局Append Only。對付隨機寫入的最好的辦法就是append only模式,將所有寫操作順序記錄寫入,然後修改指標,這一招對SSD屢試不爽,實際上SSD內部也是這麼做的。阿里雲端儲存後臺也採用這種方式。之前只對物件儲存OSS和表格儲存TableStore等做這種策略,阿里雲端儲存2.0引擎下針對塊儲存也採用了該策略。

5.vhost-user架構。採用vhost-userI/O架構,bypass QEMU的virtio-blk架構,將IO dataplane從QEMU解除安裝下來,即IO請求的生命週期完全bypass QEMU。

6. 更細緻的分層和抽象。在後檯盤古系統中的單機內部,做了更細緻的分層和抽象。在上層,針對不同的I/O屬性,提供了定製化的策略模組,滿足不同的I/O Profile需求。

3高效能下的安全性保障?

拋開安全性談效能就是空中樓閣。阿里雲後臺採用3副本同步寫方式,能夠保證9個9的可靠性。物件儲存OSS的資料3副本放置在3個AZ裡面,保證11個9的資料可靠性。塊儲存的資料由於三副本同步複製,所以對延遲非常敏感,會放置到1個AZ內部。

對於SSD/ESSD雲盤,所有寫到後臺的資料是直接下盤,並非到RAM,正因如此才會加持到9個9的可靠性。

阿里雲後臺支援對資料做快照,快照生成的資料會被匯出到OSS儲存上作為備份而存在,這份備份會擁有更高的可容災性,因為會與塊儲存位於不同的AZ。

吳結生研究員表示,由於目前阿里雲提供了諸多不同檔位的儲存服務,下一步會實現自動遷移,當用戶決定將當前服務提級或者降級時,目前是隻能靠使用者自己來遷移,不過可以通過匯入快照方式來方便的實現。將來會實現系統後臺自動遷移資料。 這樣的話,會給使用者帶來更多的方便試錯的機會。

目前阿里雲正在使用機器學習方式對使用者的底層I/O做學習分析,將來會做到智慧推薦。

0?wx_fmt=png

支援端到端的資料校驗。支援加密。

在資料中心建設方面,阿里雲有一套獨特的經驗和方法論。在AZ的設計上非常考究,包括供電、網路運營商,不同資料中心/AZ都是獨立的不同供應商,不會用同一個供應商,以避免單點故障。甚至連地勢也會考慮,比如高度差異,防止洪水淹沒位於同樣地勢高度的資料中心。還會考慮鏈路途徑化工廠引入的不穩定因素等。

4笑對Intel漏洞?

聊到Intel本次的Meltdown和Spectre漏洞,伯瑜研究員笑道,其實這次漏洞的影響恰好說明了,阿里雲引擎2.0採用的使用者態驅動和I/O協議棧模式,能夠天然抗拒新的OS補丁對效能產生的影響,也就是說,新補丁對效能幾乎沒有影響,因為傳送I/O的工作都是直接在使用者態做的,不牽扯到系統呼叫,否則,本次補丁還真有可能大幅降低系統性能。

5儲存界三足鼎立

0?wx_fmt=png

本次,阿里雲還發布了一個叫做CPFS的並行檔案系統的服務,該FS是專門針對雲上HPC系統推出的,其能夠相容Luster的訪問介面,在HPC場景下能夠提供相比NAS產品更好的擴充套件性和對HPC環境的相容性。

阿里雲端儲存產品總監承宗指出,得益於阿里雲端儲存引擎2.0的釋出,OSS和NAS Plus也推出了極速版本。其可以直接為使用者帶來投資上的節省,比如之前有一些應用必須採用大容量記憶體,而現在OSS推出了極速版,這些應用可以在同樣的業務需求下,降低對記憶體的需求量,從而直接降低成本。

傳統儲存SAN/NAS,本地分散式儲存,雲端儲存,如今已經進入了三足鼎立時代。螳螂捕蟬黃雀在後,隨著分散式新興儲存系統對傳統SAN/NAS儲存的衝擊,後方雲端儲存又開始大肆強攻,到底應不應該把資料放到雲上,這似乎已經不再是一個技術問題了。

0?wx_fmt=png

相關推薦

阿里百萬IOPS背後

本文組織:單盤100萬IOPS意味著?背後的技術猛料!效能這麼高,安全性有保障麼?笑對Intel

阿里-掛載分割槽和格式化步驟

可以用  fdisk -l  檢視你的系統有幾塊盤。 如: Disk /dev/xvda: 160.0 GB, 160000000000 bytes Disk /dev/xvdb: 160.0 GB, 160000000000 bytes 提示這個 disk /dev/xvdb doesn t contai

阿里 資料掛載及解除安裝

如果您在建立例項時選擇了資料盤,在登入例項後,系統需要先格式化資料盤,然後掛載資料盤。 另外,您還可以根據業務需要,對資料盤進行多分割槽配置。建議使用系統自帶的工具進行分割槽操作。 注意:雲伺服器 ECS 僅支援對 資料盤 進行二次分割槽,而不支援對 系統盤 進行二次

全球首個百萬IOPS即將商業化 阿里推出超高效能ESSD

開發十年,就只剩下這套架構體系了! >>>   

記一次阿里擴容遇到的坑

背景 生產環境使用了阿里雲並且以mongo作為圖片伺服器,由於業務發展需要資料盤的400G的容量已經用到81%,所以需要對磁碟做無損擴容操作。 操作步驟 在控制檯上擴容資料盤的磁碟空間 官方文件:https://help.aliyun.com/document_detail/25452.html?s

IOT案例:平價有機蔬菜背後有個阿里科技暖男!

今年天貓雙11從線上延展到線下,好貨依然不斷,6塊8一份的有機青菜、蒿子稈,8塊8一份的胡蘿蔔,原來價格高昂的有機蔬菜,在盒馬賣出了平價。而讓人更意想不到的是,這背後是阿里雲IoT的科技暖男的守護,將農民在有機蔬菜種植的經驗轉化為雲上的資料,從源頭上降低了成本。 雙11期間,盒馬與阿里雲IoT攜手釋出了

阿里擴容資料_Linux

擴容資料盤_Linux 更新時間:2018-10-11 15:18:46  · 編輯者 編輯 ·  ★ 我的收藏  新手學堂  學習路徑

最後1天!阿里雙11拼團入官方熱薦團直享最低折扣!還有機會瓜分百萬現金!

各位童鞋們,如果您已經拼了別人的團,但是還不知道怎麼玩?小編來告訴你! 最後一天了,大家就不要再開團了,馬上進入官方熱薦團直享最低折扣:http://click.aliyun.com/m/1000023288/ 您拼團後將享受以下福利: 福利1:拉新贏紅包 您拼團後可通過專屬分享連結,邀請好友來參團。

Cloud一分鐘 | 微軟超越亞馬遜,成為全球企業服務提供商霸主;阿里深耕電信業:中標聯通2900萬PaaS平臺大。...

Hello,everyone: 11月08日早,星期四,新的一天祝大家工作愉快! 一分鐘新聞時間: 雲端計算 新連結、新生態、新運營商浪潮雲“三新”助力數字化轉型:在“網際網路之光”博覽會上,浪潮雲全面展示了在“新連結、新生態、新運營商”三個方

雙11個性化推薦背後阿里“舜天”如何應對百億次挑戰?

摘要: 2018天貓雙11在技術世界,創下不少新記錄,其中有一個記錄是11日當天阿里全平臺共為使用者做個性化推薦453億次,這些推薦的圖片長度加起來可以繞地球70圈。 當你在天貓/手淘上買買買的時,圖片會以不同格式或解析度來轉碼呈現,這就要求後臺系統需要強大的算力來保障數倍於平時的轉碼需求。 2018天貓雙

阿里Linux掛載SSD的方法

阿里雲購買的第2塊雲盤預設是不自動掛載的,需要手動配置掛載上。   1.檢視SSD雲盤 sudo fdisk -l   Disk /dev/vda: 42.9 GB, 42949672960 bytes, 83886080 sectors   Uni

百萬大獎:阿里工業APP創新大賽等你來報名

2018年11月23日 阿里雲工業APP創新大賽正式啟動報名,首屆阿里雲工業APP創新大賽由阿里雲、Intel、物聯網智庫、阿里雲MVP等聯合舉辦,面向全國公開徵集新型工業APP,誠意邀請企業、團隊及個人開發者加入這場創新賽事,創意落地、成果孵化、品牌宣傳、專案機會,總獎池價值超百萬,有志者,速來挑戰!

深度解析雙十一背後阿里 Redis 服務

在一片歡呼之中,2018年的雙十一完美收官,各項資料不出意外的刷出了新的記錄,亮眼的資料背後是阿里過硬的技術支撐。其中阿里雲Redis不僅保障了阿里集團內部業務雙十一的流量洪峰平穩度過,也讓使用阿里雲Redis的各個客戶度過了一個安穩省心的雙十一。 &nb

阿里linux+kodexplorer可道搭建私有云

kodexplorer可道雲介紹KodExplorer可道雲,原名芒果雲,是基於Web技術的私有云和線上檔案管理系統。致力於為使用者提供安全可控、可靠易用、高擴充套件性的私有云解決方案。使用者只需通過簡單環境搭建,即可使用KodExplorer快速完成私有云/私有網盤/線上文件管理系統的部署和搭建。可道雲提供

阿里 - 更換系統(附帶檔案遷移)過程中遇到的一些錯誤

  * 必須先生成 【例項快照】,才能繼續生成 【系統映象】   進入方式:雲伺服器ECS -> 例項 -> 點選【例項ID】進入 ->  2. 本例項磁碟 -> 操作列中點選建立快照    3. 檢

oTMS攜手阿里:互聯互通運輸管理軟體背後的大資料升級

作者:阿里雲MVP潘永剛 oTMS核心oneTMS系統是國內領先的運輸管理雲系統,將貨運環節中的製造商、承運商、司機和收貨方連結在同一平臺,互聯互通輕鬆管理運輸。在2013年系統上線之初,行業內雲生態圈並不是十分完善。因此,最初的架構採用自建機房的傳統開發方式,託管機房內伺服器最多至300多臺;在資料庫方面

阿里資料庫11月刊:揭祕雙11狂歡背後阿里資料庫產品和技術

重點事件 1、2018資料技術嘉年華11月16日,由雲和恩墨和中國Oracle使用者組主辦的2018資料技術嘉年華在北京舉行。阿里雲研究員呂漫漪在16日上午主論壇分享了《下一代企業級雲資料庫POLARDB架構設計》,現場反響熱烈,千人會場座無虛席。會議時間恰在網際網路狂歡的“雙11”之後,從網際網路到企業級

阿里自研新一代企業資料庫POLARDB背後的技術

從2008年到2018年,阿里巴巴的資料庫技術已經發展了10年的時間,10年的時間從AliSQL到RDS,再到自研POLARDB,阿里巴巴資料庫技術得到了極大的提升。那麼在阿里雲自研新一代企業雲資料庫POLARDB背後有哪些技術呢?本文中,阿里雲資料庫事業部總經理鳴嵩就為大家

關於阿里伺服器擴容資料 --格式化資料的解決方案

配置的雲盤空間不夠需要擴容,需要在ECS例項上面擴容,僅僅掛載是不夠的需要在命令列再做一些操作 最需要注意的一點是:重啟!重啟!! 重啟!!!如果不重啟,在使用fdisk命令根本沒有擴容後的資料盤 其他的操作直接就可以根據阿里雲的文件直接操作了 1.xshell

圖解2018雙十一背後阿里技術

   去年電商的“雙十一”大戰已經落下帷幕,個個平臺都公佈了“雙十一”當天的銷售額,總的來說,本次“雙十一”各平臺依舊保持高速增長的趨勢。據資料機構統計,去年“雙11”全網總銷售額達2539.7億元,產生包裹13.8億個。天貓銷售額佔全網比例66.23%,京東佔比21.41%