雲端計算關鍵技術及挑戰
雲端計算作為一種新的計算理念和模式,在技術上是將大型伺服器叢集,包括計算伺服器,儲存伺服器和網路頻寬資源集中起來,通過對各類可分配資源的虛擬化,利用專門軟體實現對資源的按需分配,支援各種應用程式的執行,使得使用者只需關注並提供業務相關的解決方案,無需在硬體平臺、綜合計算、安全儲存、資訊的一致性等方面耗費大量的人力、物力和財力,有利於提高系統的整體效率、降低成本,促進技術創新。
儘管基於雲端計算模式的計算平臺或服務已被廣泛接受並逐步走進應用,但云計算的研究總體上還處於起步階段,許多現有的問題還沒有被完全解決。本文提出了部分具有挑戰性的雲端計算關鍵技術和研究問題。
1 虛擬機器遷移
雲端計算通過允許虛擬機器遷移實現整個資料中心負載平衡。此外,虛擬機器遷移提高資料中心的健壯性和高度響應。虛擬機器遷移是由程序遷移演變而來的。虛擬機器遷移的主要優勢是避免熱點,然而,這並不簡單。目前,檢測工作負載熱點和啟動一個遷移缺乏應對突然的工作負載變化的靈活性。此外,虛擬機器遷移時記憶體中的狀態應當一致且高效地傳輸,同時還需綜合考慮應用程式和物理伺服器的資源負載。
2 伺服器整合
伺服器整合可以最大化資源的利用率,同時最小化能耗的有效方法。虛擬機器遷移常用來整合駐留在多個很少使用的伺服器的虛擬機器到一個伺服器,這樣剩餘的伺服器可以設定為節能狀態。在資料中心優化整合伺服器通常是一個NP難的變種裝箱優化問題。針對這個問題已經提出各種啟發式方法。
伺服器整合不應該影響應用程式的效能。眾所周知,單個虛擬機器資源的使用不停的在變化。對於虛擬機器間共享的伺服器資源(比如頻寬、記憶體快取和磁碟I/O),最大限度地整合伺服器可能導致擁堵。因此,觀察虛擬機器負載的波動和使用這些資訊有效的整合伺服器是很重要的。最後,在資源擁塞發生時,系統必須能快速響應。
3 能耗管理
提高能源效率是雲端計算另一個主要問題。據估計,能耗成本佔資料中心運營支出總額的53%。因此基礎設施提供商承受了巨大的壓力減少能源消耗。目標是不僅要減少資料中心的能源成本,還要達到政府法規和環境標準。
設計節能資料中心最近受到越來越多的重視。這個問題可以從多個方向解決。例如,節能的硬體架構、減慢CPU速度和關閉部分硬體元件已成為研究者的共識。有節能感知的作業排程和伺服器整合兩種方式可以減少能源消耗。最近的研究也已開始研究節能的網路協議和基礎設施。一個關鍵的挑戰是實現節省能源和應用程式的效能之間達到一個好的平衡。在這方面,一些研究人員最近已經開始在一個動態的雲環境實現效能和能耗管理的協調解決方案。
4 流量管理和分析
分析資料流量對於今天的資料中心是重要的。例如,許多web應用程式依賴於分析資料流量來優化使用者體驗。網路運營商還需要知道資料流量進行許多管理和規劃決策。然而,把網際網路服務提供商(ISP)現有的流量測量和分析方法擴充套件到雲端計算資料中心還存在一些挑戰性的問題。首先,資料中心連結的密度要比ISP高得多;其次,大多數現有的方法可以計算幾百臺主機的流量矩陣,但一個小型資料中心可能擁有幾千臺伺服器;最後,現有的方法通常基於一些ISP的流量模式,但是部署在資料中心應用程式極大的改變了流量模式。此外,在雲端計算中應用程式的網路使用、計算和儲存資源存在更緊密的耦合。
5 軟體框架
雲端計算提供了進行大規模資料密集型應用程式的平臺。通常這些應用程式利用MapReduce框架(如Hadoop可伸縮的和容錯資料處理)。研究表明MapReduce作業的效能和資源消耗的是高度依賴應用程式的型別。例如,Hadoop任務sort是I/O密集型,而grep則要求大量CPU資源。此外,分配在每個Hadoop節點的VM可能是異構的。例如,一個VM可用頻寬依賴於配置在同一個伺服器的其他VM。因此,通過仔細選擇它的配置引數值和設計更高效的排程演算法能優化MapReduce應用程式的效能和成本。通過緩解瓶頸資源,可以將應用程式的執行時間顯著提高。關鍵的挑戰包括Hadoop的效能建模(無論是線上還是離線)和動態條件下自適應排程。
另一個相關的方法認為讓MapReduce框架有節能感知。這種方法的基本思想是將完成工作且等待新任務的Hadoop節點進入睡眠狀態。這就要求Hadoop和HDFS必須由有節能感知。此外,通常會在效能和節能感知之間進行權衡。根據目標,找到一個理想的權衡點仍是一個沒有探索的研究課題。
6 儲存技術和資料管理
軟體框架MapReduce和它的不同實現(Hadoop和Dryad)針對分散式處理的資料密集的任務。這些框架通常執行在網際檔案系統(比如GFS和HDFS)。這些檔案系統的儲存結構、訪問模式和應用程式程式設計介面不同於傳統的分散式檔案體系。特別是他們沒有實現標準POSIX介面,因此引入和傳統檔案系統和應用程式的相容性問題。目前的解決方法主要包括提支援MapReduce框架使用叢集檔案體系方法和基於新的API原語支援可伸縮和併發資料訪問等。