1. 程式人生 > >雲端儲存關鍵技術研究與發展應用

雲端儲存關鍵技術研究與發展應用

雲端儲存的定義

1.1 定義1

雲端儲存系統以傳統的分散式儲存技術為基礎,利用高吞吐率網路技術為依託,一方面高效地整合管理網路儲存資源,另一方面對外提供友好的介面,釋出便捷的網路資料儲存服務

1.2 定義2

     從狹義上來說,雲端儲存是指通過虛擬化、分散式技術、叢集應用、網格技術、負載均衡等技術,將網路中大量的儲存裝置通過軟體集合起來高效協同工作,共同對外提供低成本、高擴充套件性的資料儲存服務。

   從廣義上來講,雲端儲存可以理解為按需提供的虛擬儲存資源,如同雲端計算的Paas、Iaas服務一樣,可稱為資料儲存即服務(Data Storage As a Service,DaaS),即基於指定的服務水平請求,通過網路提供適當的虛擬儲存和相關資料服務。

1.3 定義3

雲端儲存不是指某一個具體的裝置,而是指一個由許許多多個儲存裝置和伺服器所構成的集合體。使用者使用雲端儲存,並不是使用某一個儲存裝置,而是使用整個雲端儲存系統帶來的一種資料訪問服務。雲端儲存的核心是應用軟體與儲存裝置相結合,通過應用軟體來實現儲存裝置向儲存服務的轉變。

1.4 定義4

   雲端儲存就是將儲存資源放到網路上供人存取的一種新興方案。使用者可以在任何時間、任何地方,透過任何可連網的裝置方便地存取資料。

綜合以上定義,雲端儲存系統應具有以下通用特徵:

★高可擴充套件性:雲端儲存系統可支援海量資料處理,資源可以實現按需   擴充套件;

★低成本:雲端儲存系統應具備高性價比的特點,低成本體現在兩方面, 更低的建設成本和更低的運維成本;

★無接入限制:相比傳統儲存,雲端儲存強調對使用者儲存的靈活支援, 服務域記憶體儲資源可以隨處接入,隨時訪問;

★易管理:少量管理員可以處理上千節點和PB級儲存,更高效的支 撐大量上層應用對儲存資源的快速部署需求。

雲端儲存架構

   雲端儲存是由一個網路裝置、儲存裝置、伺服器、應用軟體、公用訪問介面、接入網和客戶端程式等組成的複雜系統。以儲存裝置為核心,通過應用軟體來對外提供資料儲存和業務訪問服務。雲端儲存的架構如下圖所示:


儲存層:儲存裝置數量龐大且分佈在不同地域,彼此通過廣域網、網際網路或光纖通道網路連線在一起。在儲存裝置之上是一個統一儲存裝置管理系統, 實現儲存裝置的邏輯虛擬化管理、多鏈路冗餘管理,以及硬體裝置的狀態監控和故障維護。

基礎管理層:通過叢集、分散式檔案系統和網格計算等技術,實現雲端儲存裝置之間的協同工作,使多個的儲存裝置可以對外提供同一種服務, 並提供更大更強更好的資料訪問效能。資料加密技術保證雲端儲存中的資料不會被未授權的使用者訪問, 資料備份和容災技術可以保證雲端儲存中的資料不會丟失, 保證雲端儲存自身的安全和穩定。

應用介面層:不同的雲端儲存運營商根據業務型別,開發不同的服務介面,提供不同的服務。例如視訊監控、視訊點播應用平臺、網路硬碟,遠端資料備份應用等。

訪問層: 授權使用者可以通過標準的公用應用介面來登入雲端儲存系統,享受雲端儲存服務。

雲端儲存中的關鍵技術

3.1 雲端儲存中的儲存虛擬化

 通過儲存虛擬化方法,把不同廠商、不同型號、不同通訊技術、不同型別的儲存裝置互聯起來,將系統中各種異構的儲存裝置對映為一個統一的儲存資源池。儲存虛擬化技術能夠對儲存資源進行統一分配管理,又可以遮蔽儲存實體間的物理位置以及異構特性,實現了資源對使用者的透明性,降低了構建、管理和維護資源的成本,從而提升雲端儲存系統的資源利用率。

3.1.1 主要儲存虛擬化技術

  儲存虛擬化技術雖然不同裝置與廠商之間略有區別,但從總體來說,可概括為基於主機虛擬化、基於儲存裝置虛擬化和基於儲存網路虛擬化三種技術。

基於主機的虛擬化儲存的實現,其核心技術是通過增加一個執行在作業系統下的邏輯卷管理軟體將磁碟上的物理塊號對映成邏輯卷號,並以此實現把多個物理磁碟陣列對映成一個統一的虛擬的邏輯儲存空間(邏輯塊)實現儲存虛擬化的控制和管理。從技術實施層面看,基於主機的虛擬化儲存不需要額外的硬體支援,便於部署,只通過軟體即可實現對不同儲存資源的儲存管理。但是,虛擬化控制軟體也導致了此項技術的主要缺點:首先,軟體的部署和應用影響了主機效能;其次,各種與儲存相關的應用通過同一個主機,存在越權訪問的資料安全隱患;最後,通過軟體控制不同廠家的儲存裝置存在額外的資源開銷,進而降低系統的可操作性與靈活性。

基於儲存裝置虛擬化技術依賴於提供相關功能的儲存裝置的陣列控制器模組,常見於高階儲存裝置,其主要應用針對異構的SAN儲存構架。此類技術的主要優點是不佔主機資源,技術成熟度高,容易實施;缺點是核心儲存裝置必須具有此類功能,且消耗儲存控制器的資源,同時由於異構廠家磁碟陣列裝置的控制功能被主控裝置的儲存控制器接管導致其高階儲存功能將不能使用。

基於儲存網路虛擬化的技術的核心是在儲存區域網中增加虛擬化引擎實現儲存資源的集中管理,其具體實施一般是通過具有虛擬化支援能力的路由器或交換機實現。在此基礎上,儲存網路虛擬化又可以分為帶內虛擬化與帶外虛擬化兩類,二者主要的區別在於:帶內虛擬化使用同一資料通道傳送儲存資料和控制訊號,而帶外虛擬化使用不同的通道傳送資料和命令資訊。基於儲存網路的儲存虛擬化技術架構合理,不佔用主機和裝置資源;但是其儲存陣列中裝置的相容性需要嚴格驗證,與基於裝置的虛擬化技術一樣,由於網路中儲存裝置的控制功能被虛擬化引擎所接管,導致儲存裝置自帶的高階儲存功能將不能使用。

3.1.2 儲存虛擬化技術對比

     用表格的方式對三種儲存虛擬化技術的技術優點與缺點、適應場景等進行了分析對比,結果如下:


3.2 雲端儲存中的分散式儲存技術

 分散式儲存是通過網路使用服務商提供的各個儲存裝置上的儲存空間,並將這些分散的儲存資源構成一個虛擬的儲存裝置,資料分散的儲存在各個儲存裝置上。目前比較流行的分散式儲存技術為:分散式塊儲存、分散式檔案系統儲存、分散式物件儲存和分散式表儲存。

3.2.1 分散式塊儲存

   塊儲存就是伺服器直接通過讀寫儲存空間中的一個或一段地址來存取資料。由於採用直接讀寫磁碟空間來訪問資料,相對於其他資料讀取方式,塊儲存的讀取效率最高,一些大型資料庫應用只能執行在塊儲存裝置上。分散式塊儲存系統目前以標準的Intel/Linux 硬體元件作為基本儲存單元,元件之間通過千兆乙太網採用任意點對點拓撲技術相互連線,共同工作,構成大型網格儲存,網格內採用分散式演算法管理儲存資源。此類技術比較典型的代表是IBM XIV 儲存系統,其核心資料元件為基於Intel 核心的磁碟系統,卷資料分佈到所有磁碟上,從而具有良好的並行處理能力;放棄RAID技術,採用冗餘資料塊方式進行資料保護,統一採用SATA盤,從而降低了儲存成本。

3.2.2 分散式檔案系統儲存

  檔案儲存系統可提供通用的檔案訪問介面,如POSIX、NFS、CIFS、FTP等,實現檔案與目錄操作、檔案訪問、檔案訪問控制等功能。目前的分散式檔案系統儲存的實現有軟硬體一體和軟硬體分離兩種方式。主要通過NAS虛擬化,或者基於X86硬體叢集和分散式檔案系統整合在一起,以實現海量非結構化資料處理能力。

 軟硬體一體方式的實現基於X86硬體,利用專有的、定製設計的硬體元件,與分散式檔案系統整合在一起,以實現目標設計的效能和可靠性目標;產品代表Isilon,IBM SONAS GPFS。

 軟硬體分離方式的實現基於開源分散式檔案系統對外提供彈性儲存資源,軟硬體分離方式,可採用標準PC伺服器硬體;典型開源分散式檔案系統有GFS、HDFS。

3.2.3 分散式物件儲存

  物件儲存是為海量資料提供Key-Value這種通過鍵值查詢資料檔案的儲存模式;物件儲存引入物件元資料來描述物件特徵,物件元資料具有豐富的語義;引入容器概念作為儲存物件的集合。物件儲存系統底層基於分散式儲存系統來實現資料的存取,其儲存方式對外部應用透明。這樣的儲存系統架構具有高可擴充套件性,支援資料的併發讀寫,一般不支援資料的隨機寫操作。最典型的應用例項就是亞馬遜的S3(Amazon Simple Storage Service)。物件儲存技術相對成熟,對底層硬體要求不高,儲存系統可靠性和容錯通過軟體實現,同時其訪問介面簡單,適合處理海量、小資料的非結構化資料,如:郵箱、網盤、相簿、音訊視訊儲存等

3.2.4 分散式表儲存

  表結構儲存是一種結構化資料儲存,如傳統資料庫相比,它提供的表空間訪問功能受限,但更強調系統的可擴充套件性。提供表儲存的雲端儲存系統的特徵就是同時提供高併發的資料訪問效能和可伸縮的儲存和計算架構。

 提供表儲存的雲端儲存系統有兩類介面訪問方式。一類是標準的xDBC、SQL資料庫介面,一類是Map-reduce的資料倉庫應用處理介面。前者目前以開源技術為主,尚未有成熟的商業軟體,後者已有商業軟體和成功的商業應用案例。

3.2.5 分散式儲存總結

 如今分散式儲存系統已經得到了快速的發展,其技術已經較為成熟。先進的分散式儲存系統必須具備下面幾個特性:高效能、高可靠性、高可擴充套件性、透明性以及自治性。

高效能:對於分散式系統中的每一個使用者都要儘量減小網路的延遲和因網路擁塞、網路斷開、節點 退出等問題造成的影響;

高可靠性:高可靠性是大多數系統設計時重點考慮的問題。分散式環境通常都有高可靠性需求,使用者將檔案儲存到分散式儲存系統的基本要求是資料可靠;

高可擴充套件性:分散式儲存系統需要能夠適應節點規模和資料規模的擴大;

透明性:需要讓使用者在訪問網路中其他節點中的資料時能感到像是訪問自己本機的資料一樣;

自治性:分散式儲存系統需要擁有一定的自我維護和恢復功能。

3.3 雲端儲存中的資料備份

3.3.1 副本資料佈局

 一種被廣泛採用的副本佈局方式是通過集中式的儲存目錄來定位資料物件的儲存位置。這種方法可以利用儲存目錄中存放的儲存節點資訊,將資料物件的多個副本放置在不同機架上,這樣可大大提高系統的資料可靠性。谷歌檔案系統(Google File System,GFS)、Hadoop 分散式檔案系統( Hadoop Distributed File System,HDFS)等著名的分散式檔案系統都採用了這種資料佈局方式,然而,基於集中式儲存目錄的資料放置方式存在以下兩個缺陷: 

1.隨著儲存目錄的增長,查詢資料物件所需的開銷也會越來越大;

2.為提高資料物件的定位速度,一般情況下都會將儲存目錄存放在伺服器記憶體中,對於PB 級的雲端儲存系統來說,檔案的數量可能達到上億級,這導致儲存目錄將會佔用上百GB的記憶體。因此,當資料物件數量達到上億級別時,基於集中式儲存目錄的資料放置方法在儲存開銷和資料定位的時間開銷上都是難以接受的,此外,還會大大限制系統的擴充套件性。

 另一種副本佈局方法是基於雜湊演算法的副本佈局方法,它完全摒棄了記錄資料物件對映資訊的做法。基於雜湊演算法的副本佈局方法需要滿足以下要求: 

1.均衡性:根據節點權重為儲存節點分配資料物件。

2.動態自適應性:當系統中的節點數量發生變化時,需遷移的資料量  應該儘量少。

3.低效能開銷。

4.高效性:確定副本位置所需的時間開銷儘可能小,理想情況下為 O( 1) 。

3.3.2傳統的備份策略

 典型的使用者備份流程是這樣的:每天都要在凌晨進行一次增量備份,然後每週末凌晨進行全備份。採用這種方法,一旦出現了資料災難,使用者可以恢復到某天(注意是以天為單位的)的資料,因此在最壞的情況下,可能丟失整整一天的資料。

  那麼,能不能縮小備份時間單位呢?比如,可不可以每半天進行一次增量備份呢?答案是非常困難。因為每次進行備份的資料量都很大的情況下,備份時間視窗很大,需要繁忙的業務系統停機很長時間才能做到。

因此,為了確保資料的更高安全性,使用者必須對線上系統實行線上實時複製,儘可能多地採用快照等磁碟管理技術維持資料的高可用性,這樣勢必需要增加很大一部分投資。

3.3.3 連續資料保護

  連續資料保護(CDP)是一種連續捕獲和儲存資料變化,並將變化後的資料獨立於初始資料進行儲存的方法,而且該方法可以實現過去任意一個時間點的資料恢復。CDP系統可能基於塊、檔案或應用,並且為數量無限的可變恢復點提供精細的可恢復物件。

  因此,所有的CDP解決方案都應當具備以下幾個基本的特性:資料的改變受到連續的捕獲和跟蹤;所有的資料改變都儲存在一個與主儲存地點不同的獨立地點中;恢復點目標是任意的,而且不需要在實際恢復之前事先定義。

  所以,CDP可以提供更快的資料檢索、更強的資料保護和更高的業務連續效能力,而與傳統的備份解決方案相比,CDP的總體成本和複雜性都要低。

  儘管一些廠商推出了CDP產品,然而從它們的功能上分析,還做不到真正連續的資料保護,比如有的產品備份時間間隔為一小時,那麼在這一小時內仍然存在資料丟失的風險,因此,嚴格地講,它們還不是完全意義上的CDP產品,目前我們只能稱之為類似CDP產品。

3.4 雲端儲存中的資料縮減技術

 為應對資料儲存的急劇膨脹,企業需要不斷購置大量的儲存裝置來滿足不斷增長的儲存需求。權威調查機構的研究發現,企業購買了大量的儲存裝置,但是利用率往往不足50%,儲存投資回報率水平較低。資料量的急劇增長為儲存技術提出了新的問題和要求,怎樣低成本高效快速地解決無限增長的資訊的儲存和計算問題擺在科學家的面前。通過雲端儲存技術不僅解決了儲存中的高安全性、可靠性、可擴充套件、易管理等儲存的基本要求,同時也利用雲端儲存中的資料縮減技術,滿足海量資訊爆炸式增長趨勢,一定程度上節約企業儲存成本,提高效率。

3.4.1 自動精簡配置

  自動精簡配置是一種儲存管理的特性,核心原理是“欺騙”作業系統,讓作業系統認為儲存裝置中有很大的儲存空間,而實際的物理儲存空間則沒有那麼大。傳統配置技術為了避免重新配置可能造成的業務中斷,常常會過度配置容量。在這種情況下,一旦儲存分配給某個應用,就不可能重新分配給另一個應用,由此就造成了已分配的容量沒有得到充分利用,導致了資源的極大浪費。而精簡配置技術帶給使用者的益處是大大提高了儲存資源的利用率,提高了配置管理效率,實現高自動化的資料儲存。

 自動精簡配置技術是利用虛擬化方法減少物理儲存空間的分配,最大限度提升儲存空間利用率。這種技術節約的儲存成本可能會非常巨大,並且使儲存的利用率超90%。通過“欺騙”作業系統,造成的好像儲存空間有足夠大,而實際物理儲存空間並沒有那麼大。自動精簡配置技術的應用會減少已分配但未使用的儲存容量的浪費,在分配儲存空間時,需要多少儲存空間系統則按需分配。自動精簡配置技術優化了儲存空間的利用率,擴充套件了儲存管理功能,雖然實際分配的物理容量小,但可以為作業系統提供超大容量的虛擬儲存空間。隨著資料儲存的資訊量越來越多,實際儲存空間也可以及時擴充套件,無需使用者手動處理。利用自動精簡配置技術,使用者不需要了解儲存空間分配的細節,這種技術就能幫助使用者在不降低效能的情況下,大幅度提高儲存空間利用效率;需求變化時,無需更改儲存容量設定通過虛擬化技術整合儲存,減少超量配置,降低總功耗。

自動精簡配置這項技術最初由3Par公司開發,目前支援自動精簡配置的廠商正在快速增加。這項技術已經成為選擇儲存系統的關鍵標準之一。但是並不是所有的自動精簡配置的實施都是相同的。隨著自動精簡配置的儲存越來越多,物理儲存的耗盡成為自動精簡配置環境中經常出現的風險。因此,告警、通知和儲存分析成為必要的功能,並且對比傳統環境,其在自動精簡配置的環境中扮演了更主要的角色。

3.4.2 自動儲存分層

  自動儲存分層(AST)技術主要用來幫助資料中心最大程度地降低成本和複雜性。在過去,進行資料移動主要依靠手工操作,由管理員來判斷這個卷的資料訪問壓力或大或小,遷移的時候也只能一個整卷一起遷移。自動儲存分層技術的特點則是其分層的自動化和智慧化。傳統配置方式與自動儲存分層方式比較是一個整卷一起遷移。新技術的特點則是其分層的自動化和智慧化。自動儲存分層是儲存上減少資料的另外一種機制。一個磁碟陣列能夠把活動資料保留在快速、昂貴的儲存上,把不活躍的資料遷移到廉價的低速層上,以限制儲存的花費總量。自動儲存分層的重要性隨著固態儲存在當前磁碟陣列中的採用而提升,並隨著雲端儲存的來臨而補充內部部署的儲存。自動儲存分層使使用者資料保留在合適的儲存層級,因此減少了儲存需求的總量並實質上減少了成本,提升了效能。資料從一層遷移到另一層的粒度越精細,可以使用的昂貴儲存的效率就越高。子卷級的分層意味著資料是按照塊來分配而不是整個卷,而位元組級的分層比檔案級的分層更好。如何控制資料在層間移動的內部工作規則,決定需要把自動分層放在正確的位置的努力程度。一些系統,是根據預先定義的什麼時候移動資料和移動到哪一層。相反的,Net App公司和Oracle公司(在Sun ZFS Storage 7000系列中)倡導儲存系統應該足夠智慧,能重複資料刪除,能自動的保留資料在其合適的層,而不需要使用者定義的策略。

3.4.3 重複資料刪除

  物理儲存裝置在使用一段時間後必然會出現大量重複的資料。“重複刪除”技術(De-duplication)作為一種資料縮減技術可對儲存容量進行優化。它通過刪除資料集中重複的資料,只保留其中一份,從而消除冗餘資料。使用De-dupe技術可以將資料縮減到原來的1/20-1/50。由於大幅度減少了對物理儲存空間的資訊量,進而減少傳輸過程中的網路頻寬、節約裝置成本、降低能耗。重複資料刪除技術原理De-dupe按照消重的粒度可以分為檔案級和資料塊級。可以同時使用2種以上的hash演算法計算資料指紋,以獲得非常小的資料碰撞發生概率。具有相同指紋的資料塊即可認為是相同的資料塊,儲存系統中僅需要保留一份。這樣,一個物理檔案在儲存系統中就只對應一個邏輯表示。Net App公司為其所有的系統提供重複資料刪除選項,並且可以針對每個捲進行啟用。Net App公司的重複資料刪除並不是實時執行的。相反,它是使用預先設定的程序執行的,一般是在閒暇時間執行,通過掃描把重複的4KB資料塊替換為相應的指標。與Net App公司相似,Oracle公司在其Sun ZFS Storage7000系列系統中也具備塊級別重複資料刪除的功能。與Net App公司不同的是,去重是在其寫入磁碟時實時執行的。戴爾公司獲得了內容感知的去重和壓縮技術,並企圖把這種技術整合到其所有的儲存系統中。

3.4.4 資料壓縮

  資料壓縮技術是提高資料儲存效率最古老最有效的方法之一。為了節省資訊的儲存空間和提高資訊的傳輸效率,必須對大量的實際資料進行有效的壓縮。資料壓縮作為對解決海量資訊儲存和傳輸的支援技術受到人們極大的重視。資料壓縮就是將收到的資料通過儲存演算法儲存到更小的空間中去。隨著目前CPU處理能力的大幅提高,應用實時壓縮技術來節省資料佔用空間成為現實。這項新技術就是最新研發出的線上壓縮(RACE),它與傳統壓縮技術不同。對RACE技術,當資料在首次寫入時即被壓縮,以幫助系統控制大量資料在主存中雜亂無章地儲存的情形,特別是多工工作時更加明顯。該技術還可以在資料寫入到儲存系統前壓縮資料,進一步提高了儲存系統中的磁碟和快取的效能和效率。壓縮演算法分為無失真壓縮和有失真壓縮。相對於有失真壓縮來說,無失真壓縮的佔用空間大,壓縮比不高,但是它有效地儲存了原始資訊,沒有任何訊號丟失。但是隨著限制無損格式的種種因素逐漸被消除,使得無失真壓縮格式具有廣闊的應用前景。資料壓縮中使用的LZS演算法基於LZ77實現,主要由2部分構成,滑窗(Sliding Window)和自適應編碼(Adaptive Coding)。壓縮處理時,在滑窗中查詢與待處理資料相同的塊,並用該塊在滑窗中的偏移值及塊長度替代待處理資料,從而實現壓縮編碼。如果滑窗中沒有與待處理資料塊相同的欄位,或偏移值及長度資料超過被替代資料塊的長度,則不進行替代處理。LZS演算法的實現非常簡潔,處理比較簡單,能夠適應各種高速應用。資料壓縮的應用可以顯著降低待處理和儲存的資料量,一般情況下可實現2:1~3:1的壓縮比。壓縮和去重是互補性的技術,提供去重的廠商通常也提供壓縮。而對於虛擬伺服器卷、電子郵件附件、檔案和備份環境來說,去重通常更加有效,壓縮對於隨機資料效果更好,像資料庫。換句話說,在資料重複性比較高的地方,去重比壓縮有效。


3.5 雲端儲存中的內容分發網路技術

 雲端儲存是構建於網際網路之上的,何如降低網路延遲、提高資料傳輸率是關係到雲端儲存效能的關鍵問題。儘管有一些通過本地快取記憶體、廣域網優化等技術來解決問題的研究工作,但離實際的應用需求還有一定的距離。內容分發網路是一種新型網路構建模式,主要是針對現有的Internet 進行改造。基本思想是儘量避開網際網路上由於網路頻寬小、網點分佈不均、使用者訪問量大等影響資料傳輸速度和穩定性的弊端,使資料傳輸的更快、更穩定。通過在網路各處放置節點伺服器,在現有網際網路的基礎之上構成一層智慧虛擬網路,實時地根據網路流量、各節點的連線和負載情況、響應時間、到使用者的距離等資訊將使用者的請求重新導向離使用者最近的服務節點上。目的是使使用者可就近取得所需內容,解決Internet 網路擁擠的狀況,提高使用者訪問網站的速度。

3.6 雲端儲存中的資料遷移

 當我們從一個物理環境和單個陣列過渡到完全虛擬化的、高度動態的儲存環境時,資料的遷移就成了雲端儲存方案中最為基礎、關鍵的步驟,它在整個方案中佔有了舉足輕重的作用。

把企業的資料轉移到雲中,針對不同的實際情況這裡有兩種方法:

1.當企業的資料吞吐量較大但是資料量不是特別多,對傳輸延遲也沒過多要求時,雲供應商可以提供從企業到供應商某個儲存節點之間的私人鏈接,方便企業遷移資料。企業可以根據自己的時間,在不影響公司正常執行的情況下做資料的轉移安排;

2.當企業的資料可以提供拷貝,那麼我們可以採用sneaker-net 的方式,即人工網路模式,將資料通過磁碟、移動儲存裝置等從企業伺服器拷入到雲資料中心或者從雲資料中心拷貝出來。

 如果企業對當前雲供應商提供的服務不滿意需要更換服務商, 如何在兩家服務商的雲之間轉移資料? 這應該是當前一個很棘手的問題。由於目前雲端儲存還處在初級階段,各個雲供應商都採用自己的加密或傳輸機制,因此沒有一個規範和約束的統一標準。很多雲儲存供應商無法直接將客戶資料遷移到另一家供應商。當服務出現故障時,資料將返還給客戶,然後客戶要再找另一家雲供應商,或者將資料儲存在本地伺服器。所以希望各個雲供應商提供一組雲資料管理的應用程式設計介面API,讓不同雲供應商之間的資料遷移更加便捷。

3.7 雲端儲存中的資料容錯技術

 資料容錯技術是雲端儲存研究領域的一項關鍵技術,良好的容錯技術不但能夠提高系統的可用性和可靠性,而且能夠提高資料的訪問效率。資料容錯技術一般都是通過增加資料冗餘來實現的,以保證即使在部分資料失效以後也能夠通過訪問冗餘資料滿足需求。冗餘提高了容錯性,但是也增加了儲存資源的消耗。因此,在保證系統容錯性的同時,要儘可能地提高儲存資源的利用率,以降低成本。目前,常用的容錯技術主要有基於複製(replication)的容錯技術和基於糾刪碼(erasure code)的容錯技術兩種。基於複製的容錯技術簡單直觀,易於實現和部署,但是需要為每個資料物件建立若干同樣大小的副本儲存空間開銷很大;基於糾刪碼的容錯技術則能夠把多個數據塊的資訊融合到較少的冗餘資訊中,因此能夠有效地節省儲存空間,但是對資料的讀寫操作要分別進行編碼和解碼操作,需要一些計算開銷。當資料失效以後,基於複製的容錯技術只需要從其他副本下載同樣大小的資料即可進行修復;基於糾刪碼的技術則需要下載的資料量一般遠大於失效資料大小,修復成本較高。

3.7.1 基於複製的容錯技術

  基於複製的容錯技術對一個數據物件建立多個相同的資料副本,並把得到的多個副本散佈到不同的儲存節點上。當若干資料物件失效以後,可以通過訪問其他有效的副本獲取資料。基於複製的容錯技術主要關注兩方面的研究:

(1) 資料組織結構:資料組織結構主要研究大量資料物件及其副本的   管理方式;

(2) 資料複製策略:資料複製策略主要研究副本的建立時機、副本的  數量、副本的放置等問題.

3.7.2 基於糾刪碼的容錯技術

  基於複製的容錯技術儲存開銷巨大,要提供冗餘度為k 的容錯能力,就必須另外建立k個副本,儲存空間的開銷也增大了k 倍。基於編碼的容錯技術通過對多個數據物件進行編碼產生編碼資料物件,進而降低完全複製帶來的巨大的儲存開銷。RAID技術中使用最廣泛的RAID5 通過把資料條帶化(stripping)分佈到不同的儲存裝置上以提高效率,並採用一個校驗資料塊使之能夠容忍一個數據塊的失效。但是隨著節點規模和資料規模的不斷擴大,只容忍一個數據塊的失效已經無法滿足應用的儲存需求。糾刪碼(erasure-coding)技術是一類源於通道傳輸的編碼技術,因為能夠容忍多個數據幀的丟失,被引入到分佈儲存領域,使得基於糾刪碼的容錯技術成為能夠容忍多個數據塊同時失效的、最常用的基於編碼的容錯技術。

雲端儲存的優勢

  雲端儲存的優勢主要體現在以下幾個方面:

高可擴充套件性:雲端儲存架構採用的是並行擴容方式,當容量 不夠   時,只需採購新的儲存伺服器,容量即可增加,而且幾乎沒有上 限控制。

負載均衡:雲端儲存能自動將工作任務均勻分配到不同的儲存服務 器上,從而可避免因個別儲存伺服器工作量過大而造成效能瓶頸, 這樣可使整個儲存系統發揮最大的功效。

容易管理:對雲端儲存管理者來說,即使再多的儲存伺服器也只是 一臺儲存裝置,管理人員只需在整體硬碟容量快用完時,增加採 購儲存伺服器即可。而每臺儲存伺服器的使用狀況都可以很方便 地在一個管理介面上看到。

容易使用:如果你將資料儲存在雲端儲存系統,你就可以從任何有互  聯網接入的地方得到這些資料。你根本不需要隨身攜帶一個物理 儲存裝置或使用相同的計算機來儲存和檢索你的資訊。

雲端儲存中的安全問題

  各種IT組織對於雲端儲存最擔心的問題是資料安全的問題。 

①雲資料儲存位置問題:使用者不知道實際資料的儲存位置,會造成使用者對於資料儲存地的擔心。對敏感資料的訪問問題,如果雲端儲存管理出現異常,可能導致不能掌控資料的訪問許可權。

②資料隔離問題。雲端儲存儲存了大量的客戶資料,保證私有資料不能被其他無授權的使用者訪問。在儲存雲中,你的資料也許會與其他使用者的資料儲存在同一批磁碟上。如果另一位使用者的資料遭到聯邦調查局的檢查,你的資料是否也會跟著被檢查呢?目前的法律還不足以保護資料儲存在同一臺裝置上的其他無責任方。為了解決這個問題,有些廠商會將每位客戶的資料儲存在彼此獨立的磁碟上,利用不同的金鑰來加密不同客戶的資料。 

③資料保護及恢復問題。主資料保護留給使用者,線上執行的資料採用RAID 保護、多份拷貝、遠端複製、快照、持續保護。次資料保護是對主資料所在的歷史拷貝形成的備份,減少資料損壞,恢復被刪除或被覆蓋的資料,將資料長期儲存。一旦資料出現全部或部分資料破壞時,及時進行全面恢復。

④雲服務擴充與遷移問題。當用戶需求擴大時,雲提供商現有的雲服務不能滿足使用者需求, 使用者需要轉移至其他雲提供商。遷移過程是安全的,可以進行端到端的加密。使用者已有資料及應用能否保證順利遷移將面臨很大的不確定性。

⑤涉及系統程式管理安全,目標是系統儘可能少地被使用,避免任何虛擬機器被其他虛擬機器造成負面影響。資料通道,企業只能給需要維護必要功能的物理伺服器提供訪問路徑,通過NPIV 使用訪問列表、許可權配置來完成。

國內外雲端儲存產品

6.1 國外四大雲端儲存產品詳盡對比


在雲端儲存這個巨大的市場面前,Google與微軟利用各自在搜尋與辦公領域的優勢做整合,蘋果利用自己的平臺與終端領域的優勢做整合,而新興創業公司Dropbox顯然就缺乏這方面的資源,這也許將是它不得不面臨的一個巨大挑戰。對 Dropbox 來說,本地是檔案最終的歸宿,雲端只是一箇中轉和備份的場所;對蘋果來說,應用是檔案最終的歸宿,脫離應用的 iCloud 甚至沒有一個能夠讓使用者訪問自己檔案的方法;對微軟來說比較複雜,在新版 Skydrive 釋出前,Office 是其檔案最終的歸宿,現在則類似於 Dropbox,在未來可能會向 iCloud 靠近。而 Google Drive 則有所不同,從其當前釋出形態就可以看出來,Web 是其服務的核心。但是,對任何一個巨頭來說,產品更加人性化、更加易用、更加貼合用戶的需求和習慣,才能擁有更多的使用者,才能有更多的發展。

6.2 國內雲端儲存產品

    雲端儲存一進入國內,就以異常驚人的速度成長,短短几年,就有115網盤、金山快盤、華為網盤、酷盤、360雲盤數十個雲端儲存產品面世,既有藉助原有使用者半路出家,也有赤手空拳的新生產物。所有廠商的目標只有一個:在這個被眾人看好的新興市場分一杯羹。

更令人意想不到的是國內使用者的熱情。截至2012年3月27日,國內最早的雲端儲存之一——115網盤,宣稱註冊使用者總數突破3000萬。

(如下圖所示)另一款產品——華為網盤也宣佈註冊使用者數已經超過2000萬,並預計2013年達到1億大關。後起之秀酷盤亦有不俗、表現,擁有近1000萬的註冊使用者。而這些數字比起4.2億的網民,仍有極大的發展空間。要知道,2007年成立的美國Dropbox,做足三年,才僅僅擁有可憐的100萬註冊使用者(目前為5000萬)。


然而繁華髮展的背後,一些隱憂也不可忽視。國外影響較大的雲端儲存產品只有iCloud、SkyDrive、Google Drive、Dropbox四家,由於活躍使用者比較固定,廠商完全可以安下心來集中精力拓展服務。而國內雲端儲存市場尚處在跑馬圈地階段,慘烈的競爭尚未來臨,市場的發展並不成熟,使用者數量並不固定。

隨著雲端計算熱潮一浪高過一浪,雲端儲存市場進入了百花齊放的時代,Dropbox捷足先登、iCloud喧賓奪主、Google Drive橫空出世、微軟SkyDrive快馬加鞭,各大巨頭都已經敏銳地嗅到了香餑餑的味道,爭先搶後地撲向雲端儲存市場。而對於國內的雲端儲存廠商來說,面臨的問題不少,但是發展的空間也更加大。未來會怎樣?讓我們拭目以待!!