儲存和備份有何區別
一直以來,儲存和備份是兩個相近的概念,但是又有很大區別的。如果不是專業的技術專家,是比較難搞清楚這兩者之間區別,特別是雲的出現,這兩個概念往往容易混在一起看。本文從幾個方面快速對比下儲存和備份這兩個概念的區別和發展,以及演變趨勢。
1. 備份是不能獨立資料容器存在,永遠構建於儲存之上
儲存是資料儲存容器的統稱,比如軟盤,光碟,磁碟,磁碟陣列,中小規模業務用的NAS,專業的磁帶庫,專業的光纖儲存網路SAN。儲存容量從幾MB,到上100TB,甚至P級。最近幾年出現新的一種方案,雲端儲存。雲端儲存有個好處是可以動態擴充套件儲存空間,平臺提供商由於採用低成本硬碟等方案,採用分散式技術,把本身廉價的硬碟聚集起來,構建成1個具備較高可靠性的儲存方案; 一些大平臺,當具備規模效應後,平攤到使用者,TCO成本會低不少,這是傳統儲存方案比較軟肋的一個地方。
備份是一種資料保護的機制和方案,其實現必須依賴於具體的儲存容器。目前在備份這塊的市場有非常多的品牌,如Symantec 的NBU ,CommVault的備份產品,IBM的TSM,EMC的NetWorker,還有專注混合雲資料備份保護服務的多備份。備份通常用於保護業務系統產生的核心資料或個人重要的資料。一般的備份系統,通常會與硬體儲存裝置搭配組合成備份方案。
2. 儲存通常解決地理空間的訪問問題;而備份解決地理空間上的冗餘儲存問題
我們工作用的WORD軟體,如果沒有資料儲存介質,編輯產生的文件無法儲存,配上IDE或SATA硬碟後,應用軟體產生的資料可以很快儲存在硬碟上。這是一個簡單的硬碟儲存支援軟體工作的例子。一旦本地硬碟如果壞掉,努力工作一週的成功,可能得重新再來。
通常的重要業務系統架構設計的時候,會充分考慮儲存方案的構成,什麼樣的業務系統,在幾個位置,資料如何分佈,需要的容量,擴充套件需求等進行規劃設計,重點解決業務系統不斷增長的資料儲存問題。一般會就近業務應用伺服器來部署儲存架構。不管是雲端儲存,還是傳統的儲存架構,都有一個目標:讓業務系統,在不同的位置和儲存在空間上的訪問可以穩定、連續進行。
資料在一個地方始終是不可靠,機房斷電,線路故障,硬體故障,火災等,特別對於重要業務系統,如支付系統,一旦業務系統為了保持業務連續訪問,考慮到了多個地點的資料映象,就有一點備份的味道。雲端儲存目前在空間資料冗餘儲存方面,一般也有做資料垮地區的冗餘儲存,防止災難的發生。
備份在此基礎上,進一步封裝邏輯,對資料在不同的地方,可以訂製不同的複製策略。較重要的資料,通常可以在一個地方進行冗餘,比如使用者產生的日誌,圖片等可以冗餘一份;對於更關鍵的資料,如使用者註冊資料,資料儲存索引資料,交易資料,金融系統相關資料等,必要時得多做冗餘。雲端儲存的出現,使得基於雲的備份方案,實現起來更加容易,輕易按需構建不同的地理位置的通道,只要你願意,資料備份到全球幾十個地區的雲端儲存中心都可以。這一切可以用最簡單的手動複製方案,也可以用自動管理的方案,比如多備份等。
3. 儲存通常解決連續資料讀寫,儲存問題 ;備份解決時間版本凍結和回溯問題
儲存一個word文件,上傳完一部電影,修改一個帖子,傳送一條微信訊息,這些要麼被順序寫入硬碟,要麼被寫入專業的資料庫或檔案系統。這是儲存典型的一個應用場景,就是不斷響應從業務或軟體傳送的資料儲存需求,文件,電影,帖子最後只會有最新的一個狀態,歷史的狀態一直被最新的狀態覆蓋。
既然有新增,那就也有刪除,也有修改,所以儲存並不識別上層軟體的意圖,可能是正常,也可能是惡意入侵,或誤操作,新增和刪除同樣在底層會進行操作。部分儲存設計,帶有一定的備份恢復能力,當然要想使用備份恢復能力,可能比部署一套備份方案,來的成本會更大。我們都知道恢復一個硬碟的資料,通常得數上千塊,硬碟不值錢,但裡面的資料值錢。
解決新增,刪除,修改等有意無意的行為對資料儲存系統帶來的影響,這時候得專業功能-備份上場。備份系統最主要考慮的一個功能就是時間線版本凍結和回溯。每次對儲存系統的備份,都會形成一個當前備份時刻的資料映象版本,恢復的時候就可以直接選擇對應的版本恢復,資料就回到從前那一時刻狀態。當然不同的產品實現備份方案不一樣,對於基於混合雲架構的多備份來說,版本理論上可以一直保持下來,想怎麼恢復,就怎麼恢復。另外,不同的實現,映象的一致性結果不盡相同。對於一致性要求高的場景,版本可能會凍結寫請求,如資料庫備份直接加寫鎖,這時候對業務會有短時間影響;如果你說自己是土豪出得起價,需要對業務系統幾乎無干擾,幾十上百萬無所謂,則可以購買比較牛的連續資料保護方案(CDP)。
4. 儲存通常面向硬體故障為安全設計目標;備份解決軟硬體故障在內的多種因素引起的資料安全問題
在日常概念中,儲存就等於安全,特別是雲端計算概念出現後,包括周邊的一些技術高手也有類似看法,實際上這是一個誤區。
從最常用的機械硬碟開始,通常圍繞溫度,讀寫壽命,抗衝擊力等設計,一些硬碟在讀寫超過幾百TB後,就開始工作不正常,SSD硬碟在環境溫度變化,可能也會引起資料有效性變化。隨著儲存安全技術的加強,出現了冗餘整理的技術,把多塊硬碟進行聚合,資料寫入多塊硬碟;提高了單塊硬碟的可靠性。進入到NAS,SAN等專用儲存解決方案後,通過冗餘陣列,通道冗餘,快照映象等技術,進一步提高了儲存容量和整個讀寫環節的可靠性。但這些都是圍繞硬體故障或儲存區域故障進行設計。雲端儲存,包括物件儲存和彈性塊儲存,核心設計目標依然是資料在硬體或儲存節點或區域系統出問題時候,有能力從其它節點恢復。
備份系統一個重要設計思想就是圍繞恢復設計。備份把資料從一個節點,一個系統複製到另外一個節點,一個系統,規避了硬體、軟體在同一時期發生問題的可能性;備份系統通常會在資料儲存這裡增加高級別的冗餘配置,或冗餘複製,或低成本的算術冗餘資料分佈。備份系統通過時間版本化,空間冗餘分佈進一步規避了因為各種有意,無意的資料讀寫動作,包括人為操作,系統故障,軟體缺陷,黑客入侵,病毒,自然災難等,引起的資料丟失,新增,修改等問題。一些設計得比較好的方案,會輕鬆還原資料。即時在備份系統軟體出現問題,也能把資料通過一定的流程還原回去。多備份在業務系統出現問題後,甚至可以在選定資料庫表或某1個檔案獨立恢復;如果資料採用混合雲模式,資料再TB級別,也可以在極其短暫的情況下恢復到業務系統中。
5. 儲存通常關注訪問效能指標設計;備份重點關注一次備份和恢復的時間開銷
電腦從IDE硬碟,升級到SSD硬碟,作業系統啟動速度,軟體執行的速度明顯不一樣。業務系統從普通的硬碟儲存,過度到專業級SAN全光纖儲存,甚至對資料進行上幾百GB的全記憶體加速,目的就是為了提高資料讀寫的速度,提升終端使用者的體驗。所以,儲存系統通常會圍繞IOPS指標來選型,場景不一樣IOPS的選擇也不一樣。當然價格也不一樣。雲端儲存涉及到的彈性塊儲存,以及物件儲存都有同樣的考量指標 ,目標筆者瞭解到的是,彈性塊儲存通常在幾十MB左右,而結合SSD方案的,則可以到上百MB。雲端儲存為了提高讀的能力,通常結合了CDN技術,部分廠家還提供了上傳加速。
備份系統,非常關注一次備份和恢復的時間視窗,主要原因在於大部分備份系統是構建在生產主系統之上。通常備份越快,對業務系統的影響越小。業務系統的場景非常複雜,有的是檔案大,如視訊,圖片,系統壓縮檔案,如多備份不少客戶是資料庫壓縮後的檔案進行備份,但單個檔案得幾百GB ;有的客戶是海量的檔案,如郵件系統,規模上TB級,數量也在億級別。如何在最短之內把資料備份完成,通常是一個比較辣手的問題。在這塊包括先壓縮後備份,先歸檔再備份,或者直接快照後再備份等各種方案都有。基本上總結起來就包括檔案系統級的,IO塊級別的,或者快照級別的備份。
檔案系統級實施簡單,價格低,效能受限檔案系統IO能力;IO塊級別實施複雜,價格貴,通常需要變化儲存架構;快照級別可能對儲存架構會有調整,適合規模小一點的。傳統主流大廠的方案一般都會有以上幾個組合。多備份目前聚焦在檔案系統物件級,IO塊和快照方案作為輔組;結合變掃描邊備份,實時發現,智慧壓縮,自適應CPU硬體加密等方案,儘可能減低處理時間。依賴備份方案,恢復的機制相應也不一樣,恢復速度也不一樣; 對於純粹的備份來說,按照備份物件序列差異式的恢復變化的內容,依然是一個可靠與速度平衡的解決思路,且在目標系統可用的情況下,是非常合適的一個方案。如果對於做了異地備份的情況,災難式的恢復通常會受限於網路通道。
6. 儲存通常以資料規模變”大”為美,而備份通常以最大程度把資料變“小”為美
這裡的變大,是指儲存解決的問題是如何儲存超大規模的資料。在我們日常話題中,通常溝通交流的是誰家的硬碟支援1TB,2TB,4TB等,業務系統支援多少使用者規模,產生了多少TB資料,資料庫儲存規模如何等, 衡量一個儲存系統設計的是否好,就是在大規模資料下,系統反應良好,使用者感覺流暢。而支援這一目標,通常會說儲存伺服器支援的硬碟塊數,單塊硬碟的容量,當然IO通道能力也是配套指標。
為了支援足夠的大,配上專門的儲存交換機,快速把大容量儲存陣列對映到不同的伺服器上;而資料集中儲存在SAN網路中,有的高達幾百TB甚至PB級別。即使這樣,支援壓縮的特性也能派上用場,特別巨大的資料量,對儲存的資料預設進行壓縮或去重,降低資料佔用空間。雲端儲存的出現,更是把容量推向了幾乎無限;單個雲平臺或者準確受限於儲存機房區域的容量和區域的數量。由於動態擴容特性,當儲存網路不夠時,在IDC空間足夠的情況下,可以不斷增加節點完成儲存節點的增加。
通常當資料足夠大,資料足夠久的時候,資料就需要歸檔備份起來。而備份就是解決如何保持完整的資料同時,能更好的減低儲存開銷。所以,一般來說,由於備份會採取在原端去重,或儲存端全域性去重等技術,保持最小的備份空間。同時包括壓縮等方案,也會自動在備份流程中引入。在傳統的實施方案中,由於要定期作全量,資料會變得很大,所以一般保留3個月或半年,或按年做次全量等策略。在快照模型下,由於產生的資料規模比較大,通常雲主機對雲磁碟採取的快照備份一般也保持幾個快照。傳統備份產品也有全增量策略,只是結合硬體儲存方案,使用和管理成本依然還是比較高;多備份採取的全增量策略,優勢主要集中在混合雲索引增量模型,資料保持最小增長規模可靠儲存的同時,還可以保持更簡單的快速恢復體驗,大規模資料備份非常省空間。
儲存和備份的差異總結
儲存主要重點解決原始產生資料的正常存放和讀取問題,包括媒介,以及存放讀取方法,
比如資料通過檔案系統或專門的訪問介面儲存在U盤,硬碟,光碟,磁碟陣列,NAS,SAN儲存網路,雲端儲存等。一般個人儲存和企業儲存在讀寫效能,安全,可靠性,可管理性,服務質量承諾等方面存在本質區別。正如硬碟,網盤永遠是解決個人照片,非敏感資料等儲存需求,而SAN,NAS,企業級雲端儲存服務則是企業重要資料存取方案。效能,容量,規避單節點,單區域依然是最求的最大設計目標,備份依然不是其重點解決點;進一步,基於雲端儲存的模型,產生了用於儲存相對冷資料的服務,這為歷史累計不常用的資料歸檔備份打下了基礎,但普通個人或企業也難於直接使用。
備份則通過定期或實時複製技術,應對各類人為,軟體故障,系統故障,自然災難引起的資料丟失,損壞,出錯等問題
U盤備份,硬碟備份,磁帶備份,光碟備份,本地備份,異地備份,雲備份,本地與雲結合的混合雲模式備份等型別,以及CDP 實時備份保護等。手動複製到U盤,硬碟構成一個最簡單的備份方案。但涉及到大規模資料,保護服務或系統數量增加,以及資料的敏感控制,生產系統資源佔用控制管理等需求,只要用專業的保護方案才能解決。
最新的系統與資料備份保護趨勢將逐步超出備份範疇,智慧化資料管理,資料保護虛擬化以及和各種雲環境的融合,與資料安全的融合將是重要的發展方向 ;備份即是立即可用的服務,備份即是保護服務,備份即是資料虛擬化,備份即是資料服務,備份即是資料遷移服務等是重要的資料管理和資料應用發展方向。目前巨頭和多備份等一些創新類企業等已經在加快邁向這個趨勢。