1. 程式人生 > >管理大資料儲存的十大技巧

管理大資料儲存的十大技巧

資料本地化是為了確保大資料集儲存在計算節點附近便於分析。對於Hadoop,這意味著管理資料節點,向MapReduce提供儲存以便充分執行分析。它實用有效但也出現了大資料儲存叢集的獨立操作問題。以下十項是Hadoop環境中管理大資料儲存技巧。

1990年,每一臺應用伺服器都傾向擁有直連式系統(DAS)。SAN的構建則是為了更大的規模和更高的效率提供共享的池儲存。Hadoop已經逆轉了這一趨勢迴歸DAS。每一個Hadoop叢集都擁有自身的——雖然是橫向擴充套件型——直連式儲存,這有助於Hadoop管理資料本地化,但也放棄了共享儲存的規模和效率。如果你擁有多個例項或Hadoop發行版,那麼你就將得到多個橫向擴充套件的儲存叢集。

而我們所遇到的最大挑戰是平衡資料本地化與規模效率,這是一個魚與熊掌兼得的話題。

資料本地化是為了確保大資料集儲存在計算節點附近便於分析。對於Hadoop,這意味著管理資料節點,向MapReduce提供儲存以便充分執行分析。它實用有效但也出現了大資料儲存叢集的獨立操作問題。以下十項是Hadoop環境中管理大資料儲存技巧。


1.分散式儲存

傳統化集中式儲存存在已有一段時間。但大資料並非真的適合集中式儲存架構。Hadoop設計用於將計算更接近資料節點,同時採用了HDFS檔案系統的大規模橫向擴充套件功能。

雖然,通常解決Hadoop管理自身資料低效性的方案是將Hadoop 資料儲存在SAN上。但這也造成了它自身效能與規模的瓶頸。現在,如果你把所有的資料都通過集中式SAN處理器進行處理,與Hadoop的分散式和並行化特性相悖。你要麼針對不同的資料節點管理多個SAN,要麼將所有的資料節點都集中到一個SAN。

Hadoop是一個分散式應用,就應該執行在分散式儲存上,這樣儲存就保留了與Hadoop本身同樣的靈活性,不過它也要求擁抱一個軟體定義儲存方案,並在商用伺服器上執行,這相比瓶頸化的Hadoop自然更為高效。

2.超融合VS分散式

注意,不要混淆超融合與分散式。某些超融合方案是分散式儲存,但通常這個術語意味著你的應用和儲存都儲存在同一計算節點上。這是在試圖解決資料本地化的問題,但它會造成太多資源爭用。這個Hadoop應用和儲存平臺會爭用相同的記憶體和CPU。Hadoop執行在專有應用層,分散式儲存執行在專有儲存層這樣會更好。之後,利用快取和分層來解決資料本地化並補償網路效能損失。

3.避免控制器瓶頸(Controller Choke Point)

實現目標的一個重要方面就是——避免通過單個點例如一個傳統控制器來處理資料。反之,要確保儲存平臺並行化,效能可以得到顯著提升。

此外,這個方案提供了增量擴充套件性。為資料湖新增功能跟往裡面扔x86伺服器一樣簡單。一個分散式儲存平臺如有需要將自動新增功能並重新調整資料。

4.刪重和壓縮

掌握大資料的關鍵是刪重和壓縮技術。通常大資料集內會有70%到90%的資料簡化。以PB容量計,能節約數萬美元的磁碟成本。現代平臺提供內聯(對比後期處理)刪重和壓縮,大大降低了儲存資料所需能力。

5.合併Hadoop發行版

很多大型企業擁有多個Hadoop發行版本。可能是開發者需要或是企業部門已經適應了不同版本。無論如何最終往往要對這些叢集的維護與運營。一旦海量資料真正開始影響一家企業時,多個Hadoop發行版儲存就會導致低效性。我們可以通過建立一個單一,可刪重和壓縮的資料湖獲取資料效率

6.虛擬化Hadoop

虛擬化已經席捲企業級市場。很多地區超過80%的物理伺服器現在是虛擬化的。但也仍有很多企業因為效能和資料本地化問題對虛擬化Hadoop避而不談。

7.建立彈性資料湖

建立資料湖並不容易,但大資料儲存可能會有需求。我們有很多種方法來做這件事,但哪一種是正確的?這個正確的架構應該是一個動態,彈性的資料湖,可以以多種格式(架構化,非結構化,半結構化)儲存所有資源的資料。更重要的是,它必須支援應用不在遠端資源上而是在本地資料資源上執行。

不幸的是,傳統架構和應用(也就是非分散式)並不盡如人意。隨著資料集越來越大,將應用遷移到資料不可避免,而因為延遲太長也無法倒置。

理想的資料湖基礎架構會實現資料單一副本的儲存,而且有應用在單一資料資源上執行,無需遷移資料或製作副本

8.整合分析

分析並不是一個新功能,它已經在傳統RDBMS環境中存在多年。不同的是基於開源應用的出現,以及資料庫表單和社交媒體,非結構化資料資源(比如,維基百科)的整合能力。關鍵在於將多個數據型別和格式整合成一個標準的能力,有利於更輕鬆和一致地實現視覺化與報告製作。合適的工具也對分析/商業智慧專案的成功至關重要。

9. 大資料遇見大視訊

大資料儲存問題已經讓人有些焦頭爛額了,現在還出現了大視訊現象。比如,企業為了安全以及操作和工業效率逐漸趨於使用視訊監控,簡化流量管理,支援法規遵從性和幾個其它的使用案例。很短時間內這些資源將產生大量的內容,大量必須要處理的內容。如果沒有專業的儲存解決方案很可能會導致視訊丟失和質量降低的問題。

10.沒有絕對的贏家

Hadoop的確取得了一些進展。那麼隨著大資料儲存遍地開花,它是否會成為贏家,力壓其它方案,其實不然。

比如,基於SAN的傳統架構在短期內不可取代,因為它們擁有OLTP,100%可用性需求的內在優勢。所以最理想的辦法是將超融合平臺與分散式檔案系統和分析軟體整合在一起。而成功的最主要因素則是儲存的可擴充套件性因素。

Bingdata優網助幫匯聚多平臺採集的海量資料,通過大資料技術的分析及預測能力為企業提供智慧化的資料分析、運營優化、投放決策、精準營銷、競品分析等整合營銷服務。

北京優網助幫資訊科技有限公司(簡稱優網助幫)是以大資料為基礎,並智慧應用於整合營銷的大資料公司,隸屬於亨通集團。Bingdata是其旗下品牌。優網助幫團隊主要來自阿里、騰訊、百度、金山、搜狐及移動、電信、聯通、華為、愛立信等著名企業的技術大咖,兼有網際網路與通訊運營商兩種基因,為大資料的演算法分析提供強大的技術支撐。

相關推薦

資料應用領域,看看你用到了哪個?

如果提到“大資料”時,你會想到什麼?也許大部分人會聯想到龐大的伺服器叢集;或者聯想到銷售商提供的一些個性化的推薦和建議。 如今大資料的深度和廣度遠不止這些,大資料已經在人類社會實踐中發揮著巨大的優勢,其利用價值也超出我們的想像。本文就來介紹大資料的十大應用領域。 1.瞭解和定位客戶

盤點|2017年度資料行業熱詞

2017年12月13日,由中國科學院雲端計算中心、數創匯主辦,國家資訊產業公共服務平臺、國家軟體公共服務平臺協辦,信通創展承辦的2017第二屆中國大資料大會暨大資料年度盛典在京隆重舉辦。國家資訊中心、中科院、中國移動、中國聯通研究院、阿里雲等近400位嘉賓出席本次大會,對大資

資料演算法 經典演算法

一、C4.5 C4.5,是機器學習演算法中的一個分類決策樹演算法, 它是決策樹(決策樹也就是做決策的節點間的組織方式像一棵樹,其實是一個倒樹)核心演算法 ID3的改進演算法,所以基本上了解了一半決策樹構造方法就能構造它。 決策樹構造方法其實就是每次選擇一個好的特徵

跟上節奏 資料時代必備IT技能

新的想法誕生新的技術,從而造出許多新詞,雲端計算、大資料、BYOD、社交媒體、3D印表機、物聯網……在網際網路時代,各種新詞層出不窮,讓人應接不暇。這些新的技術,這些新興應用和對應的IT發展趨勢,使得IT人必須瞭解甚至掌握最新的IT技能。另一方面,雲端計算和大資料乃至其他助推各個行業發展的IT基礎設施的新

管理資料儲存技巧

資料本地化是為了確保大資料集儲存在計算節點附近便於分析。對於Hadoop,這意味著管理資料節點,向MapReduce提供儲存以便充分執行分析。它實用有效但也出現了大資料儲存叢集的獨立操作問題。以下十項是Hadoop環境中管理大資料儲存技巧。在1990年,每一臺應用伺服器都傾向

資料儲存資料問重複資料刪除技術

企業在選擇重複資料刪除產品時,最好想想下面的十個問題。 儲存產品提供商在釋出一款重刪產品時,如何定位自己的產品,是不是也要想想下面的問題呢? 1. 重複資料刪除技術對備份效能將產生什麼影響? 2. 重複資料刪除會降低恢復資料的效能? 3. 容量和效能擴充套件將如何隨著環境

2016年值得關注的資料儲存管理技術

目前電信、金融、零售等行業希望通過大資料的分析手段來幫助自己做出理性的決策。特別是電信和金融行業表現尤為突出,市場資料沒有辦法與使用者消費資料打通。而它們面臨的第一個問題就是海量資料儲存的問題。多數企業正在試圖建設自己的資料中心,來滿足大規模的資料量的產生,或選擇大資料相關

雲時代的資料儲存-雲HBase

為什麼 縱觀資料庫發展的幾十年,從網狀資料庫、層次資料庫到RDBMS資料庫,在最近幾年的NewSQL的興起,加上開源的運動,再加上雲的特性,可以說是日新月異。在20世紀80年代後,大部分的業務確定使用RDBMS資料為儲存基礎。新世紀開始,隨著網際網路的發展,資料量的增大,慢慢RDBMS資料庫撐不住,就出

資料五):Hadoop資料壓縮與壓縮/解壓縮例項

一、資料壓縮 1.概論         壓縮技術能夠有效減少低層儲存系統(HDFS)讀寫位元組。壓縮提高了網路頻寬和磁碟空間的效率。在Hadoop下,尤其是資料規模很大和工作負載密集的情況下。使用資料壓縮閒的非常重要。在這種情況下,I/O操作

資料四):多job串聯與ReduceTask工作機制

一、多job串聯例項(倒索引排序) 1.需求 查詢每個單詞分別在每個檔案中出現的個數   預期第一次輸出(表示單詞分別在個個檔案中出現的次數) apple--a.txt 3 apple--b.txt 1 apple--c.txt 1 grape--a.txt

資料二):自定義OutputFormat與ReduceJoin合併(資料傾斜)

一、OutputFormat介面         OutputFormat是MapReduce輸出的基類,所有實現MapReduce輸出都實現了OutputFormat介面。 1.文字輸出TextOutPutFormat  &n

資料八):Hive元資料配置、常見屬性配置、資料型別與資料轉換

一、Hive元資料配置到MySQL當中         為什麼要把Hive的元資料配置到MySql中?我們可以使用多個客戶端連線linux系統並且都嘗試啟動Hive,可以發現在啟動第二個Hive客戶端的時候發生報錯了。   

資料七):Hive簡介、安裝與基本操作

一、簡介         Hive由Facebook開源用於解決海量結構化日誌的資料統計。Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的資料檔案對映為一張表,並提供類Sql查詢的功能。 hive本質是將HQL轉化為MapRedu

資料六):Yarn的工作機制、資源排程器、任務的推測執行機制

一、Yarn概述         Yarn是一個資源排程平臺,負責為運算程式提供伺服器運算資源,相當於一個分散式的作業系統平臺,而MapReduce等運算程式則相當於運行於操作程式上的應用程式。   二、Yarn基本架

hadoop SequenceFile——資料 儲存

SequenceFile是一個由二進位制序列化過的key/value的位元組流組成的文字儲存檔案。 基於壓縮型別CompressType,共有三種SequenceFile Writer: public static enum CompressionType { /

資料九):hive資料庫基本操作與表分類

一、建立資料庫 1.建立一個數據,資料庫在HDFS上的預設儲存路徑是/user/hive/warehouse/*.db create database db_hive; 2.避免建立的資料庫已經存在,增加if not exists create database 

如何使用HBase?資料儲存的兩個實戰場景

現如今各種資料儲存方案層出不窮,本文僅僅是結合兩個實戰場景就基於HBase的大資料儲存做了簡單的分析,並對HBase的原理做了簡單的闡述。如何使用好HBase,甚至於如何選擇一個最優的資料儲存方案,還需要我們根據場景需要具體分析和設計 HBase是一個高可靠性、高效能、面向

資料儲存、計算、應用、視覺化,資料的基本概述都在這裡了

未來的時代,一定是資料的時代,在未來,一切被記錄,一切被分析,資料將以資產的方式存在,相關知識如下: 一、先說各種資料儲存 資料是個很泛的概念,但是我們腦海裡第一反應的就是關係型資料庫和EXCEL這種二維表是資料。 而現在資料各種各樣特色,有文件、有圖片、有流式

資料儲存---HBase介紹(上)

本次主要介紹三部分: HBase簡介 HBase整體架構 HBase安裝和啟動 Hbase基本操作 HBase簡介 hbase是bigtable的開源java版本,是建立在hdfs之上。 提供高可靠性、高效能、列儲存、可伸縮、實時讀寫nosql的資料庫系統

資料儲存---HBase常用介紹(中)

我們這裡主要介紹HBase的API 基礎API 封裝工具類 基礎API 建立表 新增資料 查詢資料的三種方式 掃描查詢 get方式執行查詢 過濾查詢 PS:刪除表請通過shell命令進入客戶端刪除。 package com.hbase; imp