大資料時代:Hadoop解決資料處理三瓶頸

阿新 • • 發佈：2019-01-14

原文地址：http://www.lupaworld.com/article-213002-1.html

越來越多的大企業的資料集以及建立需要的一切技術，包括儲存、網路、分析、歸檔和檢索等，這些被認為是海量資料。這些大量資訊直接推動了儲存、伺服器以及安全的發展。同時也是給IT部門帶來了一系列必須解決的問題。

　　資訊科技研究和分析的公司Gartner認為海量資料處理應該是將大量的不同種類以及結構化和非結構化的資料通過網路彙集到處理器和儲存裝置之中，並伴隨著將這些資料轉換為企業的商業報告。

　　海量資料處理的三個主要因素：大容量資料、多格式資料和速度

　　大容量資料(TB級、PB級甚至EB級)：人們和機器製造的越來越多的業務資料對IT系統帶來了更大的挑戰，資料的儲存和安全以及在未來訪問和使用這些資料已成為難點。

　　多格式資料：海量資料包括了越來越多不同格式的資料，這些不同格式的資料也需要不同的處理方法。從簡單的電子郵件、資料日誌和信用卡記錄，再到儀器收集到的科學研究資料、醫療資料、財務資料以及豐富的媒體資料(包括照片、音樂、視訊等)。

　　速度：速度是指資料從端點移動到處理器和儲存的速度。

　　Kusnetzky集團的分析師Dan Kusnetzky在其部落格表示“簡單的說，大資料是指允許組織建立、操作和管理的龐大的資料集和儲存設施工具”。這是否意味著將來將會出現比TB和PB更大的資料集嗎?供應商給出的迴應是“會出現”。

　　他們也許會說“你需要我們的產品來管理和組織利用大規模的資料，只是想想繁雜大量的維護動態資料集帶來的麻煩就使人們頭疼“。此外海量資料的另外一個價值是它可以幫助企業在適當的時機作出正確決策。

　　從歷史上看，資料分析軟體面對當今的海量資料已顯得力不從心，這種局面正在悄然轉變。新的海量資料分析引擎已經出現。如Apache的Hadoop、LexisNexis的HPCC系統和1010data(託管、海量資料分析的平臺供應商)的以雲端計算為基礎的分析服務。

　　101data的高階副總裁Tim Negris表示海量資料的收集以及存放和利用海量資料實際上完全是兩回事。在做任何事前需要大量(準備資料)的工作是像Oracle和大多數資料庫廠商所面臨的難題之一。我們正是要消除這個難題，並把資料直接交到分析師的手中。Hadoop和HPCC系統做到了這一點。這三個平臺都著眼於海量資料並提供支援。

　　開源的Hadoop已經在過去5年之中證明了自己是市場中最成功的資料處理平臺。目前Cloudera的執行長和Apache基金會的Doug Cutting是Hadoop的創始人，他曾在Yahoo工作過。

　　Hadoop將海量資料分解成較小的更易訪問的批量資料並分發到多臺伺服器來分析(敏捷是一個重要的屬性，就像你更容易消化被切成小塊的食物)Hadoop再處理查詢。

　　“Gartner和IDC的分析師認為海量資料的處理速度和處理各種資料的能力都是Hadoop吸引人們的地方”。Cloudera的產品副總裁Charles Zedlewski說到。

　　在Cutting和他的Yahoo團隊提出Hadoop專案之後，在Yahoo IT系統測試並廣泛使用了很多年。隨後他們將Hadoop釋出到開源社群，這使得Hadoop逐漸產品化。

▲

　　在Cutting和Yahoo在開發、測試並內部執行程式碼時，他們瞭解到使用起來還是很複雜的。這導致他們馬上意識到如果在未來提供周邊服務(例如提供直觀的使用者介面、定製部署和附加功能軟體)可賺取更多的資金。

　　在2009年Cloudera作為一家獨立公司開始運營，公司產品採用開源併產品化Hadoop分析引擎和Cloudera企業版(Cloudera Enterprise整合了更多的工具，包括Hive、HBase、Sqoop、Oozie、Flume、Avro、Zookeeper、Pig和Cloudera Desktop)。

　　Cloudera得到了大量投資者的青睞，這其中包括VMware的創始人和前執行長Diane Greene、Flickr的聯合創始人Caterina Fake、MySQL前執行長Marten Mickos、Linkedln總裁Jeff Weiner和Facebook CFO Gideon Yu。

　　自從Cloudera成立以來，只有少數的頂級公司和初創公司免費提供他們基於Hadoop開放原始碼架構製作的自己的版本。

　　這是一場真正的企業科技的競爭。就像在一場接力賽中，所有選手都必須使用同一種類型的接力棒(Hadoop的程式碼)。企業競爭主要集中在處理資料的速度、敏捷性和創造性上。這場競爭是迫使大多數企業在海量資料分析市場有所作為最有效的方法。

　　IBM提供了基於Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights 是用於分析和虛擬化海量資料的軟體和服務，這款新產品由 Apache Hadoop 提供技術支援。)基本版和企業版。但公司有更大的計劃。

　　IBM CEO Sam Palmisano表示IBM正在將新一代資料分析作為公司的研發重點，IBM在此專案上投資了1億美元。IBM院士和電腦科學研究室主任Laura Haas表示IBM實驗室的研究遠遠超出了海量資料的範圍，並已經著手”Exadata“分析研究。Watson就是IBM在資料海量資料研究的成果，Watson將用於更多用途，包括衛生保健、科學研究等。

其他Hadoop版本

　　MapR釋出了一個分散式檔案系統和MapReduce引擎，MapR還與儲存和安全的領導廠商EMC合作向客戶提供了Greenplum HD企業版Hadoop儲存元件。EMC Hadoop的另一個獨特之處在於它沒有采用官方版本的Apache程式碼，而是採用Facebook的Hadoop程式碼，後者在可擴充套件性和多站點部署上進行了優化。

　　另一家廠商 Platform Computing，Platform提供了與Apache Hadoop MapReduce程式設計模型完全相容的分散式分析平臺，並支援多種分散式檔案系統。

▲

　　SGI(Silicon Graphics International )提供基於SGI Rackable和CloudRack伺服器產品實施服務的Hadoop優化解決方案。

　　戴爾也開始出售預裝該開源資料處理平臺的伺服器。該產品成本隨支援選項不同而異，基礎配置價格在11.8萬美元至12.4萬美元之間，包含為期一年的Cloudera支援和更新，6個PowerEdge C2100伺服器(2個管理節點，1個邊緣節點和3個從站節點，以及6個戴爾PowerConnect 6248交換機)。

　　替代品浮出水面。包括1010data的雲服務、LexusNexis公司的Risk，該系統在10年間幫助LexusNexis公司分析大量的客戶資料，並在金融業和其他重要的行業中應用。LexusNexis最近還宣佈要在開源社群分享其核心技術以替代Hadoop。LexisNexis公司釋出一款開源的資料處理方案，該技術被稱為HPCC系統。

　　HPCC可以管理、排序並可在幾秒鐘內分上億條記錄。HPCC提供兩種資料處理和服務的方式——Thor Data Refinery Cluster和Roxy Rapid Data Delivery Cluster。Escalante表示如此命名是因為其能像Thor(北歐神話中司雷、戰爭及農業的神)一樣解決困難的問題，Thor主要用來分析和索引大量的Hadoop資料。而Roxy則更像一個傳統的關係型資料庫或資料倉庫，甚至還可以處理Web前端的服務。

　　LexisNexis CEO James Peck表示我們認為在當下這樣的舉動是對的，同時我們相信HPCC系統會將海量資料處理提升到更高高度。

▲

　　在2011年6月Yahoo和矽谷風險投資公司Benchmark Capital週二聯合宣佈，他們將聯合成立一家名為Hortonworks的新公司，接管被廣泛應用的資料分析軟體Hadoop的開發工作。

　　據一些前Yahoo員工透露，從商業角度來看Hortonworks將保持獨立運營，並發展其自身的商業版。

　　在轉型時期，Yahoo CTO Raymie Stata成為關鍵人物，他將負責公司所有IT專案的發展。Stata表示相對於Yahoo，在Hortonworks我們會投入更多的精力在Hadoop的工作和相關技術上，我們認為應加大對Hadoop的投資。我們會將一些關鍵人員指派到Hortonworks公司，但這既不是裁員也不是分拆。這是在加大對Hadoop的投入。Yahoo將繼續為Hadoop的發展做出更大的貢獻。

　　Stata解釋說，Yahoo一直有一個夢想，就是將Hadoop變為大資料分析軟體的行業標準。但是這必須將Hadoop商業化。Stata表示建立Hortonworks的主要原因是因為Yahoo已經看到了未來企業分析(感謝Hadoop 6年以來的發展)的未來，並知道該怎樣去做。我們看到海量資料分析將很快成為企業非常普遍的需求。

　　我們將Hadoop部署在企業之中，我不認為所有人都否定這樣的解決方案。我們要通過Hadoop為我們的股東創造價值。如果某一天Hadoop成為海量資料處理的行業標準，這將是對我們最好的獎賞。

大資料時代:Hadoop解決資料處理三瓶頸

大資料時代:Hadoop解決資料處理三瓶頸

從定性遙感到定量遙感——大資料時代的空間資料科學（轉）

【問題記錄】控制檯解析preview和response資料不一致→解決JS處理後臺返回的Long型資料精度丟失

大資料時代，掌握資料分析需要做到這幾點

大資料時代來臨，資料應用隨處可見

未經同意便“被公開” 大資料時代個人隱私資料如何保護？

談談大資料時代下的資料倉庫

資料時代不具備資料視覺化分析能力，你怎麼在工作中脫穎而出？

大資料資訊時代，如何防止資料洩露，大資料防洩漏解決方案

大資料Hadoop學習筆記（三）

大資料 hadoop 經典面試題 | 三

後 Hadoop 時代的大資料技術思考：資料即服務

大資料時代——為什麼用HADOOP

大資料學習之Hadoop如何高效處理大資料

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（一）——二次排序

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（四）——移動平均

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最大最小值、資料清洗ETL、分析氣

後Hadoop時代的大資料技術思考：資料即服務

大資料時代（三）大資料的隱患

Google引爆大資料時代的三篇論文

大資料時代:Hadoop解決資料處理三瓶頸

相關推薦