1. 程式人生 > >大資料時代:Hadoop解決資料處理三瓶頸

大資料時代:Hadoop解決資料處理三瓶頸

原文地址:http://www.lupaworld.com/article-213002-1.html

越來越多的大企業的資料集以及建立需要的一切技術,包括儲存、網路、分析、歸檔和檢索等,這些被認為是海量資料。這些大量資訊直接推動了儲存、伺服器以及安全的發展。同時也是給IT部門帶來了一系列必須解決的問題。

  資訊科技研究和分析的公司Gartner認為海量資料處理應該是將大量的不同種類以及結構化和非結構化的資料通過網路彙集到處理器和儲存裝置之中,並伴隨著將這些資料轉換為企業的商業報告。

  海量資料處理的三個主要因素:大容量資料、多格式資料和速度

  大容量資料(TB級、PB級甚至EB級):人們和機器製造的越來越多的業務資料對IT系統帶來了更大的挑戰,資料的儲存和安全以及在未來訪問和使用這些資料已成為難點。

  多格式資料:海量資料包括了越來越多不同格式的資料,這些不同格式的資料也需要不同的處理方法。從簡單的電子郵件、資料日誌和信用卡記錄,再到儀器收集到的科學研究資料、醫療資料、財務資料以及豐富的媒體資料(包括照片、音樂、視訊等)。

  速度:速度是指資料從端點移動到處理器和儲存的速度。

  Kusnetzky集團的分析師Dan Kusnetzky在其部落格表示“簡單的說,大資料是指允許組織建立、操作和管理的龐大的資料集和儲存設施工具”。這是否意味著將來將會出現比TB和PB更大的資料集嗎?供應商給出的迴應是“會出現”。

  他們也許會說“你需要我們的產品來管理和組織利用大規模的資料,只是想想繁雜大量的維護動態資料集帶來的麻煩就使人們頭疼“。此外海量資料的另外一個價值是它可以幫助企業在適當的時機作出正確決策。

  從歷史上看,資料分析軟體面對當今的海量資料已顯得力不從心,這種局面正在悄然轉變。新的海量資料分析引擎已經出現。如Apache的Hadoop、LexisNexis的HPCC系統和1010data(託管、海量資料分析的平臺供應商)的以雲端計算為基礎的分析服務。

  101data的高階副總裁Tim Negris表示海量資料的收集以及存放和利用海量資料實際上完全是兩回事。在做任何事前需要大量(準備資料)的工作是像Oracle和大多數資料庫廠商所面臨的難題之一。我們正是要消除這個難題,並把資料直接交到分析師的手中。Hadoop和HPCC系統做到了這一點。這三個平臺都著眼於海量資料並提供支援。

  開源的Hadoop已經在過去5年之中證明了自己是市場中最成功的資料處理平臺。目前Cloudera的執行長和Apache基金會的Doug Cutting是Hadoop的創始人,他曾在Yahoo工作過。

  Hadoop將海量資料分解成較小的更易訪問的批量資料並分發到多臺伺服器來分析(敏捷是一個重要的屬性,就像你更容易消化被切成小塊的食物)Hadoop再處理查詢。

  “Gartner和IDC的分析師認為海量資料的處理速度和處理各種資料的能力都是Hadoop吸引人們的地方”。Cloudera的產品副總裁Charles Zedlewski說到。

  在Cutting和他的Yahoo團隊提出Hadoop專案之後,在Yahoo IT系統測試並廣泛使用了很多年。隨後他們將Hadoop釋出到開源社群,這使得Hadoop逐漸產品化。
 


  在Cutting和Yahoo在開發、測試並內部執行程式碼時,他們瞭解到使用起來還是很複雜的。這導致他們馬上意識到如果在未來提供周邊服務(例如提供直觀的使用者介面、定製部署和附加功能軟體)可賺取更多的資金。

  在2009年Cloudera作為一家獨立公司開始運營,公司產品採用開源併產品化Hadoop分析引擎和Cloudera企業版(Cloudera Enterprise整合了更多的工具,包括Hive、HBase、Sqoop、Oozie、Flume、Avro、Zookeeper、Pig和Cloudera Desktop)。

  Cloudera得到了大量投資者的青睞,這其中包括VMware的創始人和前執行長Diane Greene、Flickr的聯合創始人Caterina Fake、MySQL前執行長Marten Mickos、Linkedln總裁Jeff Weiner和Facebook CFO Gideon Yu。

  自從Cloudera成立以來,只有少數的頂級公司和初創公司免費提供他們基於Hadoop開放原始碼架構製作的自己的版本。

  這是一場真正的企業科技的競爭。就像在一場接力賽中,所有選手都必須使用同一種類型的接力棒(Hadoop的程式碼)。企業競爭主要集中在處理資料的速度、敏捷性和創造性上。這場競爭是迫使大多數企業在海量資料分析市場有所作為最有效的方法。

  IBM提供了基於Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights 是用於分析和虛擬化海量資料的軟體和服務,這款新產品由 Apache Hadoop 提供技術支援。)基本版和企業版。但公司有更大的計劃。

  IBM CEO Sam Palmisano表示IBM正在將新一代資料分析作為公司的研發重點,IBM在此專案上投資了1億美元。IBM院士和電腦科學研究室主任Laura Haas表示IBM實驗室的研究遠遠超出了海量資料的範圍,並已經著手”Exadata“分析研究。Watson就是IBM在資料海量資料研究的成果,Watson將用於更多用途,包括衛生保健、科學研究等。

其他Hadoop版本

  MapR釋出了一個分散式檔案系統和MapReduce引擎,MapR還與儲存和安全的領導廠商EMC合作向客戶提供了Greenplum HD企業版Hadoop儲存元件 。EMC Hadoop的另一個獨特之處在於它沒有采用官方版本的Apache程式碼,而是採用Facebook的Hadoop程式碼,後者在可擴充套件性和多站點部署上進行了優化。

  另一家廠商 Platform Computing,Platform提供了與Apache Hadoop MapReduce程式設計模型完全相容的分散式分析平臺,並支援多種分散式檔案系統。
 


  SGI(Silicon Graphics International )提供基於SGI Rackable和CloudRack伺服器產品實施服務的Hadoop優化解決方案。

  戴爾也開始出售預裝該開源資料處理平臺的伺服器。 該產品成本隨支援選項不同而異,基礎配置價格在11.8萬美元至12.4萬美元之間,包含為期一年的Cloudera支援和更新,6個PowerEdge C2100伺服器(2個管理節點,1個邊緣節點和3個從站節點,以及6個戴爾PowerConnect 6248交換機)。

  替代品浮出水面。包括1010data的雲服務、LexusNexis公司的Risk,該系統在10年間幫助LexusNexis公司分析大量的客戶資料,並在金融業和其他重要的行業中應用。LexusNexis最近還宣佈要在開源社群分享其核心技術以替代Hadoop。LexisNexis公司釋出一款開源的資料處理方案,該技術被稱為HPCC系統。

  HPCC可以管理、排序並可在幾秒鐘內分上億條記錄。HPCC提供兩種資料處理和服務的方式——Thor Data Refinery Cluster和Roxy Rapid Data Delivery Cluster。Escalante表示如此命名是因為其能像Thor(北歐神話中司雷、戰爭及農業的神)一樣解決困難的問題,Thor主要用來分析和索引大量的Hadoop資料。而Roxy則更像一個傳統的關係型資料庫或資料倉庫,甚至還可以處理Web前端的服務。

  LexisNexis CEO James Peck表示我們認為在當下這樣的舉動是對的,同時我們相信HPCC系統會將海量資料處理提升到更高高度。
 


  在2011年6月Yahoo和矽谷風險投資公司Benchmark Capital週二聯合宣佈,他們將聯合成立一家名為Hortonworks的新公司,接管被廣泛應用的資料分析軟體Hadoop的開發工作。

  據一些前Yahoo員工透露,從商業角度來看Hortonworks將保持獨立運營,並發展其自身的商業版。

  在轉型時期,Yahoo CTO Raymie Stata成為關鍵人物,他將負責公司所有IT專案的發展。Stata表示相對於Yahoo,在Hortonworks我們會投入更多的精力在Hadoop的工作和相關技術上,我們認為應加大對Hadoop的投資。我們會將一些關鍵人員指派到Hortonworks公司,但這既不是裁員也不是分拆。這是在加大對Hadoop的投入。Yahoo將繼續為Hadoop的發展做出更大的貢獻。

  Stata解釋說,Yahoo一直有一個夢想,就是將Hadoop變為大資料分析軟體的行業標準。但是這必須將Hadoop商業化。Stata表示建立Hortonworks的主要原因是因為Yahoo已經看到了未來企業分析(感謝Hadoop 6年以來的發展)的未來,並知道該怎樣去做。我們看到海量資料分析將很快成為企業非常普遍的需求。

  我們將Hadoop部署在企業之中,我不認為所有人都否定這樣的解決方案。我們要通過Hadoop為我們的股東創造價值。如果某一天Hadoop成為海量資料處理的行業標準,這將是對我們最好的獎賞。


相關推薦

資料時代:Hadoop解決資料處理瓶頸

原文地址:http://www.lupaworld.com/article-213002-1.html 越來越多的大企業的資料集以及建立需要的一切技術,包括儲存、網路、分析、歸檔和檢索等,這些被認為是海量資料。這些大量資訊直接推動了儲存、伺服器以及安全的發展。同時也是給IT

從定性遙感到定量遙感——資料時代的空間資料科學(轉)

原文地址:http://blog.sciencenet.cn/blog-3247241-1073425.html 定性遙感 類似於看圖識物,通過將遙感影像當做特殊的“圖片”,通過諸如計算機的影象識別、分類的方法去進行分析和處理得到我們所需要的Knowledge。比如簡單的土地利用分類、面向物件的分割與分類

【問題記錄】控制檯解析preview和response資料不一致→解決JS處理後臺返回的Long型資料精度丟失

問題描述: 後端返回資料preview和response不一致 (翻譯成專業術語就是:JS處理後臺返回的Long型資料精度丟失) 問題分析: JS在處理返回資料型別是Long的時候,精度會丟失一部分!!! 問題原因: JS內建有32位整數,而number型

資料時代,掌握資料分析需要做到這幾點

這些年來,隨著進入大資料時代,各行各業均有一個詞頻頻被提到,那就是資料分析。那麼資料分析究竟是什

資料時代來臨,資料應用隨處可見

序:大資料之所以可能成為一個時代,在很多程度上是因為這是一個可以由社會各界廣泛參與,八面出擊,處處結果的社會運動,而不僅僅是少數專家學者的研究物件。資料產生於各行各業,這場變革也必將影響到各行各業,因此,機遇也蘊含於各行各業。致力於IT創業的人們緊緊盯著這個市場,洞察著每一個

未經同意便“被公開” 資料時代個人隱私資料如何保護?

近日,大資料洩露個人隱私的一個案例引發廣發關注——一款航旅類App測試中的“虛擬客艙”功能可檢視

談談資料時代下的資料倉庫

大資料背景 眾所周知,當前是一個數據爆炸的時代,大資料背景下的資料治理是每一個企業應該重點考慮的問題。例如金融機構、電信運營商這種“傳統”行業每日需要處理的資料量都已經十分巨大了,更不必說掌握著上千萬日活的網際網路公司。 傳統行業的資料治理 以電信運營

資料時代不具備資料視覺化分析能力,你怎麼在工作中脫穎而出?

資料視覺化和資訊視覺化都是視覺化的一種方式,資料視覺化將資料庫中每一個數據項作為單個圖元元素表示,大量的資料集構成資料影象,同時將

資料資訊時代,如何防止資料洩露,資料防洩漏解決方案

隨著大資料時代的到來,資料已經成為與物質資產和人力資本同樣重要的基礎生產要素,大資料正在重塑世界新格局。 伴隨著網際網路時代頻繁上演的資料洩露事件,不僅給企業及個人帶來了一定的危機,同時也對國家造成了一定的損失,資料資訊保安也愈演愈烈,那麼,大資料時代,[資料資訊保安]應該何去何從? 為什麼說資料資訊保安

資料Hadoop學習筆記(

1.HDFS架構講解 2.NameNode啟動過程 3.YARN架構組建功能詳解 4.MapReduce 程式設計模型 HDFS架構講解 源自谷歌的GFS論文 HDFS: *抑鬱擴充套件的分散式系統 *執行在大量普通的鏈家機器上,提供容錯機制 *為

資料 hadoop 經典面試題 |

1、MapReduced的工作流程 輸入分片(inputsplit):在進行map計算之前,mapreduce會根據輸入檔案計算輸入分片(input split),每個輸入分片(input split)針對一個map任務;儲存的並非資料本身,而是一個分片長度和一個記錄資料的

Hadoop 時代資料技術思考:資料即服務

備註:此部落格轉自搜狐科技部落格,原作者地址請點選此處 標題:後 Hadoop 時代的大資料技術思考:資料即服務 1. Hadoop 的神話正在破滅 IBM leads BigInsights for Hadoop out behind barn. Shot

資料時代——為什麼用HADOOP

什麼叫大資料 “大”,說的並不僅是資料的“多”!不能用資料到了多少TB ,多少PB 來說。 對於大資料,可以用四個詞來表示:大量,多樣,實時,價值。 大量:這個大家都知道,想百度,淘寶,騰訊,Facebook,Twitter等網站上的一些資訊,這肯定算是大資料了,

資料學習之Hadoop如何高效處理資料

Hadoop與Google一樣,都是小孩命名的,是一個虛構的名字,沒有特別的含義。從計算機專業的角度看,Hadoop是一個分散式系統基礎架構,由Apache基金會開發。Hadoop的主要目標是對分散式環境下的“大資料”以一種可靠、高效、可伸縮的方式處理。設想一個場景,假如您需

資料演算法-Hadoop/Spark資料處理技巧》讀書筆記(一)——二次排序

寫在前面: 在做直播的時候有同學問Spark不是用Scala語言作為開發語言麼,的確是的,從網上查資料的話也會看到大把大把的用Scala編寫的Spark程式,但是仔細看就會發現這些用Scala寫的文章

資料演算法-Hadoop/Spark資料處理技巧》讀書筆記(四)——移動平均

移動平均:對時序序列按週期取其值的平均值,這種運算被稱為移動平均。典型例子是求股票的n天內的平均值。 移動平均的關鍵是如何求這個平均值,可以使用Queue來實現。 public class MovingAverageDriver { public

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最最小值、資料清洗ETL、分析氣

Hadoop Mapreduce 演算法彙總  第52課:Hadoop鏈式MapReduce程式設計實戰...1 第51課:Hadoop MapReduce多維排序解析與實戰...2 第50課:HadoopMapReduce倒排索引解析與實戰...3 第49課:Hado

Hadoop時代資料技術思考:資料即服務

1. Hadoop 的神話正在破滅 IBM leads BigInsights for Hadoop out behind barn. Shots heard IBM has announced the retirement of the ba

資料時代資料的隱患

       大資料中充斥著大量的資訊,大量資訊的相互關聯能產生意想不到的效果,能預測曾經只能天馬行空的未來。資料的海洋能讓人們在其中遠航,也會使人們在其中迷失方向,能充分利用海洋資源,也很可能被大

Google引爆資料時代篇論文

談到Hadoop的起源,就不得不提Google的三駕馬車:Google FS、MapReduce、BigTable。雖然Google沒有公佈這三個產品的原始碼,但是他釋出了這三個產品的詳細設計論文,奠定了風靡全球的大資料演算法的基礎! 一、GFS——2003 2003年,G