1. 程式人生 > >2016全球大資料戰略版圖剖析(1):架構篇

2016全球大資料戰略版圖剖析(1):架構篇

本文為數盟原創文章,轉載時請註明出處為“數盟社群”。

上圖是2016大資料版圖英文完整版。

為了更好的使大家瞭解行業現狀,我們整理出了對應公司的中文介紹,以饗讀者。

本次介紹的公司為如圖所示的部分公司,請悉知:

微信截圖_20160422172859

基礎設施

1.基於Hadoop

Cloudera是Hadoop生態系統中,規模最大、知名度最高的公司。企業如何使用和管理Hadoop的產品,如何挖掘它的價值,推動自家業務增長, Cloudera就是提供這方面的專業服務,並從中獲利。Cloudera出售基於Hadoop的軟體,也釋出自家版本的Hadoop產品,幫助訂閱客戶管理資料。

Hadoop資料管理軟體與服務提供商Cloudera已完成新一輪融資,募集資金6500萬美元,估值達到7億美元。

Hortonworks致力於通過可最大化利用所有資料——包括動態資料和靜態資料——價值的互聯資料平臺 (Connected Data Platforms),以推動可操作情報的發展。Hortonworks 的開放式互聯平臺可幫助企業管理所有資料、動態資料以及靜態資料,為您的組織啟用可操作情報。

MapR公司是美國加州的聖何塞市的一個企業管理軟體公司,主要專注於可用性和資料安全優化和開發、銷售Apache Hadoop的衍生軟體,對Apache Hadoop主要貢獻有:HBase、Pig (程式語言)、Apache Hive以及Apache ZooKeeper。MapR的Apache Hadoop發行版的要求提供完整的資料保護、無單點故障,這大大的提高了其效能與易用性。

Pivotal 是由通用電器、EMC 和 VMware 聯合組成的合資公司,但是獨立於三個公司進行運營。這樣可以讓 Pivotal 以更大的靈活性進行運作,包括使用開源方式運作軟體。Pivotal 同時宣佈其已經加入 Open Data Platform 開放資料平臺,這是一個目前有 14 個公司組成的組織,包括 Hortonworks、GE、IBM、Verizon 等等,這個組織主要是提供 Hadoop 的企業版。

Pivotal公司是將原有EMC和VMware的一些優良的軟體資產進行整合,重要產品包括資料分析:GreenPlum資料倉庫、Hadoop、記憶體計算GemFire等;應用開發:Spring中介軟體、MySQL Dev等;雲自動化:Cloud Foundry軟體。

IBM InfoSphere 平臺提供了資料整合、資料倉庫、主資料管理、大資料和資訊治理等解決方案。

2011年5月,IBM正式推出InfoSphere大資料分析平臺。這是目前業界唯一的專門針對大資料分析的平臺產品。目前業內主流的做法是在已有產品中嵌入一些大資料功能。

InfoSphere大資料分析平臺包括 BigInsights和Streams,二者互補,Biglnsights對大規模的靜態資料進行分析,它提供多節點的分散式計算,可以隨時增加節點,提升資料處理能力。Streams採用記憶體計算方式分析實時資料。InfoSphere大資料分析平臺還集成了資料倉庫、資料庫、資料整合、業務流程管理等元件。

BlueData是一家為大資料部署生產虛擬化技術的公司。BlueData有一個名為EPIC的軟體平臺,讓企業能夠在虛擬環境中建立Hadoop和Spark簇。BlueData,由一批VMware的校友創辦,目前已經籌集了總計3900萬美元。

Jethro SQL-on-Hadoop BI-on-Hadoop、大資料、互動式商業智慧,SQL查詢加速度和介於兩者之間的任何服務。

2.雲Hadoop

Amazon Web Services AWS是亞馬遜公司旗下雲端計算服務平臺,為全世界範圍內的客戶提供雲解決方案。AWS面向使用者提供包括彈性計算、儲存、資料庫、應用程式在內的一整套雲端計算服務,幫助企業降低IT投入成本和維護成本。

AWS提供了一整套基礎設施和應用程式服務,使您幾乎能夠在雲中執行一切應用程式:從企業應用程式和大資料專案,到社交遊戲和移動應用程式。AWS面向使用者提供包括彈性計算、儲存、資料庫、應用程式在內的一整套雲端計算服務,能夠幫助企業降低IT投入成本和維護成本。

Microsoft Azure是微軟基於雲端計算的作業系統,主要目標是為開發者提供一個平臺,幫助開發可執行在雲伺服器、資料中心、Web和PC上的應用程式。雲端計算的開發者能使用微軟全球資料中心的儲存、計算能力和網路基礎服務。Azure服務平臺包括了以下主要元件:Windows Azure;Microsoft SQL資料庫服務,Microsoft .Net服務;用於分享、儲存和同步檔案的Live服務;針對商業的Microsoft SharePoint和Microsoft Dynamics CRM服務。

microsoft azure服務平臺現在已經包含如下功能:網站、虛擬機器、雲服務、移動應用服務、大資料支援以及媒體功能的支援。

Google cloud platform谷歌雲平臺是由谷歌提供的雲端計算平臺,雲平臺提供了從簡單的網站到複雜的應用程式開發構建產品的一系列程式。

谷歌雲平臺是谷歌工作中的一套企業解決方案,並提供一組模組基於雲服務的主機開發工具。例如,主機和計算、雲端儲存、資料儲存、翻譯API和預測API。

Cazena通過雲服務提供大資料分析,立志使大資料分析成為一項簡單易行的服務。Cazena是一家幫助企業處理資料的新平臺,已獲2000萬美元B輪融資,融資由Formation 8領投。其目標是極大簡化商業中的大資料程序處理。

treasure data提供結合Hadoop和託管在AWS上的資料倉庫服務產品,目前已經籌得500萬美元,這是一筆來自Sierra Ventures的投資。一旦進入Treasure Data平臺,使用者就可以通過SQL或者Pig進行查詢,也可以在其上執行MapReduce作業,然後將其打造成一款商業智慧工具,甚至是“黃金映象”的資料庫。它和託管在AWS上的資料倉庫服務—— 亞馬遜自家出品的Redshift的區別是:AWS的各種大資料服務像S3,Redshift和彈性MapReduce都是像積木一樣拼湊在一起,Treasure Data在單一平臺上提供了一個完整的包。

Altiscale由Raymie Stata(前雅虎CTO)創立,Hadoop雲服務模式HaaS(Hadoop as a Service)提供商,現主要面對有經驗的Hadoop使用者。近日(2013年6月)Altiscale募集了1200萬美元A輪融資。

Altiscale軟體陣容包括MapReduce、HDFS、Apache Hive以及Fuse。其方案支援Java、Python、R、Ruby、C/C++以及Apache Pig。在資料管理方面,企業使用者可以使用Apache Flume、Scribe、Kafka等資料連線工具。Altiscale的收費模式像是現今移動運營商普遍採用的月套餐模式。

qubole初創公司Qubole由Facebook前工程師Ashish Thusoo和Joydeep Sen Sarma聯合創立,他們也是開發Hadoop查詢語言Hive的兩位關鍵人物。不過Qubole的產品是託管在AWS雲端計算平臺之上,併為使用者提供可管理的Hive服務。

近日,Qubole宣佈獲得了700萬美元的A輪融資,該輪融資由Charles River Ventures和Lightspeed Ventures引導,不過該輪融資包含了2011年的種子投資。Qubole服務託管在亞馬遜AWS雲端計算平臺之上,使用者可以在其上執行各種Hadoop Jobs,包括Hive、MapReduce以及Pig。

3.spark

Databricks提供在雲端基於Spark構建的大資料平臺,另外還包括培訓、給其他國外很多公司提供最高層的技術支援等。近期depabricks得到來自Andreessen Horowitz的1400萬美元投資。

GridGain是一個開源的網格計算框架,專著於提供平行計算能力,能夠與JBoss和Spring相整合。GridGain 是從網格計算進入到雲端計算平臺,是一種雲端計算框架,可以讓Java開發者編寫自己本地的雲端計算應用。

GridGain不僅可以完成本職工作-記憶體計算/資料網格,還提供了:GGFS(GridGain In-Memory File System),類似Spark生態圈中的Tachyon,能夠加速MapReduce任務的執行;完整的ACID和事務支援,可以作為記憶體資料庫;流式資料/事件處理,可以作為CEP事件處理器。

Tachyon是一個以記憶體為核心的開源分散式儲存系統,也是目前發展最迅速的開源大資料專案之一。Tachyon為不同的大資料計算框架(如Apache Spark,Hadoop MapReduce, Apache Flink等)提供可靠的記憶體級的資料共享服務。此外,Tachyon還能夠整合眾多現有的儲存系統(如Amazon S3, Apache HDFS, RedHat GlusterFS, OpenStack Swift等),為使用者提供統一的、易用的、高效的資料訪問平臺。

4.叢集服務

Kubernetes是Google開源的容器叢集管理系統。它構建Ddocker技術之上,為容器化的應用提供資源排程、部署執行、服務發現、擴容縮容等整一套功能,本質上可看作是基於容器技術的mini-PaaS平臺。

HPCC (High Performance Computing Cluster) 是一個大規模並行處理計算平臺,用於解決大資料問題,類似 Hadoop 平臺。HPCC 是一個用來叢集伺服器並進行大資料分析的系統,HPCC 在 LexisNexis 內部使用多年,是一個成熟可靠的系統,包含一系列的工具和名為 ECL 的高階程式語言以及資料倉庫工具。

Docker 是一個開源的應用容器引擎,讓開發者可以打包他們的應用以及依賴包到一個可移植的容器中,然後釋出到任何流行的 Linux 機器上,也可以實現虛擬化。容器是完全使用沙箱機制,相互之間不會有任何介面(類似 iPhone 的 app)。幾乎沒有效能開銷,可以很容易地在機器和資料中心中執行。最重要的是,他們不依賴於任何語言、框架包括系統。Docker自2013年以來非常火熱,無論是從 github 上的程式碼活躍度,還是Redhat在RHEL6.5中整合對Docker的支援, 就連 Google 的 Compute Engine 也支援 docker 在其之上執行。

mesosphere由前 Twitter 與 Airbnb 的工程師創立,他們利用了在原僱主處建設資料中心的經驗以及所採用的開源工具,開發出了一套資料中心資源的管理系統Apache Mesos,讓所有資源整合為大資源池,把資料中心當作一臺大計算機來進行管理。Mesos可以實現應用在資料中心跨伺服器的高效部署(資源分配與回收)自動化,而Mesosphere則是為了加速Apache Mesos的推廣。半年前這家初創企業剛剛因為這一創意獲得了A16Z等1050萬美元的A輪融資。

CoreOS是一個基於Linux 核心的輕量級作業系統,為了計算機叢集的基礎設施建設而生,專注於自動化,輕鬆部署,安全,可靠,規模化。作為一個作業系統,CoreOS 提供了在應用容器內部署應用所需要的基礎功能環境以及一系列用於服務發現和配置共享的內建工具。

Pepperdata是管理大量資料的一個開放原始碼的平臺(大資料)。主要目標是資源使用視覺化,更快診斷問題;SLA任務控制,保證SLA任務;資源更合理利用,提高叢集吞吐量。近期宣佈了1500萬美元的B系列融資。

StackIQ精於自動化和管理大資料叢集,目前得到了600萬美元的B系列融資。專注領域包括雲端計算、叢集、系統管理大資料,Enterprise Linux,Hadoop,OpenStack,CloudStack、MapR,Cloudera,Hortonworks,資料中心自動化、網路級,大型基礎設施,HPC,軟體定義自動化,Linux安裝等。

5.NoSQL databases

Amazon DynamoDB 是一項快速靈活的 NoSQL 資料庫服務,適合所有需要一致性且延遲低於 10 毫秒的任意規模的應用程式。它是完全託管的雲資料庫,支援文件和鍵值儲存模型。靈活的資料模型和可靠的效能使其成為移動、Web、遊戲、廣告技術、物聯網和眾多其他應用的不二之選。Amazon DynamoDB被設計成用來解決資料庫管理、效能、可擴充套件性和可靠性等核心問題。

google cloud platform

oracle甲骨文公司,全稱甲骨文股份有限公司(甲骨文軟體系統有限公司),是全球最大的企業級軟體公司,總部位於美國加利福尼亞州的紅木灘。1989年正式進入中國市場。2013年,甲骨文已超越 IBM ,成為繼 Microsoft 後全球第二大軟體公司。

甲骨文公司產品主要有以下幾類: 1.伺服器及工具:

資料庫伺服器:2013年最新版本Oracle 12C。

應用伺服器:Oracle Application Server。

開發工具:OracleJDeveloper,Oracle Designer,Oracle Developer,等等。

2.企業應用軟體

企業資源計劃(ERP)軟體。已有10年以上的歷史。2005年,併購了開發企業軟體的仁科軟體公司(PeopleSoft)以增強在這方面的競爭力。

客戶關係管理(CRM)軟體。自1998年開始研發這種軟體。2005年,併購了開發客戶關係管理軟體的希柏軟體公司(Siebel)。

  1. Oracle職業發展力計劃(Oracle WDP)

Oracle WDP 全稱為Oracle Workforce Development Program,是Oracle (甲骨文)公司專門面向學生、個人、在職人員等群體開設的職業發展力課程。Oracle的技術廣泛應用於各行各業,其中電信、電力、金融、政府及大量製造業都需要Oracle技術人才,Oracle公司針對職業教育市場在全球推廣的專案,其以低廉的成本給這部分人群提供Oracle技術培訓,經過系統化的實訓,讓這部分人群能夠迅速掌握Oracle最新的核心技術,並能勝任企業大型資料庫管理、維護、開發工作。

2010年,甲骨文稱其第四財季總利潤為23.6億美元,每股46美分。

Mark Logic公司的拳頭產品MarkLogic Server是以文件為中心的領域專用資料庫,專門針對半結構化和非結構化資料進行設計和優化,能夠實現TB級非結構化資料資源的全文檢索。MarkLogic Server支援針對Web內容、XML文件和JSON內容的RESTFul和HTTP請求。在資料模型組織方面,MarkLogic Server採用XML樹狀結構組織,資料查詢和檢索使用的DML和DDL語言為XQuery,此外,Mark Logic 還是XQuery標準發展和應用的推動者。

MongoDB是一個基於分散式檔案儲存的資料庫。由C++語言編寫。旨在為WEB應用提供可擴充套件的高效能資料儲存解決方案。

MongoDB 是一個介於關係資料庫和非關係資料庫之間的產品,是非關係資料庫當中功能最豐富,最像關係資料庫的。他支援的資料結構非常鬆散,是類似jsonbson格式,因此可以儲存比較複雜的資料型別。Mongo最大的特點是他支援的查詢語言非常強大,其語法有點類似於面向物件的查詢語言,幾乎可以實現類似關係資料庫單表查詢的絕大部分功能,而且還支援對資料建立索引

DataStax 是一家為大型公司提供 “NoSQL” 資料庫的技術公司,客戶包括 eBay、Adobe 以及 Netflix 等。DataStax是一家位於加州的初創公司,提供了一個商業版本的Apache Cassandra NoSQL資料庫,近日該公司獲得了4500萬美元的D輪融資,該輪融資由Scale Ventures引導,這是一位新投資者,同時還有DFJ Growth和Next World Capital,現有的投資者Lightspeed Venture Partners、Crosslink Capital以及Meritech Capital Partners也進行了參投。從2010年釋出產品以來,DataStax已經獲得了總計8370萬美元的風險投資。

Aerospike是一個以分散式為核心基礎,可基於行隨機存取記憶體中索引、資料或SSD儲存中資料的資料庫。Aerospike主要用於廣告業務,作為一個伺服器端的cookie儲存來使用,在這種場景下讀取和寫入效能是至關重要的。

CouchBase是NoSQL資料庫,是開源、免費的NoSQL文件型資料庫,使用了JSON作為其文件格式。基本上CouchBase結合了Apache CouchDB和MemBase兩種資料庫的功能特性而構建的。CouchDB的面向文件的資料模型、索引和查詢功能與MemBase分散式鍵值資料模型相結合、高效能、易於擴充套件、始終保持接通的能力,這就是CouchBase。

SequoiaDB巨杉資料庫是一款支援SQL、高併發、實時性、分散式、可擴充套件、靈活儲存的操作型NewSQL資料庫(Operational NewSQL Database)。作為商業化的資料庫產品,現已開源。SequoiaDB企業版還具有一系列企業級特性,幫助企業更好落地大資料。

Redis Lab是加速非結構化資料應用的開發程序。Redis可以執行在公有云上,也提供本地部署,容器分發的模式。通過OpenPOWER提供的CAPI技術,Redis同樣可以在flash上執行,在記憶體中執行是一樣的,這意味著,得到非常大的資源節省,成本節省可以達到70%。

influxdata是一個強大的實時監控系統,分為4個部分, Telegraf負責收集監控資料,並將資料輸出到influxDB資料庫,它支援多種型別的資料輸入,比如httpjson、MySQL、rabbitMQ等等。InfluxDB是time-series data資料庫,負責高效處理實時資料。Chronograf是圖形展示工具,負責從InfluxDB收集資料,並將資料圖表以web的形式釋出。Kapacitor是InfluxDB的資料處理引擎。Enterprise Manager是正在開發的UI系統,用於更加廣泛的圖形展示。

6.NewSQL databases

SAP HANA是一個軟硬體結合體,提供高效能的資料查詢功能,使用者可以直接對大量實時業務資料進行查詢和分析,而不需要對業務資料進行建模、聚合等。SAP記憶體資料庫的資料並不是只在記憶體裡,也會不停寫到硬盤裡,這就用到複製伺服器Replication Server,包括Log-based,Trigger-based和ETL-based。這些複製伺服器需要用到Sybase Replication Server、Sybase Replication Server Agent、Sybase Adaptive Server EntERPrise (ASE,適用性伺服器)等,以及HANA Load Controller和BO Data Services。

Clustrix NewSQL資料庫初創公司 Clustrix最近獲得1650萬美元的C輪融資,該輪融資的投資方包括紅杉資本(Sequoia Capital)、U.S. Venture Partners以及ATA Ventures。而截至目前為止,這家成立於2005年的創新公司總融資金額已經高達4650萬美元。

Clustrix在兩年前曾推出了一個可高度擴容的伸縮式資料庫解決方案Sierra,它提供了和SQL資料庫相似的功能,同時還可以對資料儲存進行擴充套件。Clustrix Sierra在業內被稱之為雲端計算時代的MySQL。

Pivotal公司是將原有EMC和VMware的一些優良的軟體資產進行整合,重要產品包括資料分析:GreenPlum資料倉庫、Hadoop、記憶體計算GemFire等;應用開發:Spring中介軟體、MySQL Dev等;雲自動化:Cloud Foundry軟體。

Paradigm是全球石油和天然氣工業軟體啟用解決方案的最大的獨立開發者。易於使用的技術和工作流程,為客戶提供更深入的瞭解,結合前沿科學,高效能的桌上型電腦和叢集計算、可擴充套件的資料管理,提供高度精確的結果和生產力。

NuoDB最近釋出了雲資料庫管理系統,該系統支援SQL查詢,ACID事務(原子性、一致性、隔離性、永續性),更可方便地擴充套件至多個節點。它是為一些公司而專門設計的,這些公司需要將資料庫擴充套件至多個伺服器,並且不想失去關係代數和事務保障的能力。NuoDB被設計成便於擴充套件、可容錯、高效能——提供比其他關係型資料更優秀的單節點效能。

MemSQL前Facebook工程師創辦的MemSQL公司獲500萬美元投資。號稱世界上最快的分散式關係型資料庫,相容MySQL但快30倍,能實現每秒150萬次事務。原理是僅用記憶體並將SQL預編譯為C++。

MariaDB資料庫管理系統是MySQL的一個分支,主要由開源社群在維護,採用GPL授權許可 MariaDB的目的是完全相容MySQL,包括API和命令列,使之能輕鬆成為MySQL的代替品。在儲存引擎方面,使用XtraDB(英語:XtraDB)來代替MySQL的InnoDB。 MariaDB由MySQL的創始人Michael Widenius(英語:Michael Widenius)主導開發,他早前曾以10億美元的價格,將自己建立的公司MySQL AB賣給了SUN,此後,隨著SUN被甲骨文收購,MySQL的所有權也落入Oracle的手中。MariaDB名稱來自Michael Widenius的女兒Maria的名字。

MariaDB基於事務的Maria儲存引擎,替換了MySQL的MyISAM儲存引擎,它使用了Percona的 XtraDB,InnoDB的變體,分支的開發者希望提供訪問即將到來的MySQL 5.4 InnoDB效能。這個版本還包括了 PrimeBase XT (PBXT) 和 FederatedX儲存引擎。

VoltDB是一個記憶體中的開源OLTP SQL資料庫,能夠保證事務的完整性(ACID)。它是Postgres和Ingres聯合創始人Mike Stonebraker領導開發的下一代開源資料庫管理系統。它能在現有的廉價伺服器叢集上實現每秒數百萬次資料處理。VoltDB通過SQL引擎把資料分發給叢集伺服器的每個CPU進行處理。 每個單執行緒分割槽自主執行,消除鎖定和閂鎖的需求。 VoltDB可以通過簡單的在叢集中增加附加節點的方式實現效能的線性增加。

Splice

CitusData由YC孵化器投資的一家資料庫初創公司,其旗艦產品為CitusDB,CitusData在2013年2月實現了CitusDB在Hadoop資料上的快速SQL查詢。CitusData表示在未來會將CitusDB擴充套件到MongoHQ及其它資料庫產品,特別是關係型資料庫、MongoDB、Amazon S3等產品平臺。

Deepdb

Trafodion是一個構建在Hadoop/HBase基礎之上的關係型資料庫,它完全開源免費。Trafodion能夠完整地支援ANSI SQL,並且提供ACID事務保證。和傳統關係資料庫不同的地方在於,Trafodion利用底層Hadoop的橫向擴充套件能力,可以提供極高的擴充套件性。而傳統資料庫,比如MySQL,在資料量達到P級別的時候就很難處理。而Trafodion卻可以藉助HBase的擴充套件性,僅通過增加普通Linux伺服器就可以增加計算和儲存能力,進而支援大資料應用。

Cockroach Labs作為一個分散式資料庫,CockroachDB有一個鮮明的特性,就是支援ACID事務。CockroachDB是Google備受矚目的Spanner的開源模仿。CockroachDB團隊創業獲得625萬美元投資。