1. 程式人生 > >大資料處理必備的十大工具!

大資料處理必備的十大工具!

大資料的日益增長,給企業管理大量的資料帶來了挑戰的同時也帶來了一些機遇。下面是用於資訊化管理的大資料工具列表:

1.ApacheHive

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

Hive是一個建立在hadoop上的開源資料倉庫基礎設施,通過Hive可以很容易的進行資料的ETL,對資料進行結構化處理,並對Hadoop上大資料檔案進行查詢和處理等。Hive提供了一種簡單的類似SQL的查詢語言—HiveQL,這為熟悉SQL語言的使用者查詢資料提供了方便。

2JaspersoftBI套件

640?wx_fmt=png&wxfrom=5&wx_lazy=1

Jaspersoft包是一個通過資料庫列生成報表的開源軟體。行業領導者發現Jaspersoft軟體是一流的,許多企業已經使用它來將SQL錶轉化為pdf,,這使每個人都可以在會議上對其進行審議。另外,JasperReports提供了一個連線配置單元來替代HBase。

3.1010data

0?wx_fmt=png

1010data創立於2000年,是一個總部設在紐約的分析型雲服務,旨在為華爾街的客戶提供服務,甚至包括NYSEEuronext、遊戲和電信的客戶。它在設計上支援可伸縮性的大規模並行處理。它也有它自己的查詢語言,支援SQL函式和廣泛的查詢型別,包括圖和時間序列分析。這個私有云的方法減少了客戶在基礎設施管理和擴充套件方面的壓力。

4.Actian

0?wx_fmt=png

Actian之前的名字叫做IngresCorp,它擁有超過一萬客戶而且正在擴增。它通過Vectorwise以及對ParAccel實現了擴充套件。這些發展分別導致了ActianVector和ActianMatrix的建立。它有Apache,Cloudera,Hortonworks以及其他發行版本可供選擇。

5.PentahoBusinessAnalytics

0?wx_fmt=png

從某種意義上說,Pentaho與Jaspersoft相比起來,儘管Pentaho開始於報告生成引擎,但它目前通過簡化新來源中獲取資訊的過程來支援大資料處理。Pentaho的工具可以連線到NoSQL資料庫,例如MongoDB和Cassandra。PeterWayner指出,PentahoData(一個更有趣的圖形程式設計介面工具)有很多內建模組,你可以把它們拖放到一個圖片上,然後將它們連線起來。

6.KarmasphereStudioandAnalyst

0?wx_fmt=png

KarsmasphereStudio是一組構建在Eclipse上的外掛,它是一個更易於建立和執行Hadoop任務的專用IDE。在配置一個Hadoop工作時,Karmasphere工具將引導您完成每個步驟並顯示部分結果。當出現所有資料處於同一個Hadoop叢集的情況時,KarmaspehereAnalyst旨在簡化篩選的過程,。

7.Cloudera

0?wx_fmt=png

Cloudera正在努力為開源Hadoop,提供支援,同時將資料處理框架延伸到一個全面的“企業資料中心”範疇,這個資料中心可以作為首選目標和管理企業所有資料的中心點。Hadoop可以作為目標資料倉庫,高效的資料平臺,或現有資料倉庫的ETL來源。企業規模可以用作整合Hadoop與傳統資料倉庫的基礎。Cloudera致力於成為資料管理的“重心”。

8.HPVerticaAnalyticsPlatformVersion7

0?wx_fmt=png

HP提供了用於載入Hadoop軟體發行版所需的參考硬體配置,因為它本身並沒有自己的Hadoop版本。計算機行業領袖將其大資料平臺架構命名為HAVEn(意為Hadoop,Autonomy,Vertica,EnterpriseSecurityand“n”applications)。惠普在Vertica7版本中增加了一個“FlexZone”,允許使用者在定義資料庫方案以及相關分析、報告之前探索大型資料集中的資料。這個版本通過使用HCatalog作為元資料儲存,與Hadoop整合後為使用者提供了一種探索HDFS資料表格檢視的方法。

9.TalendOpenStudio

0?wx_fmt=png

Talend’s工具用於協助進行資料質量、資料整合和資料管理等方面工作。Talend是一個統一的平臺,它通過提供一個統一的,跨企業邊界生命週期管理的環境,使資料管理和應用更簡單便捷。這種設計可以幫助企業構建靈活、高效能的企業架構,在次架構下,整合並啟用百分之百開源服務的分散式應用程式變為可能。

10.ApacheSpark

0?wx_fmt=png

ApacheSpark是Hadoop開源生態系統的新成員。它提供了一個比Hive更快的查詢引擎,因為它依賴於自己的資料處理框架而不是依靠Hadoop的HDFS服務。同時,它還用於事件流處理、實時查詢和機器學習等方面。

來源:TechTarget

0

大資料週刊

郵箱:[email protected]

電話:010-57524293

0

眾論大資料 引領大時代

長按二維碼關注

相關推薦

資料處理必備工具

大資料的日益增長,給企業管理大量的資料帶來了挑戰的同時也帶來了一些機遇。下面是用於資訊化管理的大

資料基礎必備資料是什麼?

隨著網際網路時代的到來,顛覆了傳統行業的盈利模式,大家都把注意力集中在了網際網路上。前幾年大資料時代的來臨,為各行各業提供了更加開闊的資料用作分析。 百科對於大資料是這樣解釋的:麥肯錫全球研究所給出的定義是:一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料

資料相關的技術

大資料技術指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。     大資料相關的十大技術   1、Java程式設計技術 &

資料時代:最熱門的資料技術

隨著大資料技術滲透到各行各業,很多人也轉行到大資料,有很多的哪些大資料技術掌握後在工作運用中會輕鬆一些,下面列十大最熱門的大資料技術,大家可以學習瞭解。 預測分析 : 預測分析 是一種統計或資料探勘解決方案,包含可在結構化和非結構化資料中使用以確定未來結果的演算

管理資料儲存的技巧

資料本地化是為了確保大資料集儲存在計算節點附近便於分析。對於Hadoop,這意味著管理資料節點,向MapReduce提供儲存以便充分執行分析。它實用有效但也出現了大資料儲存叢集的獨立操作問題。以下十項是Hadoop環境中管理大資料儲存技巧。在1990年,每一臺應用伺服器都傾向

(轉)資料處理之道(分鐘學會Python)

轉自:http://blog.csdn.net/u010700335/article/details/42025391,如侵刪 (0)目錄 快速學Python 和 易犯錯誤(文字處理) Python文字處理和Java/C比對 十分鐘學會Python的基本型別 快速學會Python(

海量資料處理道面試題與個海量資料處理方法總結(資料演算法面試題)

第一部分、十道海量資料處理面試題 1、海量日誌資料,提取出某日訪問百度次數最多的那個IP。       首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大檔案中。注意到IP是32位的,最多有個2^32個IP。同樣可以採用對映的方法

資料領域的12工具,市面上主要的資料分析工具都在這了

大資料工具讓企業能夠從資料倉庫獲得洞察力,從而在資料驅動的業務環境中提供重要的競爭優勢。 為了滿足旺盛需求,大資料工具在迅速遍地開花。在大資料這一概念和業務戰略出現以來的十年間,市面上出現了成千上萬執行各種任務和流程的工具,它們都承諾可為你節省時間和資金,發掘業務洞察力從而

一共81個,開源資料處理工具彙總(下)

日誌收集系統   一、Facebook Scribe   貢獻者:Facebook   簡介:Scribe是Facebook開源的日誌收集系統,在Facebook內部已經得到大量的應用。它能夠從各種日誌源上收集日誌,儲存到一箇中央儲存系統(可以是NFS,分散式檔案系

一共81個,開源資料處理工具彙總

http://www.cnblogs.com/AloneSword/p/4874112.html http://www.cnblogs.com/AloneSword/p/4874114.html   查詢引擎          

一共81個,開源資料處理工具彙總(下)(轉)

接上一部分:一共81個,開源大資料處理工具彙總(上),第二部分主要收集整理的內容主要有日誌收集系統、訊息系統、分散式服務、叢集管理、RPC、基礎設施、搜尋引擎、Iaas和監控管理等大資料開源工具。   日誌收集系統 一、Facebook Scribe 貢獻者

一共81個,開源資料處理工具彙總(上)(轉)

本文一共分為上下兩部分。我們將針對大資料開源工具不同的用處來進行分類,並且附上了官網和部分下載連結,希望能給做大資料的朋友做個參考。下面是第一部分。 查詢引擎 一、Phoenix 貢獻者::Salesforce 簡介:這是一個Java中間層,可以讓開發者在Apache HBase

長得帥氣有優勢,會技術才是本事盤點這些資料處理技術,你會多少?

一 、資料分析處理需求分類 1、事務型處理 在我們實際生活中,事務型資料處理需求非常常見,例如:淘寶網站交易系統、12306網站火車票交易系統、超市POS系統等都屬於事務型資料處理系統。 這類系統資料處理特點包括以下幾點: 一是事務處理型操作都是細粒度操作,每次事務處理涉及資料量都很

Amazon EMR 資料處理_資料分析工具

Amazon EMR 提供的託管 Hadoop 框架可以讓您快速、輕鬆、經濟高效地在多個動態可擴充套件的 Amazon EC2 例項中處理大量資料。您還可以執行其他常用的分散式框架(例如 Amazon EMR 中的 Apache Spark、HBase、Presto 和 Flink),以及

轉 - 強烈推薦資料領域的頂級開源工具集合

隨著大資料與預測分析的成熟,開源作為底層技術授權解決方案的最大貢獻者的優勢越來越明顯。 如今,從小型初創企業到行業巨頭,各種規模的供應商都在使用開源來處理大資料和執行預測分析。藉助開源與雲端計算技術,新興公司甚至在很多方面都可以與大廠商抗衡。   以下是一些大資

資料處理引擎Spark與Flink對比分析

大資料技術正飛速地發展著,催生出一代又一代快速便捷的大資料處理引擎,無論是Hadoop、Storm,還是後來的Spark、Flin

資料處理過程只需這四步,讓你從0到1

大資料這幾年火得不要不要,如同“站在風口上的豬”,但很多人只是停留在耳聞的階段,並不知道大資料真正的用途或是實操在哪,這其中也包括

我的《海量資料處理資料技術實戰》出版啦

![](https://img-blog.csdnimg.cn/20200828011209412.png) ## 我是如何持續寫作的? 其實,關於寫作,我也沒多想,就是想著總結自己學習和工作中遇到的一些問題。我最開始寫文章並不是在CSDN或者其他的一些部落格平臺,而是在QQ空間。那時的我還在上學,在QQ

SPARKCORE的簡單瞭解--資料紀錄片第

  今天不知道寫什麼好,想了一下,Hive和ElastICSearch都有一點了解,但是對於這兩個沒什麼好記錄的。因為Hive的一些問題會在後面有大資料相關問題和答案的總結,到時候會直接落實到面試筆試中的問題,更加直接。ES如果說概念上的話主要是倒排索引和各個型別與資料庫的對應型別。所以想了想還是寫一下Spa