1. 程式人生 > >全球100款大資料工具彙總(後50款)

全球100款大資料工具彙總(後50款)

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

51、Redis

是一個高效能的key-value儲存系統,和Memcached類似,它支援儲存的value型別相對更多,包括string(字串)、list(連結串列)、set(集合)和zset(有序集合)。Redis的出現,很大程度補償了memcached這類key/value儲存的不足,在部分場合可以對關係資料庫起到很好的補充作用。

52、HDFS

Hadoop分散式檔案系統(HDFS)被設計成適合執行在通用硬體(commodity hardware)上的分散式檔案系統。它和現有的分散式檔案系統有很多共同點。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的資料訪問,非常適合大規模資料集上的應用。

53、HBase

是Hadoop的資料庫,一個分散式、可擴充套件、大資料的儲存。是為有數十億行和數百萬列的超大表設計的,是一種分散式資料庫,可以對大資料進行隨機性的實時讀取/寫入訪問。提供類似谷歌Bigtable的儲存能力,基於Hadoop和Hadoop分散式檔案系統(HDFS)而建。

54、Neo4j

是一個高效能的,NOSQL圖形資料庫,它將結構化資料儲存在網路上而不是表中。自稱“世界上第一個和最好的圖形資料庫”,“速度最快、擴充套件性最佳的原生圖形資料庫”,“最大和最有活力的社群”。使用者包括Telenor、Wazoku、ebay、必能寶(Pitney Bowes)、MigRaven、思樂(Schleich)和Glowbl等。

55、 Vertica

基於列儲存高效能和高可用性設計的資料庫方案,由於對大規模並行處理(MPP)技術的支援,提供細粒度、可伸縮性和可用性的優勢。每個節點完全獨立運作,完全無共享架構,降低了共享資源的系統競爭。

56、Cassandra

是一個混合型的非關係的資料庫,類似於Google的BigTable,其主要功能比Dynamo (分散式的Key-Value儲存系統)更豐富。這種NoSQL資料庫最初由Facebook開發,現已被1500多家企業組織使用,包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他機構。

57、CouchDB

號稱是“一款完全擁抱網際網路的資料庫”,它將資料儲存在JSON文件中,這種文件可以通過Web瀏覽器來查詢,並且用Java來處理。它易於使用,在分散式上網路上具有高可用性和高擴充套件性。

58、Dynamo

是一個經典的分散式Key-Value 儲存系統,具備去中心化、高可用性、高擴充套件性的特點。Dynamo在Amazon中得到了成功的應用,能夠跨資料中心部署於上萬個結點上提供服務,它的設計思想也被後續的許多分散式系統借鑑。

59、 Amazon SimpleDB

是一個用Erlang編寫的高可用的NoSQL資料儲存,能夠減輕資料庫管理工作,開發人員只需通過Web服務請求執行資料項的儲存和查詢,Amazon SimpleDB 將負責餘下的工作。作為一項Web 服務,像Amazon的EC2和S3一樣,是Amazon網路服務的一部分。

60、 Hypertable

是一個開源、高效能、可伸縮的資料庫,它採用與Google的Bigtable相似的模型。它與Hadoop相容,效能超高,其使用者包括電子港灣、百度、高朋、Yelp及另外許多網際網路公司。

61、Kettle

這是一個ETL工具集,它允許你管理來自不同資料庫的資料,通過提供一個圖形化的使用者環境來描述你想做什麼,而不是你想怎麼做。作為Pentaho的一個重要組成部分,現在在國內專案應用上逐漸增多。

62、 Kylin

是一個開源的分散式分析引擎,提供了基於Hadoop的超大型資料集(TB/PB級別)的SQL介面以及多維度的OLAP分散式聯機分析。最初由eBay開發並貢獻至開源社群。它能在亞秒內查詢巨大的Hive表。

63、 Kibana

是一個使用Apache 開源協議的Elasticsearch 分析和搜尋儀表板,可作為Logstash和ElasticSearch日誌分析的 Web 介面,對日誌進行高效的搜尋、視覺化、分析等各種操作。

64、 Druid

是一個用於大資料實時查詢和分析的高容錯、高效能、分散式的開源系統,旨在快速處理大規模的資料,並能夠實現快速查詢和分析。

65、 KNIME

全稱是“康斯坦茨資訊挖掘工具”(Konstanz Information Miner),是一個開源分析和報表平臺。宣稱“是任何資料科學家完美的工具箱,超過1000個模組,可執行數百個例項,全面的整合工具,以及先進的演算法”。

66、Zeppelin

是一個提供互動資料分析且基於Web的筆記本。方便你做出可資料驅動的、可互動且可協作的精美文件,並且支援多種語言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

67、Azkaban

一款基於Java編寫的任務排程系統任務排程,來自LinkedIn公司,用於管理他們的Hadoop批處理工作流。Azkaban根據工作的依賴性進行排序,提供友好的Web使用者介面來維護和跟蹤使用者的工作流程。

68、 Splunk

是機器資料的引擎。使用 Splunk 可收集、索引和利用所有應用程式、伺服器和裝置(物理、虛擬和雲中)生成的快速移動型計算機資料,從一個位置搜尋並分析所有實時和歷史資料

69、Pentaho

是世界上最流行的開源商務智慧軟體,以工作流為核心的、強調面向解決方案而非工具元件的、基於java平臺的商業智慧(Business Intelligence)套件。包括一個web server平臺和幾個工具軟體:報表、分析、圖表、資料整合、資料探勘等,可以說包括了商務智慧的方方面面。

70、Jaspersoft

提供了靈活、可嵌入的商業智慧工具,使用者包括眾多企業組織:高朋、冠群科技、美國農業部、愛立信、時代華納有線電視、奧林匹克鋼鐵、內斯拉斯加大學和通用動力公司。

71、 SpagoBI

Spago被市場分析師們稱為“開源領袖”,它提供商業智慧、中介軟體和質量保證軟體,另外還提供相應的Java EE應用程式開發框架。

72、Lumify

歸Altamira科技公司(以國家安全技術而聞名)所有,這是一種開源大資料整合、分析和視覺化平臺。

73、Lingual

是Cascading的高階擴充套件,為Hadoop提供了一個ANSI SQL介面極大地簡化了應用程式的開發和整合。Lingual實現了連線現有的商業智慧(BI)工具,優化了計算成本,加快了基於Hadoop的應用開發速度。

74、Beam

基於Java提供了統一的資料程序管道開發,並且能夠很好地支援Spark和Flink。提供很多線上框架,開發者無需學太多框架。

75、Cascading

是一個基於Hadoop建立的API,用來建立複雜和容錯資料處理工作流。它抽象了叢集拓撲結構和配置,使得不用考慮背後的MapReduce,就能快速開發複雜的分散式應用。

76、HPCC

作為Hadoop之外的一種選擇,是一個利用叢集伺服器進行大資料分析的系統,HPCC在LexisNexis內部使用多年,是一個成熟可靠的系統,包含一系列的工具、一個稱為ECL的高階程式語言、以及相關的資料倉庫,擴充套件性超強

77、Hivemall

結合了面向Hive的多種機器學習演算法,它包括了很多擴充套件性很好的演算法,可用於資料分類、遞迴、推薦、k最近鄰、異常檢測和特徵雜湊等方面的分析應用。

78、 RapidMiner

具有豐富資料探勘分析和演算法功能,常用於解決各種的商業關鍵問題,解決方案覆蓋了各個領域,包括汽車、銀行、保險、生命科學、製造業、石油和天然氣、零售業及快消行業、通訊業、以及公用事業等各個行業。

79、 Mahout

目的是“為快速建立可擴充套件、高效能的機器學習應用程式而打造一個環境”,主要特點是為可伸縮的演算法提供可擴充套件環境、面向Scala/Spark/H2O/Flink的新穎演算法、Samsara(類似R的向量數學環境),它還包括了用於在MapReduce上進行資料探勘的眾多演算法。

80、Tableau

Tableau 是一款企業級的大資料視覺化工具。Tableau 可以讓你輕鬆建立圖形,表格和地圖。 它不僅提供了PC桌面版,還提供了伺服器解決方案,可以讓您線上生成視覺化報告。伺服器解決方案可以提供了雲託管服務。Tableau的客戶包括巴克萊銀行,Pandora和Citrix等企業

81、Infogram

Infogram的最大優勢在於,讓您的視覺化資訊圖表與實時大資料相連結。只須三個簡單步驟,您可以選擇在眾多圖表,地圖,甚至是視訊視覺化模板中進行選擇。 Infogram支援團隊賬號。

82、ChartBlocks

ChartBlocks是一個易於使用線上工具,它無需編碼,便能從電子表格,資料庫中構建視覺化圖表。整個過程可以在圖表嚮導的指導下完成。您的圖表將在HTML5的框架下使用強大的Java庫D3.js建立圖表。你的圖表是響應式的,並且可以和任何的螢幕尺寸及裝置相容。 您還可以將圖表嵌入任何網頁中,分享在Twitter和Facebook上。

83、Datawrapper

Datawrapper是一款專注於新聞和出版的視覺化工具。華盛頓郵報,衛報,華爾街日報和Twitter等媒體都使用了這一工具。Datawrapper非常容易使用,不需要任何程式設計基礎。你只需要上傳你的資料,便能輕鬆地建立和釋出圖表,甚至是地圖。Datawrapper提供了眾多的自定義佈局及地圖模板。

84、Plotly

Plotly幫助你在短短几分鐘內,從簡單的電子表格中開始建立漂亮的圖表。Plotly已經為谷歌、美國空軍和紐約大學等機構所使用。 Plotly是一個非常人性化的網路工具,讓你在幾分鐘內啟動。如果你的團隊希望為Java和Python等程式語言提供一個API介面的話,Plotly是一款非常人性化的工具。

85、RAW

RAW彌補了很多工具在電子表格和向量圖形(SVG)之間的缺失環節。你的大資料可以來自MicrosoftExcel中,谷歌文件或是一個簡單的逗號分隔的列表。它最厲害的功能是可以很容易地匯出視覺化結果,因為它和Adobe Illustrator,Sketch 和Inkscape是相容的。

86、Visual.ly

isual.ly是一個視覺化的內容服務。它提供專門的大資料視覺化的服務,使用者包括了VISA,耐克,Twitter,福特和國家地理等。如果你想完全外包視覺化檔案給第三方。你可以使用非常簡化的線上流程:你只需描述你的專案,服務團隊將在專案的整個持續時間內和你在一起。 Visual.ly給您傳送所有專案關鍵點的郵件通知,也將讓你不斷給出反饋。

87、D3.js

毋容置疑D3.js是最好的資料視覺化工具庫。D3.js執行在Java上,並使用HTML,CSS和SVG。 D3.js是開源工具,使用資料驅動的方式建立漂亮的網頁。 D3.js可實現實時互動。這個庫非常強大和前沿,所以它帶有沒有預置圖表也不支援IE9。

88、Ember Charts

Ember Charts – 顧名思義是一種基於Ember.js框架和使用d3.js的視覺化工具。Ember Charts以繪製時間序列圖,柱狀圖,餅圖和散點圖為主。它非常優易於擴充套件。同為Ember.js開發團隊,Ember Charts聚焦於圖形互動性。它有極強的錯誤處理能力,當你遇到壞資料時,系統也不會崩潰

89、NVD3

NVD3執行在d3.js之上, 它可建立可重用的圖表元件。該專案的目標是保持所有的圖表整潔和可定製性。 NVD3是d3.js之上的簡單的介面,保持了d3.js的所有強大功能。 NVD3由Novus Partners前端工程師開發和使其保持了圖表技術洞察力。

90、Google Charts

Google Charts 以HTML5和SVG為基礎,充分考慮了跨瀏覽器的相容性,並通過VML支援舊版本的IE瀏覽器。所有您將建立的圖表是互動式的,有的還可縮放。Google Charts是非常人性化和他們的網站擁有一個非常好的,全面的模板庫,你可以從中找到所需模板。

91、FusionCharts

FusionCharts是最全面的Java圖表庫,包括90個圖表和900種地圖。如果你不是特別喜歡的Java。FusionCharts可以輕鬆整合像jQuery庫,Angularjs和React框架以及ASP.NET和PHP語言。 FusionCharts支援JSON和XML資料,並提供許多格式圖表:PNG,JPEG,SVG和PDF。

92、Highcharts

Highcharts是一個Java API與jQuery的整合,全球最大的100家公司中有61家正在使用它。圖表使用SVG格式,並使用VML支援舊版瀏覽器。它提供了兩個專門的圖表型別:Highstock和Highmaps,並且還配備了一系列的外掛。你可以免費使用它,而如果你想建立付費的應用,只須支付少量牌照費用。此外,你還可以使用Highcharts雲服務。

93、Chart.js

對於一個小專案的圖表,chart.js是一個很好的選擇。開源,只有11KB大小,這使得它快速且易於使用,它支援多種圖表型別: 餅圖,線性圖和雷達圖等。

94、Leaflet

你是否專注於專業的大資料解決方案?無需餅圖和條形圖?Leafleft 基於Open Street Map資料,使用HTML5 / CSS3繪製互動式視覺化圖。您可以使用他們的擴充套件外掛庫新增熱點圖(heatmaps)和動畫標記。 Leaflet 是開源和只有33 KB大小。

95、Chartist.js

Chartist.js的開發社群一直致力於打敗所有其他Java圖表庫。它使用了Sass的個性化風格,它的SVG輸出是響應式的。

96、n3-charts

N3-charts是一種基於AngularJS框架的工具。它建立在D3.js之上,幫助您建立簡單的互動圖表。 N3-charts是一種小型化的圖表工具,不適用於大型專案。

97、 Sigma JS

Sigma JS 是互動式視覺化工具庫。由於使用了WebGL技術,你可以使用滑鼠和觸控的方式來更新和變換圖表。Sigma JS同時支援JSON和GEXF兩種資料格式。這為它提供了大量的可用互動式外掛。Sigma JS 專注於網頁格式的網路圖視覺化。因此它在大資料網路視覺化中非常有用。

98、Polymaps

Polymaps是一款地圖視覺化一個Java工具庫。 Polymaps使用SVG實現從國家到街道一級地理資料的視覺化。您可以使用CSS格式來修改你的樣式。Polymaps使用GeoJSON來解釋地理資料。它是建立heatmap熱點圖的最好的工具之一。您建立的所有地圖都可以變成動態圖。

99、Processing.js

Processing.js是一個基於視覺化程式語言的Java庫。作為一種面向Web的Java庫,Processing.js是您能夠有效進行網頁格式圖表處理。這使得它成為了一種非常好交換式視覺化工具。 Processing.js需要一個相容HTML5的瀏覽器來實現這一功能。

100、Pentaho BI

Pentaho BI 平臺不同於傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等元件整合起來,方便商務智慧應用的開發。它的出現,使得一系列的面向商務智慧的獨立產品如Jfree、Quartz等等,能夠整合在一起,構成一項項複雜的、完整的商務智慧解決方案。

文章來自:網路

0

大資料週刊

郵箱:[email protected]

電話:010-57524293

0

眾論大資料 引領大時代

長按二維碼關注