1. 程式人生 > >大資料技術應用列表Top 10!

大資料技術應用列表Top 10!

在這個大資料爆炸的時代,各種新專案如雨後春筍一般,每天從世界各地不斷湧現出來。好訊息是當下的技術都是開源可用的。下面就一起來看看這個Top10列表,應用起來吧!


Hadoop是穩定企業實力和其他一切工作的基礎。你需要利用YARN ,HDFS和Hadoop中的基礎設施,儲存原始資料以及執行關鍵的大資料伺服器和應用程式。

2.Spark
Spark易於使用,並且支援所有重要的大資料語言(Scala,Python,Java,R)。同時,Spark還是一個巨大的生態系統,發展迅速,便於支援microbatching/batching/SQL。這是另一個不費腦筋的技術。

3.NiFi
NiFi是NSA工具,它可以用最少的編碼和一個光滑的UI,提供簡單的資料攝取、儲存和處理各種來源資料。這些資料的來源包括社交媒體,JMS,NoSQL,SQL,Rest/JSON Feeds,AMQP,SQS,FTP,Flume,ElasticSearch,S3,MongoDB,Splunk,Email,HBase,Hive,HDFS,Azure Event Hub,Kafka等等。如果NiFi沒有你需要的來源或彙集,你可以為NiFi直接用Java程式碼編寫自己的處理器。NiFi是另一個推薦選入工具箱中的Apache專案,是大資料工具中的瑞士軍刀。


Apache Hive是執行在Hadoop之上的永久SQL解決方案。在Apache Hive 2.1最新版本中,效能和功能上的增強使 Hive成功作為SQL大資料解決方案留在榜單。

5.Kafka
Kafka是大資料系統間進行非同步、分散式訊息傳遞的選擇,它能夠進入大多數的堆疊。從Spark到NiFi,到第三方工具,再到Java和Scala,它很好地維繫了系統。Kafka需要在棧中應用。


由於很多公司都在應用HBase,也就導致了這個開源專案的資料規模極大。在HDFS支援下,NoSQL能夠很好地整合所有工具。所以,在HBase上額外構建的Phoenix成為了NoSQL首選。這增強了HBase的SQL、JDBC、OLTP和運營分析能力。


在使用Hive,Spark,SQL,Shell,Scala,Python以及許多其他的資料探勘和機器學習工具時,Zeppelin是一款便捷、整合性較高的notebook工具。在易於使用的同時,Zeppelin能夠以很好的方式來探索和查詢資料。而且這個工具可以支援多種環境和功能,使用者只需要經常更新圖表和對映資料即可。


Sparkling Water彌補了Spark中Machine Learning和其他工作間的空缺,提供所有可能用到的機器學習服務。


Apache Beam是一個用Java編寫的統一框架,用於資料處理和管道開發。同時,它也可以支援Spark和Flink。其他的框架很快也會上線,使用者不必再去學習太多的框架。


Natural Language Processing目前應用極廣且增長迅速,Stanford CoreNLP也在不斷地提高他們的框架效能。

時下有數不清的大資料專案,所以最好的辦法就是合併及測試不同專案版本,來確保他們在安全和管理上都能夠順暢執行。