1. 程式人生 > >【大數據開發】你知道大數據語言的工具與框架嗎?

【大數據開發】你知道大數據語言的工具與框架嗎?

新節點 java 學習曲線 定義 onf 團隊 工具 cal 儀表盤

為了解大數據的當前和未來狀態,我們采訪了來自28個組織的31位IT技術主管。我們問他們,“你在數據提取,分析和報告中使用的最流行的語言,工具和框架是什麽?” 以下的文章是他們告訴我們的記錄,經過總結如下。

Python,Spark,Kafka

隨著大數據和對人工智能AL/機器學習 ML 的推動,Scala和Python語言以及Apache Spark中越來越受歡迎。

對OLAP數據倉庫的遷移,如果用 Python開發機器學習使用較少的結構。開發者編寫Python ML模型非常方便,Python有擴展庫提供支持。

Kafka用於流式提取,R和Python用於編程開發,當然Java很普遍。SQL還不會消失,但它不是大數據最好的朋友,但是它的開放性讓更多的人可以訪問數據,Gartner讓Hadoop上的SQL走出了幻滅之低谷。

我們看到很多數據倉庫的相關技術,如Hadoop,Spark和Kafka等新興技術,很多人還對Redshift,Snowflake和Big Query非常感興趣。

ML機器學習技術棧,增加了TensorFlow的強大工具讓人增加對其學習的信心,減小了學習曲線。

第三個是Kubernetes,也聚集了大量的愛好者,並在逐步擴大用戶領域。

還有其他開源工具被廣泛使用,例如Spark,R和Python,這就是平臺提供與這些開源工具集成的原因。

在大數據工作流程中,可以引入一個新節點用Python,R或Spark開發代碼腳本。在執行時,節點將執行代碼成為工作流中節點管道的一部分。

在之前一段時間,R語言曾占據主導地位,特別是在數據科學運作模型中。現在真正的技術創新是圍繞Python,因為Python有許多工具、庫的支持。

接著人們開始探索Spark和Kafka。Spark以極快的速度處理大量磁盤卷。Kafka是一個用於將數據傳輸到Spark的消息傳遞系統,R這個語言非常適合分析歷史數據,獲取模型和獲取實時數據,並幫助數據分組,以便實時運行並應用模型。本次給大家推薦一個免費的學習群,裏面概括數據倉庫/源碼解析/Python/Hadoop/Flink/Spark/Storm/Hive以及面試資源等。

對大數據開發技術感興趣的同學,歡迎加入Q群:458345782,不管你是小白還是大牛我都歡迎,還有大牛整理的一套高效率學習路線和教程與您免費分享,同時每天更新視頻資料。

最後,祝大家早日學有所成,拿到滿意offer,快速升職加薪,走上人生巔峰。

一些常見的工具和框架還包括內存關系數據庫,如VoltDB,Spark,Storm,Flink,Kafka 和 一些NoSQL數據庫。

我們為所有CRUD數據操作提供LINQ類型的API,可以供各種語言調用,例如C#,Go,Java,JavaScript,Python,Ruby,PHP,Scala和Swift語言。因為設計的是高性能(可預測的低延遲)數據庫,我們的主要為數據訪問創建為編程而不是聲明,因此目前並不支持SQL。

當客戶要分析他們當前正在執行的工作時,我們再添加SQL支持,我們支持將數據導出到後端數據倉庫和數據池以進行分析。對於數據抽取,Kafka和Kinesis等工具作為客戶中的默認數據的通信管道也越來越獲得關註。

我們將SQL視作為各種規模公司使用平臺中數據的主要協議。對於集群的部署管理,我們看到Docker和Kubernetes的應用在迅速增長。對於數據抽取,Apache Kafka被我們的許多用戶使用,我們最近在Confluent合作夥伴計劃中取得了Kafka Connector的認證。為了更好的處理分析,我們經常將Apache Spark與Apache Ignite一起並用作為內存數據存儲。

事實上Apache Kafka已經成為一種標準,可以在提取近乎實時的大批量數據(尤其是傳感器數據),以流式傳輸到數據分析平臺。為了獲得最高的分析性能,數據庫內機器學習和高級分析正成為組織大規模提供預測分析的一種極重要的方式。

對於可視化報表,目前市面上有各種各樣的數據可視化工具:從Tableau到Looker,從Microsoft Power BI到IBM Cognos再到MicroStrategy等等。業務分析師從未有過這麽多選擇來實現可視化數據報表。他們肯定會這樣肯定,他們的基礎數據分析平臺如今已經具有大規模和高性能,讓他們能夠在幾秒或幾分鐘內完全準確地從最大數據中獲得洞察力,

我們利用多種數據提取和索引工具,使用 Apache Kafka和NIFI項目目前最為普遍。

我們將 Hadoop YARN與HBASE/HDFS用於數據持久層,然後用於數據處理、預測建模、分析和深度學習項目,如Apache Zeppelin,Spark/Spark Streaming,Storm,SciKit-Learn和Elasticsearch這些開源項目,我們還可利用Talend,Pentaho,Tableau和其他優秀的商業化軟件或工具。

TensorFlow,Tableau,PowerBI

1)我們使用Amazon Athena(Apache Presto)進行日誌分析。

2)我們使用Mode Analytics進行數據可視化和報告。

3)我們使用TensorFlow來分析流量模式。

從ML角度看數據科學,DL框架的可用性,TensorFlow,Pytorch,Keras,Caffe在應用ML和為大規模數據創建模型方面做出了很大的創新。

BI用例正試圖擴大分析師的數據規模,Tableau,PowerBI,MicroStrategy,TIBCO和Qlik試圖擴大數據儀表盤面前的人數和角色。

隨著技術團隊正在逐漸遠離MapReduce,我們看到 Spark。Java和Python越來越受歡迎。Kafka被用來抽取數據,可視化的Visual Arcadia Data,Tableau,Qlik和PowerBI來生成報表。

許多項目使用多種語言和多個分析工具。當然,我們也能看到很多SQL的使用場景以及面向數據科學的語言,如Python和R語言,但也是Java和C#等經典編程語言的發揮之處。對於數據科學,我們有頂級工具包TensorFlow,緊隨其後的是自助式BI工具,如Tableau,PowerBI和ClickView。

其它

開源的世界。更多人正在轉向流數據數據,這是由對實時答案的需求來驅動而來。

當然這取決於特定的項目,我們看到多種機制被用於抽取,富文本,文檔分類器,SciByte,數據本體,智能標簽工具,深入研究數據。個性化推薦與見解、情感分析等豐富了大數據。

客戶從瀏覽器中查找要使用的內容,或正在尋找如何構建自己的工具,SQL語言仍然是大數據的語言,它可以在在Hadoop和其他數據庫之上正常工作。

OData並不是那麽新,人們正在從服務器端和客戶端進一步使用它,還有一些人在使用GraphQL來動態查詢和獲取數據。

服務器端編程也有很多新技術,比如 MongoDB做得很好,Redis適合緩存。AWS S3對於使用Elasticsearch和S3作為後端的數據存儲非常有用,當然明確已經確定的技術與設計模式。

使用R和Python的人會堅持使用他們熟悉的東西,大數據系統中有許多API提供了很多支持。從數據抽取的角度來看,人們希望提供盡可能多的方法來處理數據輸入和輸出,能夠支持盡可能多的工具,這不是臨界質量。迎合人才,開發人員工具和API支持的兩方需求。

大公司希望人們使用相同的BI和數據科學工具,因為他們有各種工具,在數千人在一個工具上做標準化並與不同後端集成並加速數據生產的方式,包括提供數據的集成、加速和目錄以及數據語義等定義。數據目錄位於平臺的中心位置,將安全性,集成和加速功能集中到一個可與全部工具和數據源配合使用的中心開源層。

大數據世界在很多方面會很快地發展到所有的開發環境,包括內部部署,雲計算等等。我們看到了很多語言,執行引擎和數據格式發生了變化。大數據的核心價值是允許客戶繞過這些不同的工具和標準,使用拖放或我們提供的代碼環境,可能無需手動編寫任何代碼,輕松將數據管道作為可重復框架的一部分,無論采用何種技術,平臺或語言都 能進行大規模部署。

本次給大家推薦一個免費的學習群,裏面概括數據倉庫/源碼解析/Python/Hadoop/Flink/Spark/Storm/Hive以及面試資源等。

對大數據開發技術感興趣的同學,歡迎加入Q群:458345782,不管你是小白還是大牛我都歡迎,還有大牛整理的一套高效率學習路線和教程與您免費分享,同時每天更新視頻資料。

最後,祝大家早日學有所成,拿到滿意offer,快速升職加薪,走上人生巔峰。

【大數據開發】你知道大數據語言的工具與框架嗎?