你在使用大資料技術的時候，你知道大資料語言的工具與框架嗎？

大資料資料探勘 Python · 發表 2019-03-01 16:36:57

摘要：為了解大資料的當前和未來狀態，我們採訪了來自28個組織的31位IT技術主管。我們問他們，“你在資料提取，分析和報告中使用的最流行的語言，工具和框架是什麼？” 以下的文章是他們告訴我們的記錄，經過總結如下。 Python，Spark，Kafka 隨著大資料和對人工智慧AL/機器學習 ...

為了解大資料的當前和未來狀態，我們採訪了來自28個組織的31位IT技術主管。我們問他們，“你在資料提取，分析和報告中使用的最流行的語言，工具和框架是什麼？” 以下的文章是他們告訴我們的記錄，經過總結如下。

Python，Spark，Kafka

隨著大資料和對人工智慧AL/機器學習 ML 的推動，Scala和Python語言以及Apache Spark中越來越受歡迎。

對OLAP資料倉庫的遷移，如果用 Python開發機器學習使用較少的結構。開發者編寫Python ML模型非常方便，Python有擴充套件庫提供支援。

Kafka用於流式提取，R和Python用於程式設計開發，當然Java很普遍。SQL還不會消失，但它不是大資料最好的朋友，但是它的開放性讓更多的人可以訪問資料，Gartner讓Hadoop上的SQL走出了幻滅之低谷。

我們看到很多資料倉庫的相關技術，如Hadoop，Spark和Kafka等新興技術，很多人還對Redshift，Snowflake和Big Query非常感興趣。

ML機器學習技術棧，增加了TensorFlow的強大工具讓人增加對其學習的信心，減小了學習曲線。

第三個是Kubernetes，也聚集了大量的愛好者，並在逐步擴大使用者領域。

還有其他開源工具被廣泛使用，例如Spark，R和Python，這就是平臺提供與這些開源工具整合的原因。

在大資料工作流程中，可以引入一個新節點用Python，R或Spark開發程式碼指令碼。在執行時，節點將執行程式碼成為工作流中節點管道的一部分。

在之前一段時間，R語言曾佔據主導地位，特別是在資料科學運作模型中。現在真正的技術創新是圍繞Python，因為Python有許多工具、庫的支援。

接著人們開始探索Spark和Kafka。Spark以極快的速度處理大量磁碟卷。Kafka是一個用於將資料傳輸到Spark的訊息傳遞系統，R這個語言非常適合分析歷史資料，獲取模型和獲取實時資料，並幫助資料分組，以便實時執行並應用模型。本次給大家推薦一個免費的學習群，裡面概括資料倉庫/原始碼解析/Python/Hadoop/Flink/Spark/Storm/Hive以及面試資源等。

對大資料開發技術感興趣的同學，歡迎加入Q群：458345782 ，不管你是小白還是大牛我都歡迎，還有大牛整理的一套高效率學習路線和教程與您免費分享，同時每天更新視訊資料。

最後，祝大家早日學有所成，拿到滿意offer，快速升職加薪，走上人生巔峰。

一些常見的工具和框架還包括記憶體關係資料庫，如VoltDB，Spark，Storm，Flink，Kafka 和一些NoSQL資料庫。

我們為所有CRUD資料操作提供LINQ型別的API，可以供各種語言呼叫，例如C#，Go，Java，JavaScript，Python，Ruby，PHP，Scala和Swift語言。因為設計的是高效能（可預測的低延遲）資料庫，我們的主要為資料訪問建立為程式設計而不是宣告，因此目前並不支援SQL。

當客戶要分析他們當前正在執行的工作時，我們再新增SQL支援，我們支援將資料匯出到後端資料倉庫和資料池以進行分析。對於資料抽取，Kafka和Kinesis等工具作為客戶中的預設資料的通訊管道也越來越獲得關注。

我們將SQL視作為各種規模公司使用平臺中資料的主要協議。對於叢集的部署管理，我們看到Docker和Kubernetes的應用在迅速增長。對於資料抽取，Apache Kafka被我們的許多使用者使用，我們最近在Confluent合作伙伴計劃中取得了Kafka Connector的認證。為了更好的處理分析，我們經常將Apache Spark與Apache Ignite一起並用作為記憶體資料儲存。

事實上Apache Kafka已經成為一種標準，可以在提取近乎實時的大批量資料（尤其是感測器資料），以流式傳輸到資料分析平臺。為了獲得最高的分析效能，資料庫內機器學習和高階分析正成為組織大規模提供預測分析的一種極重要的方式。

對於視覺化報表，目前市面上有各種各樣的資料視覺化工具：從Tableau到Looker，從Microsoft Power BI到IBM Cognos再到MicroStrategy等等。業務分析師從未有過這麼多選擇來實現視覺化資料報表。他們肯定會這樣肯定，他們的基礎資料分析平臺如今已經具有大規模和高效能，讓他們能夠在幾秒或幾分鐘內完全準確地從最大資料中獲得洞察力，

我們利用多種資料提取和索引工具，使用 Apache Kafka和NIFI專案目前最為普遍。

我們將 Hadoop YARN與HBASE/HDFS用於資料持久層，然後用於資料處理、預測建模、分析和深度學習專案，如Apache Zeppelin，Spark/Spark Streaming，Storm，SciKit-Learn和Elasticsearch這些開源專案，我們還可利用Talend，Pentaho，Tableau和其他優秀的商業化軟體或工具。

TensorFlow，Tableau，PowerBI

1）我們使用Amazon Athena（Apache Presto）進行日誌分析。

2）我們使用Mode Analytics進行資料視覺化和報告。

3）我們使用TensorFlow來分析流量模式。

從ML角度看資料科學，DL框架的可用性，TensorFlow，Pytorch，Keras，Caffe在應用ML和為大規模資料建立模型方面做出了很大的創新。

BI用例正試圖擴大分析師的資料規模，Tableau，PowerBI，MicroStrategy，TIBCO和Qlik試圖擴大資料儀表盤面前的人數和角色。

隨著技術團隊正在逐漸遠離MapReduce，我們看到 Spark。Java和Python越來越受歡迎。Kafka被用來抽取資料，視覺化的Visual Arcadia Data，Tableau，Qlik和PowerBI來生成報表。

許多專案使用多種語言和多個分析工具。當然，我們也能看到很多SQL的使用場景以及面向資料科學的語言，如Python和R語言，但也是Java和C#等經典程式語言的發揮之處。對於資料科學，我們有頂級工具包TensorFlow，緊隨其後的是自助式BI工具，如Tableau，PowerBI和ClickView。

其它

開源的世界。更多人正在轉向流資料資料，這是由對實時答案的需求來驅動而來。

當然這取決於特定的專案，我們看到多種機制被用於抽取，富文字，文件分類器，SciByte，資料本體，智慧標籤工具，深入研究資料。個性化推薦與見解、情感分析等豐富了大資料。

客戶從瀏覽器中查詢要使用的內容，或正在尋找如何構建自己的工具，SQL語言仍然是大資料的語言，它可以在在Hadoop和其他資料庫之上正常工作。

OData並不是那麼新，人們正在從伺服器端和客戶端進一步使用它，還有一些人在使用GraphQL來動態查詢和獲取資料。

伺服器端程式設計也有很多新技術，比如 MongoDB做得很好，Redis適合快取。AWS S3對於使用Elasticsearch和S3作為後端的資料儲存非常有用，當然明確已經確定的技術與設計模式。

使用R和Python的人會堅持使用他們熟悉的東西，大資料系統中有許多API提供了很多支援。從資料抽取的角度來看，人們希望提供儘可能多的方法來處理資料輸入和輸出，能夠支援儘可能多的工具，這不是臨界質量。迎合人才，開發人員工具和API支援的兩方需求。

大公司希望人們使用相同的BI和資料科學工具，因為他們有各種工具，在數千人在一個工具上做標準化並與不同後端整合並加速資料生產的方式，包括提供資料的整合、加速和目錄以及資料語義等定義。資料目錄位於平臺的中心位置，將安全性，整合和加速功能集中到一個可與全部工具和資料來源配合使用的中心開源層。

大資料世界在很多方面會很快地發展到所有的開發環境，包括內部部署，雲端計算等等。我們看到了很多語言，執行引擎和資料格式發生了變化。大資料的核心價值是允許客戶繞過這些不同的工具和標準，使用拖放或我們提供的程式碼環境，可能無需手動編寫任何程式碼，輕鬆將資料管道作為可重複框架的一部分，無論採用何種技術，平臺或語言都能進行大規模部署。

本次給大家推薦一個免費的學習群，裡面概括資料倉庫/原始碼解析/Python/Hadoop/Flink/Spark/Storm/Hive以及面試資源等。

你在使用大資料技術的時候，你知道大資料語言的工具與框架嗎？

最後，祝大家早日學有所成，拿到滿意offer，快速升職加薪，走上人生巔峰。

您可能也會喜歡…