1. 程式人生 > >除了Hadoop,還有6個你必須知道的熱門大資料技術

除了Hadoop,還有6個你必須知道的熱門大資料技術

你知道新的市場領導者和曾經的領導者之間的關鍵區別是什麼嗎?

 

那就是“資料管理”。任何無法處理資料並將其投入使用的企業,很可能會讓位給那些能夠更好處理資料的。

 

事實上,大資料和其流動性的力量能促使企業發展。

 

大資料是大量資料的術語。由於資料的來源渠道眾多,導致其太多樣,太龐大,傳統技術難以處理。這使得利用技術和基礎設施對其進行有效處理十分重要。

 

這些資料必須通過計算來分析,以揭示模式和趨勢,從而有助於市場和推廣活動。

 

以下是一些企業機構利用大資料的例子:

 

• 政府組織通過緊跟社交媒體的動向,從而瞭解新疾病的出現和爆發的資訊。

• 石油和天然氣公司將鑽探裝置與感測器整合在一起,以確保安全和促進更有效的鑽探。

• 零售商緊跟網路點選動向,並識別行為趨勢來從而改進廣告活動。

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系。

下面,讓我們來看一下目前可以促進商務的流行大資料技術:

 

1. Apache Spark

Apache Spark 作為大型資料處理的最快和通用的引擎,具備流媒體、機器學習、圖形處理和 SQL 支援的內建模組。它支援所有重要的大資料語言,包括 Python、Java、R 和 Scala。

它補充了 Hadoop 最初出現的主要意圖。資料處理中的主要關注點是速度,所以需要減少查詢間的等待時間和執行程式所需的時間。

 

儘管 Spark 被用來加速 Hadoop 的計算軟體過程,但它並不是後者的擴充套件。實際上,Spark 使用 Hadoop 有兩個主要目的——儲存和處理。

 

用例: Apache Spark 對旨在實時跟蹤欺詐性交易的公司來說是一大福音,例如,金融機構、電子商務行業和醫療保健。假設你的錢包丟了,同時信用卡被盜刷了一大筆錢,那麼該技術可以幫助你及時掌握卡被盜刷的時間和地點。

 

 

2. Apache Flink

如果你知道 Apache Spark 和 Apache Hadoop,那麼你很可以也聽過 Apache Flink 。Flink 是由德國柏林工業大學的 Volker Markl 教授建立的一個社群驅動開源框架。在德語中,Flink 的意思是“敏捷的”,具有高效能和極其精確的資料流。

Flink 的功能受到 MPP 資料庫技術(如宣告性、查詢優化器、並行記憶體、外核演算法)和Hadoop MapReduce 技術(如大規模擴充套件、使用者定義函式、閱讀模式)等功能的啟發。

 

 

3. NiFi

NiFi 是一種強大且可拓展的工具,它能夠以最小的編碼和舒適的介面來儲存和處理來自各種資料來源的資料。這還不是全部,它還可以輕鬆地不同系統之間的資料流自動化。如果 NiFi 不包含你需要的任何源,那麼通過簡潔的 Java 程式碼你可以編寫自己的處理器。

 

 

NiFi 的專長在於資料提取,這是過濾資料的一個非常有用的手段。由於 NiFi 是美國國家安全域性的專案,其安全性也是值得稱道的。

 

 

4. Kafka

Kafka 是必不可少的,因為它是各種系統之間的強大粘合劑,從 Spark,NiFi 到第三方工具。可以實現高效的資料流實時處理。Kafka 具有開放原始碼,可水平伸縮,有容錯能力,快速安全的特點。

作為一個分散式系統,Kafka 儲存訊息在不同主題中,並且主題本身在不同的節點上進行分割槽和複製。

 

當 Kafka 最初是建立在 LinkedIn 的分散式訊息系統,但如今是 Apache 軟體基金會的一部分,並被成千上萬的公司使用。

 

用例: Pinterest(照片分享網站,堪稱圖片版的Twitter) 使用 Apache Kafka。該公司建立了名為 Secor 的平臺,使用 Kafka、Storm 和 Hadoop 來進行實時資料分析,並將資料輸入到 MemSQL 中。

 

 

5. Apache Samza

Apache Samza 主要目的是為了擴充套件 Kafka 的能力,並集成了容錯、持久訊息、簡單 API、託管狀態、可擴充套件、處理器隔離和可伸縮的特性。

它使用 Apache Hadoop YARN 用於容錯,同時使用 Kafka 進行通訊。因此,可以說它是一個分散式流處理框架。它還提供了一個可插入的 API 來執行 Samza 和其他通訊系統。

 

 

6. Cloud Dataflow

Cloud Dataflow 是谷歌的雲資料處理服務,它集成了基於批處理和流資料處理任務的簡單程式設計模型。

 

 

使用這個工具,無需擔心操作任務,包括效能優化和資源管理。通過其完全託管的服務,可以動態地提供資源以保持較高的利用率,同時使延遲最小化。

 

同時通過其統一程式設計模型方法,無需擔心程式設計模型轉換成本的。這種方法有助於批量和連續的流處理,使其易於表達計算需求,同時無需擔心資料來源。

 

 

結論

 

大資料生態系統不斷髮展,新技術頻頻出現,其中許多技術進一步發展,超出了 hadoop - spark 叢集。這些工具可以用來確保與安全和管理的無縫工作。

 

資料工程師需要利用這些工具來提取、清理和設定資料模式,以幫助資料科學家徹底地探究和檢查它們,並構建模型。