1. 程式人生 > >你必須要了解的九個大資料技術

你必須要了解的九個大資料技術

Hadoop是大資料領域最流行的技術,但也並不是唯一。還有很多其他技術可用於解決大資料問題。除了Apache Hadoop外,另外9個大資料技術也是必須要了解的。

 

1.Apache Flink

 

是一個高效、分散式、基於Java實現的通用大資料分析引擎,它具有分散式MapReduce一類平臺的高效性、靈活性和擴充套件性以及並行資料庫查詢優化方案,它支援批量和基於流的資料分析,且提供了基於Java和Scala的API。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴

 

是一個開源、分散式的流處理框架,它使用開源分散式訊息處理系統Apache Kafka來實現訊息服務,並使用資源管理器Apache Hadoop Yarn實現容錯處理、處理器隔離、安全性和資源管理。

 

該技術由LinkedIn開發,最初目的是為了解決Apache Kafka在擴充套件能力方面存在的問題,包含諸如Simple API、Managed state、Fault Tolerant、Durable messaging、Scalable、Extensible,以及Processor Isolation等功能。

 

3.Cloud Dataflow

 

Dataflow是一種原生的Google Cloud資料處理服務,是一種構建、管理和優化複雜資料流水線的方法,用於構建移動應用,除錯、追蹤和監控產品級雲應用。它採用了Google內部的技術Flume和MillWhell,其中Flume用於資料的高效並行化處理,而MillWhell則用於網際網路級別的帶有很好容錯機制的流處理。

 

該技術提供了簡單的程式設計模型,可用於批處理和流式資料的處理任務。該技術提供的資料流管理服務可控制資料處理作業的執行,資料處理作業可使用Data Flow SDK(Apache Beam)建立。

 

4.StreamSets

 

StreamSets是一種專門針對傳輸中資料進行過優化的資料處理平臺,提供了視覺化資料流建立模型,通過開源的方式發行。該技術可部署在內部環境或雲中,提供了豐富的監視和管理介面。

 

資料收集器可使用資料管線實時地流式傳輸並處理資料,管線描述了資料從源頭到最終目標的流動方式,可包含來源、目標,以及處理程式。資料收集器的生命週期可通過管理控制檯進行控制。

 

5.TensorFlow

 

是繼DistBelief之後的第二代機器學習系統。TensorFlow源自Google旗下的Google Brain專案,主要目標在於為Google全公司的不同產品和服務應用各種型別的神經網路機器學習能力。

 

支援分散式計算的TensorFlow能夠使使用者在自己的機器學習基礎結構中訓練分散式模型。該系統以高效能的gRPC資料庫為支撐,與最近釋出的Google雲機器學習系統互補,使使用者能夠利用Google雲平臺,對TensorFlow模型進行訓練並提供服務。

 

這是一種開源軟體庫,可使用資料流圖譜(data flow graph)進行數值運算,這種技術已被包括DeepDream、RankBrain、Smart Replyused在內的各種Google專案所使用

 

6.Druid

 

Druid是一個用於大資料實時查詢和分析的高容錯、高效能開源分散式系統,旨在快速處理大規模的資料,並能夠實現快速查詢和分析,誕生於2011年,包含諸如驅動互動式資料應用程式,多租戶:大量併發使用者,擴充套件能力:每天上萬億事件,次秒級查詢,實時分析等功能。Druid還包含一些特殊的重要功能,例如低延遲資料攝入、快速聚合、任意切割能力、高可用性、近似計算與精確計算等。

 

7.Apache NiFi

在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴

Apache NiFi是一套強大可靠的資料處理和分發系統,可用於對資料的流轉和轉換建立有向圖。藉助該系統可以用圖形介面建立、監視、控制資料流,有豐富的配置選項可供使用,可在執行時修改資料流,動態建立資料分割槽。此外還可以對資料在整個系統內的流動進行資料起源跟蹤。通過開發自定義元件,還可輕鬆對其進行擴充套件。

 

8.LinkedIn WhereHows

 

WhereHows提供帶元資料搜尋的企業編錄(Enterprise catalog),可以讓您瞭解資料儲存在哪裡,是如何儲存到那裡的。該工具可提供協作、資料血統分析等功能,並可連線至多種資料來源和提取、載入和轉換(ETL)工具。

 

該工具為資料發現提供了Web介面,支援API的後端伺服器負責控制元資料的爬網(Crawling)以及與其他系統的整合。

 

9.Microsoft Cognitive Services

 

該技術源自Project Oxford和Bing,提供了22種認知計算API,主要分類包括:視覺、語音、語言、知識,以及搜尋。該技術已集成於Cortana Intelligence Suite。

這是一種開源技術,提供了22種不同的認知計算REST API,併為開發者提供了適用於Windows、IOS、Android以及Python的SDK。想要了解更多的關於大資料技術問題可以參考加米穀。