1. 程式人生 > >spark可以用來做什麼?零基礎學spark

spark可以用來做什麼?零基礎學spark

Spark大資料技術中資料計算處理的王者,能夠一次處理PB級的資料,分佈在數千個協作的物理或虛擬伺服器叢集中,它有一套廣泛的開發者庫和API,並且支援Java,Python,R和Scala等語言,其靈活的特性,適合各種環境,以下是Spark最常見的兩種應用場景:

離線場景:可以以時間為維度,幾年的資料集,或者以業務為維度,某個領域的大資料集等,這種資料我們一般叫做離線資料,或者冷資料。

實時場景:網站埋點、實時從前端頁面傳輸過來的資料、業務系統或物理硬體實時傳輸過來的資料、硬體訊號或者影象資料等,需要實時去計算處理並且返回結果的資料。

Spark是為資料科學設計的,資料科學家將Spark納入其應用程式,能夠處理包括跨大型資料集的互動式查詢,來自感測器或金融系統的流資料以及機器學習任務,且Spark將資料集快取在記憶體中的能力大大加快了迭代資料處理速度,使得Spark成為實現迭代的MapReduce演算法的理想處理引擎。

Spark是為大資料工程師設計的,在強大的計算能力和優秀的架構設計面前,可以讓資料工程師在不管是離線情景下還是實時的業務需求下,都可以放心的選擇使用Spark。

Spark因其自身優勢,發展勢頭迅猛,目前幾乎所有一站式大資料平臺都已集成了Spark,很多行業也都正在用Spark來改善他們的業務,以下是Spark在一些行業的具體用途:

保險行業:通過使用Spark的機器學習功能來處理和分析所有索賠,優化索賠報銷流程。

醫療保健:使用Spark Core,Streaming和SQL構建病人護理系統。

零售業:使用Spark分析銷售點資料和優惠券使用情況。

網際網路:使用Spark的ML功能來識別虛假的配置檔案,並增強他們向客戶展示的產品匹配。

銀行業:使用機器學習模型來預測某些金融產品的零售銀行客戶的資料。

政府:分析地理,時間和財政支出。

科學研究:通過時間,深度,地理分析地震事件來預測未來的事件。

投資銀行:分析日內股價以預測未來的價格走勢。

地理空間分析:按時間和地理分析Uber旅行,以預測未來的需求和定價。

Twitter情緒分析:分析大量的推文,以確定特定組織和產品的積極,消極或中立的情緒。

航空公司:建立預測航空旅行延誤的模型。

裝置:預測建築物超過臨界溫度的可能性。

Spark是大資料技術棧中重要框架技術,是專為大規模資料處理而設計的快速通用的計算引擎,能夠支援分散式資料集上的迭代作用,且對Hadoop進行補充,是一個高速發展應用廣泛的生態系統。