1. 程式人生 > >資料處理框架分類都有哪些?

資料處理框架分類都有哪些?

就目前而言,不管是系統中的歷史資料,還是持續不斷接入系統中的實時資料,只要資料是可訪問的,我們就能夠處理這些資料。按照處理的資料形式和得到結果的時效性進行分類,資料處理框架就可以分為兩類:批處理系統和流處理系統。

資料處理框架中的批處理就是一種用來計算大規模資料集的方法。批處理的過程包括將任務分解為較小的任務,分別在每個計算機上進行計算執行,根據資料分析的結果對資料的重新組合,然後通過計算機的計算出組合資料的最終結果。當處理非常巨大的資料集時,批處理系統是最有效的。而流處理就是對由連續不斷的單條資料項組成的資料流進行計算,注重資料處理結果的時效性。

一、批處理系統

批處理系統在大資料中有很長的歷史。批處理系統主要操作大量靜態的資料,並且等到全部處理完成後才能得到返回的結果。批處理系統中的資料集一般符合以下特徵:

1、有限: 資料集中的資料必須是有限的。

2、持久: 批處理系統處理的資料一般儲存在某個儲存器上。

3、海量: 一般來說只有海量的資料才能用批處理系統進行分析,並且海量的資料通常只能使用批處理系統來處理。

由於批處理系統在處理海量的持久資料方面表現出色,而歷史資料的數量是很多的,所以它通常被用來處理歷史資料,但是由於海量資料的處理需要耗費很多時間,所以批處理系統一般不用於即時性場景需求以及對延時要求較高的場景。 

二、流處理系統

批處理系統好理解,那什麼是流處理系統呢?流處理系統與批處理系統所處理的資料不同之處在於,流處理系統並不是針對已經存在的資料集進行操作,而是處理對從外部系統接入的的資料。流處理系統一般分為兩種:

1、逐項處理: 每次處理一條資料,是真正意義上的流處理。

2、微批處理: 這種處理方式把一小段時間內的資料當作一個微批次,對這個微批次內的資料進行處理。

不論是哪種處理方式,其實時性都要遠遠好於批處理系統。因此,流處理系統非常適合應用於對實時性要求較高的場景,由於很多情況下,我們想要儘快看到計算結果,所以近些年流處理系統的應用越來越廣泛。

相信大家看了這篇文章以後已經知道了資料處理框架上面的相關情況了吧,一般來說,資料的處理裡不來批處理和流處理,批處理適用於歷史資料的分析,而流處理適用於即時資料的分析,兩者都有各自的優缺點。希望本文能夠幫到大家。