什麽是大數據?
什麽是大數據?
大數據是一個大的數據集合,通過傳統的計算技術無法進行處理。這些數據集的測試需要使用各種工具、技術和框架進行處理。大數據涉及數據創建、存儲、檢索、分析,而且它在數量、多樣性、速度方法都很出色。
大數據測試類型
測試大數據應用程序更多的是驗證其數據處理,而不是測試軟件產品的個別功能。當涉及到大數據測試時,性能和功能測試是關鍵。
在大數據測試中,QA工程師使用集群和其他組件來驗證對TB級數據的成功處理。因為處理非常快,所以它需要高水平的測試技能。處理可以是三種類型:批量、實時、交互。
與此同時,數據質量也是大數據測試的一個重要因素。在測試應用程序之前,有必要檢查數據的質量,並將其視為數據庫測試的一部分。它涉及檢查各種字段,如一致性,準確性,重復,一致性,有效性,數據完整性等。
大數據測試步驟
下圖給出了測試大數據應用程序階段的高級概述:
大數據測試實現被分成三個步。
Step 1:數據階段驗證
大數據測試的第一步,也稱作pre-hadoop階段該過程包括如下驗證:
? 來自各方面的數據資源應該被驗證,來確保正確的數據被加載進系統
? 將源數據與推送到Hadoop系統中的數據進行比較,以確保它們匹配
? 驗證正確的數據被提取並被加載到HDFS正確的位置
該階段可以使用工具Talend或Datameer,進行數據階段驗證。
Step 2:"MapReduce"驗證
大數據測試的第二步是MapReduce的驗證。在這個階段,測試者在每個節點上進行業務邏輯驗證,然後在運行多個節點後驗證它們,確保如下操作的正確性:
? Map與Reduce進程正常工作
>>> D(8)
C 8
<__main__.D object at 0x00D7ED90>
14)新的metaclass語法:
class Foo(*bases, **kwds):
pass
15)支持class decorator。用法與函數decorator一樣:
>>> def foo(www.bomaoyule.cn/ cls_a):
def print_func(self):
print(‘Hello, world! www.feishenbo.cn/ ‘)
cls_a.print = print_func
return cls_a
>>> @foo
class C(object):
pass
>>> C().print(www.hjha178.com)
Hello, world!
? 在數據上實施數據聚合或隔離規則
? 生成鍵值對
? 在執行Map和Reduce進程後驗證數據
Step 3:輸出階段驗證
大數據測試的最後或第三階段是輸出驗證過程。生成輸出數據文件,同時把文件移到一個EDW(Enterprise Data Warehouse:企業數據倉庫)中或著把文件移動到任何其他基於需求的系統中。在第三階段的活動包括:
? 檢查轉換(Transformation)規則被正確應用
? 檢查數據完整性和成功的數據加載到目標系統中
? 通過將目標數據與HDFS文件系統數據進行比較來檢查沒有數據損壞
什麽是大數據?