1. 程式人生 > >什麽是大數據?

什麽是大數據?

war 系統數據 一個 wds 重要 隔離 reduce transform 工具

  什麽是大數據?
  
  大數據是一個大的數據集合,通過傳統的計算技術無法進行處理。這些數據集的測試需要使用各種工具、技術和框架進行處理。大數據涉及數據創建、存儲、檢索、分析,而且它在數量、多樣性、速度方法都很出色。
  
  大數據測試類型
  
  測試大數據應用程序更多的是驗證其數據處理,而不是測試軟件產品的個別功能。當涉及到大數據測試時,性能和功能測試是關鍵。
  
  在大數據測試中,QA工程師使用集群和其他組件來驗證對TB級數據的成功處理。因為處理非常快,所以它需要高水平的測試技能。處理可以是三種類型:批量、實時、交互。
  
  與此同時,數據質量也是大數據測試的一個重要因素。在測試應用程序之前,有必要檢查數據的質量,並將其視為數據庫測試的一部分。它涉及檢查各種字段,如一致性,準確性,重復,一致性,有效性,數據完整性等。
  
  大數據測試步驟
  
  下圖給出了測試大數據應用程序階段的高級概述:
  
  大數據測試實現被分成三個步。
  
  Step 1:數據階段驗證
  
  大數據測試的第一步,也稱作pre-hadoop階段該過程包括如下驗證:
  
  ? 來自各方面的數據資源應該被驗證,來確保正確的數據被加載進系統
  
  ? 將源數據與推送到Hadoop系統中的數據進行比較,以確保它們匹配
  
  ? 驗證正確的數據被提取並被加載到HDFS正確的位置
  
  該階段可以使用工具Talend或Datameer,進行數據階段驗證。
  
  Step 2:"MapReduce"驗證
  
  大數據測試的第二步是MapReduce的驗證。在這個階段,測試者在每個節點上進行業務邏輯驗證,然後在運行多個節點後驗證它們,確保如下操作的正確性:
  
  ? Map與Reduce進程正常工作
   >>> D(8)
C 8
<__main__.D object at 0x00D7ED90>
14)新的metaclass語法:
class Foo(*bases, **kwds):
pass
15)支持class decorator。用法與函數decorator一樣:
>>> def foo(www.bomaoyule.cn/ cls_a):
def print_func(self):
print(‘Hello, world! www.feishenbo.cn/ ‘)
cls_a.print = print_func
return cls_a
>>> @foo
class C(object):
pass
>>> C().print(www.hjha178.com)
Hello, world!
  ? 在數據上實施數據聚合或隔離規則
  
  ? 生成鍵值對
  
  ? 在執行Map和Reduce進程後驗證數據
  
  Step 3:輸出階段驗證
  
  大數據測試的最後或第三階段是輸出驗證過程。生成輸出數據文件,同時把文件移到一個EDW(Enterprise Data Warehouse:企業數據倉庫)中或著把文件移動到任何其他基於需求的系統中。在第三階段的活動包括:
  
  ? 檢查轉換(Transformation)規則被正確應用
  
  ? 檢查數據完整性和成功的數據加載到目標系統中
  
  ? 通過將目標數據與HDFS文件系統數據進行比較來檢查沒有數據損壞

什麽是大數據?