Hadoop中的CRC數據校驗文件

阿新 • • 發佈：2017-06-21

本地磁盤 ati onf ase utc 獲取 line fileutil pan

錯誤分析: 今天在A程序中生成了數據,然後將A結果數據作為B的輸入數據,在查看A結果數據時候,發現有一條數據不符合規則,遂將其刪除,刪除後執行B程序則報錯.嘗試打斷點,發現程序連map過程都不執行,到了 job.waitForCompletion(true);這一步之後直接就報錯了,錯誤信息為: org.apache.hadoop.fs.ChecksumException: Checksum error: file:/E:/hdpSapce/web_log/out/golden/part-m-00000 at 0 exp: 397811546 got: -1419898685 通過搜索發現是Hadoop會校驗數據一致性的問題. 後續我還進行了一下測試: 不管是刪除一行,還是一條個字符,或者增加一個字符.只要文件有改變,那麽都會報錯. Hadoop系統為了保證數據的一致性，會對文件生成相應的校驗文件，並在讀寫的時候進行校驗，確保數據的準確性。比如我們遇到的這個Case：執行的命令： hadoop jar dw-hadoop-2010_7_23.jar jobDriver -files tb_steps_url_path_dim.txt multisteps_output 2011-01-25 出錯日誌的提示：技術分享

org.apache.hadoop.fs.ChecksumException: Checksum error: file:tb_steps_url_path_dim.txt at 0
 at org.apache.hadoop.fs.FSInputChecker.verifySum(FSInputChecker.java:277)
 at org.apache.hadoop.fs.FSInputChecker.readChecksumChunk(FSInputChecker.java:241)
 at org.apache.hadoop.fs.FSInputChecker.read1(FSInputChecker.java: 
189)
 at org.apache.hadoop.fs.FSInputChecker.read(FSInputChecker.java:158)
 at java.io.DataInputStream.read(DataInputStream.java:83)
 at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:49)
 at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:87)
 at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java: 
209)
 at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:142)
 at org.apache.hadoop.mapred.JobClient.copyRemoteFiles(JobClient.java:565)
 at org.apache.hadoop.mapred.JobClient.configureCommandLineOptions(JobClient.java:627)
 at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:802)
 at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:771)
 at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1290)
 at jobDriver.run(jobDriver.java:85)
 at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
 at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:79)
 at jobDriver.main(jobDriver.java:124)
 at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
 at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
 at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
 at java.lang.reflect.Method.invoke(Method.java:597)

View Code 錯誤原因：啟動任務的命令中包含一個參數“-files tb_steps_url_path_dim.txt” Hadoop客戶端需要將機器本地磁盤中的tb_steps_url_path_dim.txt文件上傳到DFS中。在上傳的過程中，Hadoop將通過FSInputChecker判斷需要上傳的文件是否存在進行校驗的crc文件，即.tb_steps_url_path_dim.txt.crc，如果存在crc文件，將會對其內容一致性進行校驗，如果校驗失敗，則停止上傳該文件。最終導致整個MR任務無法執行。 crc文件來源 DFS命令：hadoop fs -getmerge srcDir destFile 這類命令在執行的時候，會將srcDir目錄下的所有文件合並成一個文件，保存在destFile中，同時會在本地磁盤生成一個. destFile.crc的校驗文件。 DFS命令：hadoop fs -get -crc src dest 這類命令在執行的時候，會將src文件，保存在dest中，同時會在本地磁盤生成一個. dest.crc的校驗文件。如何避免在使用hadoop fs -getmerge srcDir destFile命令時，本地磁盤一定會（沒有參數可以關閉）生成相應的.crc文件。所以如果需要修改getmerge獲取的文件的內容，再次上傳到DFS時，可以采取以下2種策略進行規避： 1. 刪除.crc文件 2. 將getmerge獲取的文件修改後重新命名，如使用mv操作，再次上傳到DFS中。 3.恢復原有文件內容

Hadoop中的CRC數據校驗文件

本地磁盤 ati onf ase utc 獲取 line fileutil pan 錯誤分析: 今天在A程序中生成了數據,然後將A結果數據作為B的輸入數據,在查看A結果數據時候,發現有一條數據不符合規則,遂將其刪除,刪除後執行B程序則報錯.嘗試打斷點,發現程序連map過程

Struts2中validate數據校驗的兩種常用方法

red 有一種資源文件業務相同 dna erp wrong 顯示本文主要介紹Struts2中validate數據校驗的兩種方法及Struts2常用校驗器. 1.Action中的validate()方法 Struts2提供了一個Validateable接口,這個接口

SpringMVC中的 JSR 303 數據校驗框架說明

bind 工作電子支持 length spring容器 error digits 獲取 JSR 303 是java為Bean數據合法性校驗提供的標準框架，它已經包含在JavaEE 6.0中。 JSR 303 通過在Bean屬性上標註類似於@NotNull、@Max等標

SpringBoot配置文件註入值數據校驗

pan const pre ted object lec map public list 1 package com.hoje.springboot.bean; 2 3 import org.springframework.beans.factory.

SpringMVC——數據校驗

pre exp blank ann delattr base 名稱 user 正則數據校驗在web應用裏是非常重要的功能，尤其是在表單輸入中。在這裏采用Hibernate-Validator進行校驗，該方法實現了JSR-303驗證框架支持註解風格的驗證。一、導入jar包

數據校驗

crc 大於驗證大於等於增加個數 k次方次方其余奇偶校驗增加一位驗證位，只能驗證有一位出錯的情況。海明碼增加K位驗證位，能修正一位出錯的情況。K位校驗位，只有一種組合是對的，其余的2的K次方減1都是錯的。海明碼要求：2的K次方減1 大於等於K + MCRC校驗

struts數據校驗之使用xml方式校驗

als bsp 默認字符串長度直接一個 back log mes <field name=""></field> //自動校驗器 <validator type=""></validator> //非自動校驗其校驗

Java文件復制器（自己起的名字，主要用於數據搬遷，文件復制等中的使用）

mage tac 緩沖區 png 參考 sta 基類 ade 轉換　　學習Java在入門中期主要是通過api來學習，不要急慢慢來。分下下需求，我們需要將文件從一個文件復制到另一個文件夾中，這其中我們可以使用很多方法，但在Java中我常用到的是io（廢話

springmvc(四) springmvc的數據校驗的實現

jar ring 錯誤登錄分享文件框架 creat 對象　　　　　　so easy~ 　　　　　　　　　　　　　　--WH 一、什麽是數據校驗？　　　　　　這個比較好理解，就是用來驗證客戶輸入的數據是否合法，比如客戶登錄時，用戶名不能為空，或者不能超出指定長度等

HTML JS 數據校驗

phone javascrip 滿足 document 記錄 mail onclick style func 用到了html字符串校驗，這裏記錄一下。 1 <html> 2 <head> 3 <script ty

java從ldap中導出數據到ldif文件中

itl void print tle != ldap ould scope nag 原創：http://www.cnblogs.com/dqcer/p/7814034.html 導入ldap.jar包,筆者已對下面兩個文件測試並通過。若有疑問歡迎留言 LDAPExport.

SpringMVC——數據轉換 & 數據格式化 & 數據校驗

gpo new open util tro -m 註解構造 param 一、數據綁定流程 1. Spring MVC 主框架將 ServletRequest 對象及目標方法的入參實例傳遞給 WebDataBinderFactory 實例，以創建 DataBind

【SpringMVC】數據校驗時，拋出javax.validation.UnexpectedTypeException: HV000030: No validator could be found for type: java.util.Date.

springmvc 去掉 not orm align found 包括 text expect 老魏原創，轉載請留言。原因：給Javabean中的字段註解多余或者錯誤導致。 @NotEmpty @Past @DateTimeFormat(pattern="yy

Hadoop中的CRC數據校驗文件

Hadoop中的CRC數據校驗文件

Struts2中validate數據校驗的兩種常用方法

SpringMVC中的 JSR 303 數據校驗框架說明

SpringBoot配置文件註入值數據校驗

SpringMVC——數據校驗

數據校驗

struts數據校驗之使用xml方式校驗

Java文件復制器（自己起的名字，主要用於數據搬遷，文件復制等中的使用）

springmvc(四) springmvc的數據校驗的實現

HTML JS 數據校驗

java從ldap中導出數據到ldif文件中

SpringMVC——數據轉換 & 數據格式化 & 數據校驗

【SpringMVC】數據校驗時，拋出javax.validation.UnexpectedTypeException: HV000030: No validator could be found for type: java.util.Date.

Jmeter接口測試通過SQL查詢進行數據校驗

數據校驗工具類

SpringMVC（十六）數據校驗

SQL Server數據庫mdf文件中了勒索病毒,擴展名變為arrow

SQL Server數據庫mdf文件中了勒索病毒，擴展名變為.java

數據校驗碼概述

JavaScript的案例（數據校驗，js輪播圖，頁面定時彈窗）

Hadoop中的CRC數據校驗文件

相關推薦