E-MapReduce HDFS文件快速CRC校验工具介绍
背景
在大数据应用场景下经常有数据文件的迁移工作,如果保障迁移之后数据的完整性是一个很常见的问题。对本地文件系统的数据而言,我们一般用md5工具(在Linux下可用md5sum命令)。
而对云存储上的文件来说,md5不一定满足需求。比如阿里云OSS文件并没有提供md5校验值,而是提供了CRC64校验值。本文就给大家介绍一下在大数据场景下,如何用工具快速对比文件。
OSSUtil
首先我们使用OSS官方提供ossutil工具,可以方便的得到云端OSS文件的CRC64:
[hadoop@emr-header-1 ~]$ ossutil stat oss://bucket/file.txt
ACL : default
Accept-Ranges : bytes
Conte