怎样去校验一个数据_excel怎样数据校验

Ⅰ 两段不连续数据如何进行校验

为了保证数据传输的正确性，因此会采取一些方法来判断数据是否正确，或者在数据出错的时候及时发现进行改正。常用的几种数据校验方式有奇偶校验、CRC校验、LRC校验、格雷码校验、和校验、异或校验等。

一、奇偶校验

1. 定义

根据被传输的一组二进制代码中“1”的个数是奇数或偶数来进行校验。

使用：通常专门设置一个奇偶校验位，存放代码中“1”的个数为奇数还是偶数。若用奇校验，则奇偶校验位为奇数，表示数据正确。若用偶校验，则奇偶校验位为偶数，表示数据正确。

2. 应用

eg. 数据位为 10001100 （1） -> 最后一位为校验位

此时若约定好为奇校验，那么数据表示为正确的，若为偶校验，那么数据传输出错了。

二、CRC校验（循环冗余校验码）

1. 定义

CRC校验是数据通信领域中最常用的一种查错校验码，其特征是信息字段和校验字段的长度可以任意选定。循环冗余检查（CRC）是一种数据传输检错功能，对数据进行多项式计算，并将得到的结果附在帧的后面，接收设备也执行类似的算法，以保证数据传输的正确性和完整性。

2. 计算过程：
a> 设置CRC寄存器，并给其赋值FFFF(hex)。
b> 将数据的第一个8-bit字符与16位CRC寄存器的低8位进行异或，并把结果存入CRC寄存器。
c> CRC寄存器向右移一位，MSB补零，移出并检查LSB。
d> 如果LSB为0，重复第三步；若LSB为1，CRC寄存器与多项式码相异或。

e> 重复第3与第4步直到8次移位全部完成。此时一个8-bit数据处理完毕。

f> 重复第2至第5步直到所有数据全部处理完成。

g> 最终CRC寄存器的内容即为CRC值。

常用的CRC循环冗余校验标准多项式如下： CRC(16位) = X16+X15+X2+1 CRC(CCITT) = X16+X12 +X5+1
CRC(32位) = X32+X26+X23+X16+X12+X11+X10+X8+X7+X5+X4+X2+X+1
以CRC(16位)多项式为例，其对应校验二进制位列为1 1000 0000 0000 0101。

3. 应用：在发送端根据要传送的k位二进制码序列，以一定的规则产生一个校验用的r位监督码(CRC码)，附在原始信息后边，构成一个新的二进制码序列数共k+r位，然后发送出去。在接收端，根据信息码和CRC码之间所遵循的规则进行检验，以确定传送中是否出错。

三、LRC校验隐如

1. 定义：LRC校验用于ModBus协定的ASCII模式，这各校验比较简单，通讯速率较慢，它在ASCII协议中使用，检测了消息域中除开始的冒号及结束的回车换行号外的内容。它仅仅是把每一个需要传输的数据字节迭加后取反加1即可。

2. 应用

eg. 5个字节：01H+03H+21H+02H+00H+02H = 29H，然后取2的补码=D7H。

四、格雷码校验

1. 定义

格灶衫启雷码是一种无权码，塌蚂也是一种循环码。是指任意两组相邻的代码之间只有一位不同，其余为都相同。

如：5的二进制为0101 6的二进制为0110

5的格雷码为0111 6的二进制为0101

五、校验和

1. 定义

校验一组数据项的和是否正确。通常是以十六进制为数制表示的形式。如果校验和的数值超过十六进制的FF，也就是255。

2. 应用

eg. 数据01020304的校验和为a。

六、异或校验

1. 定义

BCC校验其实是奇偶校验的一种，但也是经常使用并且效率较高的一种。所谓BCC校验法，就是在发送前和发送后分别把BCC以前包括ETX字符的所有字符按位异或后，按要求变换(增加或去除一个固定的值)后所得到的字符进行比较。相等即认为通信无错误，不相等则认为通信出错。

七、MD5校验

1. 定义

MD5的实际应用是对一段Message(字节串)产生fingerprint(指纹)，可以防止被篡改

Ⅱ 数据校验的校验方法

实现方法：岩埋最简单的校验就是把原始数据和待比较数据直接进行比较，看是否完全一样这种方法是最安全最准确的。同时也是效率最低的。
应用例子：龙珠cpu在线调试工具bbug.exe。它和龙珠cpu间通讯时，bbug发送一个字节cpu返回收到的字节，bbug确认是刚才发送字节后才继续发送下一个字节的。实现方法：在数据存储和传输中，字节中额粗拍蚂外增加一个比特位，用来检验错误。校验位可以通过数据位异或计算出来。
应用例子：单片机串口通讯有一模式就是8位数据通讯，另加第9位用于放校验值。
bcc异或校验法(block check character)
实现方法：很多基于串口的通讯都用这种既简单又相当准确的方法贺李。它就是把所有数据都和一个指定的初始值（通常是0）异或一次，最后的结果就是校验值，通常把它附在通讯数据的最后一起发送出去。接收方收到数据后自己也计算一次异或和校验值，如果和收到的校验值一致就说明收到的数据是完整的。
校验值计算的代码类似于：
unsigned uCRC=0;//校验初始值
for(int i=0;i<DataLenth;i++) uCRC^=Data[i];
适用范围：适用于大多数要求不高的数据通讯。
应用例子：ic卡接口通讯、很多单片机系统的串口通讯都使用。 (Cyclic Rendancy Check)
实现方法：这是利用除法及余数的原理来进行错误检测的.将接收到的码组进行除法运算，如果除尽，则说明传输无误；如果未除尽，则表明传输出现差错。crc校验具还有自动纠错能力。
crc检验主要有计算法和查表法两种方法，网上很多实现代码。
适用范围：CRC-12码通常用来传送6-bit字符串;CRC-16及CRC-CCITT码则用是来传送8-bit字符。CRC-32：硬盘数据，网络传输等。
应用例子：rar,以太网卡芯片、MPEG解码芯片中实现方法：主要有md5和des算法。
适用范围：数据比较大或要求比较高的场合。如md5用于大量数据、文件校验，des用于保
密数据的校验（数字签名）等等。
应用例子：文件校验、银行系统的交易数据

Ⅲ 数据成果的检验

数据成果是分等成果在数据表格上的聚合，具有结构复杂、记录数多、涵盖面广的特点。数据成果有严格的数量特征要求，是图件成果承载的空间及描述特征信息的基础袜漏和补充。数据成果检验的主要内容分为基本情况、指标体系及权重、分等相关参数、系数成果、分等指数成果、等面积和标准样地。主要采用专家经验法、实地校验法、查阅文献资料法、野外施测验证法、相关分析法和回归分析法等方法。

（一）综合分析验证

对数据成果中的基本情况、指标体系及权重、分等相关参数、系数成果等采用综合分析验证，即先通过查阅文献资料，咨询农业部门专家，检验其合理性，再通过实地校验及专家验证，最终达到数据的可靠。

（二）野棚缓外实测验证

野外实地验证着重检查分等各参数和阶段性成果与实际相符的程度。自查工作人员按照农用地分等成果检查内容进行实地核查，主要是针对分等指数的检验。

在所有分等单元中随机抽取不超过总数 5％的单元进行野外实测，将实测结果与计算结果进行比较。如果与实际不符的单元数小于抽取单元总数的 5％，则认为计算结果总体上合格，但应对不合格单元的相应内容进行校正；如果大于 5％，则应按工作步骤进行全面核查、校正。

以九龙坡区为例，在所有分等单元中抽取 144 个单元，占分等单元总数的 6％，进行野外实测，以标准样地为标准，根据主观判断确定农用地的等别。对野外实测等别结果和计算出来的分等结果进行两个独立样本的检验，所得的相关系数为 0.84，故可以认为这两种分等结果无显着性的差异，分等成果总体上合格。

表 3-29 随机抽取的野外实测分等单元的分布状况表

（三）相关分析和回归分析

回归分析一般是假定因变量为正态分布的随机变量，而自变量为无概率分布的非随机变量。因此，在作回归分析之前必须对每一个数据做正态检验。最直观的正态检链好模验就是 P-P 概率图。P-P 概率图是根据变量的累积比例对所指定的理论分布积累比例绘制的图形，它是一种直观的探查样本数据是否与某个概率分的统计图形相一致的方法，如果被检验的数据符合所指定的分布，则代表样本数据的点簇在一条直线上。以九龙坡区为例，其结果见图 3-31。

图3-31 重庆市九龙坡区样点利用等指数P－P概率图

1. 相关分析

相关分析是回归分析的前提条件，只有两变量间存在显着相关性时回归分析才有意义。因此，进行回归分析之前先进行相关分析。下面以九龙坡区标准粮产量和利用等指数为例，利用 SPSS11.5 对两变量作显着性检验，结果见表 3-30，标准粮产量与利用等指数的相关性达到显着水平。

表 3-30 重庆市九龙坡区标准粮产量与利用等指数相关性分析表

** 说明在 0.01 的显着性水平下的双尾验证为显着性相关。

2. 回归分析

回归分析可以采用线性或非线性回归方法，在分析过程中从不同角度、不同侧面做出合理的解释。同样以九龙坡区为例，以标准粮产量作纵轴，利用等指数作横轴，进行线性回归分析，如图 3-32。对回归分析作 F 检验，结果见表 3-31。

图3-32 重庆市九龙坡区标准粮产量与利用等指数相关关系图

表 3-31 重庆市九龙坡区回归分析 F 检验表

Ⅳ 如何在数据库中校验数据

declare @str varchar(20) --定义一个变量，派埋数用来接收你传尘首入的液正值
set @str = 'email'
if((select name from tb where name= @str) is not null)
print 1
else
print 0

Ⅳ excel怎样数据校验

建一辅助表格，4列，或5列。1 序号名称 A表 B表校验结果开始校验（按钮）2 1 表名 SHEET1 SHEET2 不同3 2 对比项单元格名单元格名相同4 3 对比项单元格名单元格名不同5 … … … …编一个宏，从辅助表格中取数据进行对比。将需要对比校验的数据列于辅助表格中。可根据需要增设其他参数。边上建一按钮（如开始校验），点击时运行宏。还可以在旁边区域设置显示结果输出。

Ⅵ 常用数据校验方法有哪些

奇偶校验”。内存中最小的单位是比特，也称为“位”，位有只有两种状态分别以1和0来标示，每8个连续的比特叫做一个字节（byte）。不带奇偶校验的内存每个字节只有8位，如果其某一位存储了错误的值，就会导致其存储的相应数据发生变化，进而导致应用程序发生错误。而奇偶校验就是在每一字节（8位）之外又增加了一位作为错误检测位。在某字节中存储数据之后，在其8个位上存储的数据是固定的，因为位只能有两种状态1或0，假设存储的数据用位标示为1、1、 1、0、0、1、0、1，那么把每个位相加（1＋1＋1＋0＋0＋1＋0＋1＝5），结果是奇数，那么在校验位定义为1，反之为0。当CPU读取存储的数据时，它会再次把前8位中存储的数据相加，计算结果是否与校验位相一致。从而一定程度上能检测出内存错误，奇偶校验只能检测出错误而无法对其进行修正，同时虽然双位同时发生错误的概率相当低，但奇偶校验却无法检测出双位错误。

MD5的全称是Message-Digest Algorithm 5，在90年或陆尺代初由MIT的计算机科学实验室和RSA Data Security Inc 发明，由 MD2/MD3/MD4 发展而来的。MD5的实际应用是对一段Message(字节串)产生fingerprint(指纹)，可以防止被“篡改”。举个例子，天天安全网提供下载的MD5校验值软件WinMD5.zip，其MD5值是，但你下载该软件后计算MD5 发现其值却是，那说明该ZIP已经被他人修改过，那还用衫高不用该软件那你可自己琢磨着看啦。

MD5广泛用于加密和解密技术上，在很多操作系统中，用户的密码是以MD5值（或类似的其它算法）的方式保存的，用户Login的时候，系统是把用户输入的密码计算成MD5值，然后再去和系统中保存的MD5值进行比较，来验证该用户的合法性。

MD5校验值软件WinMD5.zip汉化版，使用极其简单，运行该软件后，把需要计算MD5值的文件用鼠标拖到正在处理的框里边，下面将直接显示其MD5值以及所测试的文件名称，可以保留多个文件测试的MD5值，选定所需要复制的MD5值，用CTRL+C就可以复制到其它地方了。
参考资料：http://..com/question/3933661.html

CRC算法原理及C语言实现－来自（我爱单片机）

摘要本文从理论上推导出CRC算法实现原理，给出三种分别适应不同计算机或微控制器硬件环境的C语言程序。读者更能根据本算法原理，用不同的语言编写出独特风格更加悉州实用的CRC计算程序。
关键词 CRC 算法 C语言
1 引言
循环冗余码CRC检验技术广泛应用于测控及通信领域。CRC计算可以靠专用的硬件来实现，但是对于低成本的微控制器系统，在没有硬件支持下实现CRC检验，关键的问题就是如何通过软件来完成CRC计算，也就是CRC算法的问题。
这里将提供三种算法，它们稍有不同，一种适用于程序空间十分苛刻但CRC计算速度要求不高的微控制器系统，另一种适用于程序空间较大且CRC计算速度要求较高的计算机或微控制器系统，最后一种是适用于程序空间不太大，且CRC计算速度又不可以太慢的微控制器系统。
2 CRC简介
CRC 校验的基本思想是利用线性编码理论，在发送端根据要传送的k位二进制码序列，以一定的规则产生一个校验用的监督码（既CRC码）r位，并附在信息后边，构成一个新的二进制码序列数共(k+r)位，最后发送出去。在接收端，则根据信息码和CRC码之间所遵循的规则进行检验，以确定传送中是否出错。
16位的CRC码产生的规则是先将要发送的二进制序列数左移16位（既乘以）后，再除以一个多项式，最后所得到的余数既是CRC码，如式（2-1）式所示，其中B(X)表示n位的二进制序列数，G(X)为多项式，Q(X)为整数，R(X)是余数（既CRC码）。
（2-1）
求CRC 码所采用模2加减运算法则，既是不带进位和借位的按位加减，这种加减运算实际上就是逻辑上的异或运算，加法和减法等价，乘法和除法运算与普通代数式的乘除法运算是一样，符合同样的规律。生成CRC码的多项式如下，其中CRC-16和CRC-CCITT产生16位的CRC码，而CRC-32则产生的是32位的CRC码。本文不讨论32位的CRC算法，有兴趣的朋友可以根据本文的思路自己去推导计算方法。
CRC-16：（美国二进制同步系统中采用）
CRC-CCITT：（由欧洲CCITT推荐）
CRC-32：

接收方将接收到的二进制序列数（包括信息码和CRC码）除以多项式，如果余数为0，则说明传输中无错误发生，否则说明传输有误，关于其原理这里不再多述。用软件计算CRC码时，接收方可以将接收到的信息码求CRC码，比较结果和接收到的CRC码是否相同。

3 按位计算CRC
对于一个二进制序列数可以表示为式(3-1):
(3-1)
求此二进制序列数的CRC码时，先乘以后（既左移16位），再除以多项式G(X)，所得的余数既是所要求的CRC码。如式(3-2)所示：
(3-2)
可以设： (3-3)
其中为整数，为16位二进制余数。将式(3-3)代入式(3-2)得：

(3-4)
再设： (3-5)
其中为整数，为16位二进制余数，将式(3-5)代入式(3-4)，如上类推，最后得到：
(3-6)
根据CRC的定义，很显然，十六位二进制数既是我们要求的CRC码。
式(3 -5)是编程计算CRC的关键，它说明计算本位后的CRC码等于上一位CRC码乘以2后除以多项式，所得的余数再加上本位值除以多项式所得的余数。由此不难理解下面求CRC码的C语言程序。*ptr指向发送缓冲区的首字节，len是要发送的总字节数，0x1021与多项式有关。
[code]
unsigned int cal_crc(unsigned char *ptr, unsigned char len) {
unsigned char i;
unsigned int crc=0;
while(len--!=0) {
for(i=0x80; i!=0; i/=2) {
if((crc&0x8000)!=0) {crc*=2; crc^=0x1021;} /* 余式CRC乘以2再求CRC */
else crc*=2;
if((*ptr&i)!=0) crc^=0x1021; /* 再加上本位的CRC */
}
ptr++;
}
return(crc);
}
[code]
按位计算CRC虽然代码简单，所占用的内存比较少，但其最大的缺点就是一位一位地计算会占用很多的处理器处理时间，尤其在高速通讯的场合，这个缺点更是不可容忍。因此下面再介绍一种按字节查表快速计算CRC的方法。
4 按字节计算CRC
不难理解，对于一个二进制序列数可以按字节表示为式(4-1)，其中为一个字节(共8位)。
(4-1)
求此二进制序列数的CRC码时，先乘以后（既左移16位），再除以多项式G(X)，所得的余数既是所要求的CRC码。如式(4-2)所示：
（4-2）
可以设： (4-3)
其中为整数，为16位二进制余数。将式(4-3)代入式(4-2)得：
（4-4）
因为：
（4-5）
其中是的高八位，是的低八位。将式（4-5）代入式（4-4），经整理后得：
（4-6）
再设： (4-7)
其中为整数，为16位二进制余数。将式(4-7)代入式(4-6)，如上类推，最后得：
(4-
很显然，十六位二进制数既是我们要求的CRC码。
式(4 -7)是编写按字节计算CRC程序的关键，它说明计算本字节后的CRC码等于上一字节余式CRC码的低8位左移8位后，再加上上一字节CRC右移8位（也既取高8位）和本字节之和后所求得的CRC码，如果我们把8位二进制序列数的CRC全部计算出来，放如一个表里，采用查表法，可以大大提高计算速度。由此不难理解下面按字节求CRC码的C语言程序。*ptr指向发送缓冲区的首字节，len是要发送的总字节数，CRC余式表是按0x11021多项式求出的。
[code]
unsigned int cal_crc(unsigned char *ptr, unsigned char len) {
unsigned int crc;
unsigned char da;
unsigned int crc_ta[256]={ /* CRC余式表 */
0x0000, 0x1021, 0x2042, 0x3063, 0x4084, 0x50a5, 0x60c6, 0x70e7,
0x8108, 0x9129, 0xa14a, 0xb16b, 0xc18c, 0xd1ad, 0xe1ce, 0xf1ef,
0x 1231, 0x0210, 0x3273, 0x2252, 0x52b5, 0x4294, 0x72f7, 0x62d6,
0x9339, 0x8318, 0xb37b, 0xa35a, 0xd3bd, 0xc39c, 0xf3ff, 0xe3de,
0x2462, 0x3443, 0x0420, 0x1401, 0x64e6, 0x74c7, 0x44a4, 0x5485,
0xa56a, 0xb54b, 0x8528, 0x9509, 0xe5ee, 0xf5cf, 0xc5ac, 0xd58d,
0x3653, 0x2672, 0x1611, 0x0630, 0x76d7, 0x66f6, 0x5695, 0x46b4,
0xb75b, 0xa77a, 0x9719, 0x8738, 0xf7df, 0xe7fe, 0xd79d, 0xc7bc,
0x48c4, 0x58e5, 0x6886, 0x78a7, 0x0840, 0x1861, 0x2802, 0x3823,
0xc9cc, 0xd9ed, 0xe98e, 0xf9af, 0x8948, 0x9969, 0xa90a, 0xb92b,
0x5af5, 0x4ad4, 0x7ab7, 0x6a96, 0x1a71, 0x0a50, 0x3a33, 0x2a12,
0xdbfd, 0xcbdc, 0xfbbf, 0xeb9e, 0x9b79, 0x8b58, 0xbb3b, 0xab1a,
0x6ca6, 0x7c87, 0x4ce4, 0x5cc5, 0x2c22, 0x3c03, 0x0c60, 0x1c41,
0xedae, 0xfd8f, 0xcdec, 0xddcd, 0xad2a, 0xbd0b, 0x8d68, 0x9d49,
0x7e97, 0x6eb6, 0x5ed5, 0x4ef4, 0x3e13, 0x2e32, 0x1e51, 0x0e70,
0xff9f, 0xefbe, 0xdfdd, 0xcffc, 0xbf1b, 0xaf3a, 0x9f59, 0x8f78,
0x9188, 0x81a9, 0xb1ca, 0xa1eb, 0xd10c, 0xc12d, 0xf14e, 0xe16f,
0x1080, 0x00a1, 0x30c2, 0x20e3, 0x5004, 0x4025, 0x7046, 0x6067,
0x83b9, 0x9398, 0xa3fb, 0xb3da, 0xc33d, 0xd31c, 0xe37f, 0xf35e,
0x02b1, 0x1290, 0x22f3, 0x32d2, 0x4235, 0x5214, 0x6277, 0x7256,
0xb5ea, 0xa5cb, 0x95a8, 0x8589, 0xf56e, 0xe54f, 0xd52c, 0xc50d,
0x34e2, 0x24c3, 0x14a0, 0x0481, 0x7466, 0x6447, 0x5424, 0x4405,
0xa7db, 0xb7fa, 0x8799, 0x97b8, 0xe75f, 0xf77e, 0xc71d, 0xd73c,
0x26d3, 0x36f2, 0x0691, 0x16b0, 0x6657, 0x7676, 0x4615, 0x5634,
0xd94c, 0xc96d, 0xf90e, 0xe92f, 0x99c8, 0x89e9, 0xb98a, 0xa9ab,
0x5844, 0x4865, 0x7806, 0x6827, 0x18c0, 0x08e1, 0x3882, 0x28a3,
0xcb7d, 0xdb5c, 0xeb3f, 0xfb1e, 0x8bf9, 0x9bd8, 0xabbb, 0xbb9a,
0x4a75, 0x5a54, 0x6a37, 0x7a16, 0x0af1, 0x1ad0, 0x2ab3, 0x3a92,
0xfd2e, 0xed0f, 0xdd6c, 0xcd4d, 0xbdaa, 0xad8b, 0x9de8, 0x8dc9,
0x7c26, 0x6c07, 0x5c64, 0x4c45, 0x3ca2, 0x2c83, 0x1ce0, 0x0cc1,
0xef1f, 0xff3e, 0xcf5d, 0xdf7c, 0xaf9b, 0xbfba, 0x8fd9, 0x9ff8,
0x6e17, 0x7e36, 0x4e55, 0x5e74, 0x2e93, 0x3eb2, 0x0ed1, 0x1ef0
};

crc=0;
while(len--!=0) {
da=(uchar) (crc/256); /* 以8位二进制数的形式暂存CRC的高8位 */
crc<<=8; /* 左移8位，相当于CRC的低8位乘以 */
crc^=crc_ta[da^*ptr]; /* 高8位和当前字节相加后再查表求CRC ，再加上以前的CRC */
ptr++;
}
return(crc);
}
很显然，按字节求CRC时，由于采用了查表法，大大提高了计算速度。但对于广泛运用的8位微处理器，代码空间有限，对于要求256个CRC余式表（共512字节的内存）已经显得捉襟见肘了，但CRC的计算速度又不可以太慢，因此再介绍下面一种按半字节求CRC的算法。
5 按半字节计算CRC
同样道理，对于一个二进制序列数可以按字节表示为式(5-1)，其中为半个字节(共4位)。
(5-1)
求此二进制序列数的CRC码时，先乘以后（既左移16位），再除以多项式G(X)，所得的余数既是所要求的CRC码。如式(4-2)所示：
（5-2）
可以设： (5-3)
其中为整数，为16位二进制余数。将式(5-3)代入式(5-2)得：
（5-4）
因为：
（5-5）
其中是的高4位，是的低12位。将式（5-5）代入式（5-4），经整理后得：
（5-6）
再设： (5-7)
其中为整数，为16位二进制余数。将式(5-7)代入式(5-6)，如上类推，最后得：
(5-
很显然，十六位二进制数既是我们要求的CRC码。
式(5 -7)是编写按字节计算CRC程序的关键，它说明计算本字节后的CRC码等于上一字节CRC码的低12位左移4位后，再加上上一字节余式CRC右移4位（也既取高4位）和本字节之和后所求得的CRC码，如果我们把4位二进制序列数的CRC全部计算出来，放在一个表里，采用查表法，每个字节算两次（半字节算一次），可以在速度和内存空间取得均衡。由此不难理解下面按半字节求CRC码的C语言程序。*ptr指向发送缓冲区的首字节，len是要发送的总字节数，CRC余式表是按0x11021多项式求出的。
unsigned cal_crc(unsigned char *ptr, unsigned char len) {
unsigned int crc;
unsigned char da;
unsigned int crc_ta[16]={ /* CRC余式表 */
0x0000,0x1021,0x2042,0x3063,0x4084,0x50a5,0x60c6,0x70e7,
0x8108,0x9129,0xa14a,0xb16b,0xc18c,0xd1ad,0xe1ce,0xf1ef,
}

crc=0;
while(len--!=0) {
da=((uchar)(crc/256))/16; /* 暂存CRC的高四位 */
crc<<=4; /* CRC右移4位，相当于取CRC的低12位）*/
crc^=crc_ta[da^(*ptr/16)]; /* CRC的高4位和本字节的前半字节相加后查表计算CRC，
然后加上上一次CRC的余数 */
da=((uchar)(crc/256))/16; /* 暂存CRC的高4位 */
crc<<=4; /* CRC右移4位，相当于CRC的低12位） */
crc^=crc_ta[da^(*ptr&0x0f)]; /* CRC的高4位和本字节的后半字节相加后查表计算CRC，
然后再加上上一次CRC的余数 */
ptr++;
}
return(crc);
}
[code]
5 结束语
以上介绍的三种求CRC的程序，按位求法速度较慢，但占用最小的内存空间；按字节查表求CRC的方法速度较快，但占用较大的内存；按半字节查表求CRC的方法是前两者的均衡，即不会占用太多的内存，同时速度又不至于太慢，比较适合8位小内存的单片机的应用场合。以上所给的C程序可以根据各微处理器编译器的特点作相应的改变，比如把CRC余式表放到程序存储区内等。[/code]

hjzgq 回复于：2003-05-15 14:12:51
CRC32算法学习笔记以及如何用java实现出自：csdn bootcool 2002年10月19日 23:11 CRC32算法学习笔记以及如何用java实现

CRC32算法学习笔记以及如何用java实现

一：说明

论坛上关于CRC32校验算法的详细介绍不多。前几天偶尔看到Ross N. Williams的文章，总算把CRC32算法的来龙去脉搞清楚了。本来想把原文翻译出来，但是时间参促，只好把自己的一些学习心得写出。这样大家可以更快的了解CRC32的主要思想。由于水平有限，还恳请大家指正。原文可以访问：http://www.repairfaq.org/filipg/LINK/F_crc_v31.html 。

二：基本概念及相关介绍

2．1 什么是CRC

在远距离数据通信中，为确保高效而无差错地传送数据，必须对数据进行校验即差错控制。循环冗余校验CRC(Cyclic Rendancy Check/Code)是对一个传送数据块进行校验，是一种高效的差错控制方法。

CRC校验采用多项式编码方法。多项式乘除法运算过程与普通代数多项式的乘除法相同。多项式的加减法运算以2为模，加减时不进，错位，如同逻辑异或运算。

2．2 CRC的运算规则

CRC加法运算规则：0+0=0

0+1=1

1+0=1

1+1=0 (注意：没有进位)

CRC减法运算规则：

0-0=0

0-1=1

1-0=1

1-1=0

CRC乘法运算规则：

0*0=0

0*1=0

1*0=0

1*1=1

CRC除法运算规则：

1100001010 (注意:我们并不关心商是多少。)

_______________

10011 11010110110000

10011,,.,,....

-----,,.,,....

10011,.,,....

10011,.,,....

-----,.,,....

00001.,,....

00000.,,....

-----.,,....

00010,,....

00000,,....

-----,,....

00101,....

00000,....

-----,....

01011....

00000....

-----....

10110...

10011...

-----...

01010..

00000..

-----..

10100.

10011.

-----.

01110

00000

-----

1110 = 余数

2．3 如何生成CRC校验码

(1) 设G(X)为W阶，在数据块末尾添加W个0，使数据块为M+ W位，则相应的多项式为XrM(X)；

(2) 以2为模，用对应于G(X)的位串去除对应于XrM(X)的位串，求得余数位串；

(3) 以2为模，从对应于XrM(X)的位串中减去余数位串，结果就是为数据块生成的带足够校验信息的CRC校验码位串。

2．4 可能我们会问那如何选择G(x)

可以说选择G(x)不是一件很容易的事。一般我们都使用已经被大量的数据，时间检验过的，正确的，高效的，生成多项式。一般有以下这些：

16 bits: (16,12,5,0) [X25 standard]

(16,15,2,0) ["CRC-16"]

32 bits: (32,26,23,22,16,12,11,10,8,7,5,4,2,1,0) [Ethernet]

三: 如何用软件实现CRC算法

现在我们主要问题就是如何实现CRC校验，编码和解码。用硬件实现目前是不可能的，我们主要考虑用软件实现的方法。

以下是对作者的原文的翻译：

我们假设有一个4 bits的寄存器，通过反复的移位和进行CRC的除法，最终该寄存器中的值就是我们所要求的余数。

3 2 1 0 Bits

+---+---+---+---+

Pop <-- | | | | | <----- Augmented message（已加0扩张的原始数据）

+---+---+---+---+

1 0 1 1 1 = The Poly

(注意: The augmented message is the message followed by W zero bits.)

依据这个模型，我们得到了一个最最简单的算法：

把register中的值置0.

把原始的数据后添加r个0.

While (还有剩余没有处理的数据)

Begin

把register中的值左移一位，读入一个新的数据并置于register的0 bit的位置。

If (如果上一步的左移操作中的移出的一位是1)

register = register XOR Poly.

End

现在的register中的值就是我们要求的crc余数。

我的学习笔记：

可为什么要这样作呢？我们从下面的实例来说明：

1100001010

_______________

10011 11010110110000

10011,,.,,....

-----,,.,,....

－》 10011,.,,....

10011,.,,....

-----,.,,....

－》 00001.,,....

00000.,,....

-----.,,....

00010,,....

00000,,....

-----,,....

00101,....

00000,....

我们知道G(x)的最高位一定是1，而商1还是商0是由被除数的最高位决定的。而我们并不关心商究竟是多少，我们关心的是余数。例如上例中的G(x)有5 位。我们可以看到每一步作除法运算所得的余数其实就是被除数的最高位后的四位于G(x)的后四位XOR而得到的。那被除数的最高位有什么用呢？我们从打记号的两个不同的余数就知道原因了。当被除数的最高位是1时，商1然后把最高位以后的四位于G(x)的后四位XOR得到余数；如果最高位是0，商0然后把被除数的最高位以后的四位于G(x)的后四位XOR得到余数，而我们发现其实这个余数就是原来被除数最高位以后的四位的值。也就是说如果最高位是0就不需要作XOR的运算了。到这我们总算知道了为什么先前要这样建立模型，而算法的原理也就清楚了。

以下是对作者的原文的翻译：

可是这样实现的算法却是非常的低效。为了加快它的速度，我们使它一次能处理大于4 bit的数据。也就是我们想要实现的32 bit的CRC校验。我们还是假设有和原来一样的一个4 "bit"的register。不过它的每一位是一个8 bit的字节。

3 2 1 0 Bytes

+----+----+----+----+

Pop <-- | | | | | <----- Augmented message

+----+----+----+----+

1<------32 bits------> （暗含了一个最高位的“1”）

根据同样的原理我们可以得到如下的算法：

While (还有剩余没有处理的数据)

Begin

检查register头字节，并取得它的值

求不同偏移处多项式的和

register左移一个字节，最右处存入新读入的一个字节

把register的值和多项式的和进行XOR运算

End

我的学习笔记：

可是为什么要这样作呢？同样我们还是以一个简单的例子说明问题：

假设有这样的一些值：

当前register中的值： 01001101

4 bit应该被移出的值：1011

生成多项式为： 101011100

Top Register

---- --------

1011 01001101

1010 11100 + (CRC XOR)

-------------

0001 10101101

首4 bits 不为0说明没有除尽，要继续除:

0001 10101101

1 01011100 + (CRC XOR)

-------------

0000 11110001

^^^^

首4 bits 全0说明不用继续除了。

那按照算法的意思作又会有什么样的结果呢？

1010 11100

1 01011100+

-------------

1011 10111100

1011 10111100

1011 01001101+

-------------

0000 11110001

现在我们看到了这样一个事实，那就是这样作的结果和上面的结果是一致的。这也说明了算法中为什么要先把多项式的值按不同的偏移值求和，然后在和 register进行异或运算的原因了。另外我们也可以看到，每一个头字节对应一个值。比如上例中：1011，对应01001101。那么对于 32 bits 的CRC 头字节，依据我们的模型。头8 bit就该有 2^8个，即有256个值与它对应。于是我们可以预先建立一个表然后，编码时只要取出输入数据的头一个字节然后从表中查找对应的值即可。这样就可以大大提高编码的速度了。

+----+----+----+----+

+-----< | | | | | <----- Augmented message

| +----+----+----+----+

| ^

| |

| XOR

| |

| 0+----+----+----+----+

v +----+----+----+----+

| +----+----+----+----+

| +----+----+----+----+

| +----+----+----+----+

| +----+----+----+----+

| +----+----+----+----+

+-----> +----+----+----+----+

+----+----+----+----+

+----+----+----+----+

+----+----+----+----+

+----+----+----+----+

255+----+----+----+----+

以下是对作者的原文的翻译：

上面的算法可以进一步优化为：

1：register左移一个字节,从原始数据中读入一个新的字节.

2：利用刚从register移出的字节作为下标定位 table 中的一个32位的值

3：把这个值XOR到register中。

4：如果还有未处理的数据则回到第一步继续执行。

用C可以写成这样：

r=0;

while (len--)
r = ((r << | p*++) ^ t[(r >> 24) & 0xFF];

可是这一算法是针对已经用0扩展了的原始数据而言的。所以最后还要加入这样的一个循环，把W个0加入原始数据。

我的学习笔记：

注意不是在预处理时先加入W个0，而是在上面算法描述的循环后加入这样的处理。

for (i=0; i<W/4; i++)
r = (r << ^ t[(r >> 24) & 0xFF];
所以是W/4是因为若有W个0，因为我们以字节（8位）为单位的，所以是W/4个0 字节。注意不是循环w/8次
以下是对作者的原文的翻译：
1：对于尾部的w/4个0字节，事实上它们的作用只是确保所有的原始数据都已被送入register，并且被算法处理。
2：如果register中的初始值是0，那么开始的4次循环，作用只是把原始数据的头4个字节送入寄存器。（这要结合table表的生成来看）。就算 register的初始值不是0，开始的4次循环也只是把原始数据的头4个字节把它们和register的一些常量XOR，然后送入register中。

3A xor B) xor C = A xor (B xor C)

总上所述，原来的算法可以改为:

+-----<Message (non augmented)
|
v 3 2 1 0 Bytes
| +----+----+----+----+
XOR----<| | | | |
| +----+----+----+----+
| ^
| |
| XOR
| |
| 0+----+----+----+----+
v +----+----+----+----+
| +----+----+----+----+
| +----+----+----+----+
| +----+----+----+----+
| +----+----+----+----+
| +----+----+----+----+
+----->+----+----+----+----+
+----+----+----+----+
+----+----+----+----+
+----+----+----+----+
+----+----+----+----+
255+----+----+----+----+

算法：

1：register左移一个字节,从原始数据中读入一个新的字节.

2：利用刚从register移出的字节和读入的新字节XOR从而产生定位下标，从table中取得相应的值。

3：把该值XOR到register中

4：如果还有未处理的数据则回到第一步继续执行。

我的学习笔记：

对这一算法我还是不太清楚，或许和XOR的性质有关，恳请大家指出为什么？

谢谢。

到这，我们对CRC32的算法原理和思想已经基本搞清了。下章，我想着重根据算法思想用java语言实现。

hjzgq 回复于：2003-05-15 14:14:51
数学算法一向都是密码加密的核心，但在一般的软路加密中，它似乎并不太为人们所关心，因为大多数时候软体加密本身实现的都是一种编程上的技巧。但近几年来随着序列号加密程序的普及，数学算法在软体加密中的比重似乎是越来越大了。

我们先来看看在网路上大行其道的序列号加密的工作原理。当用户从网路上下载某个Shareware -- 共享软体后，一般都有使用时间上的限制，当过了共享软体的试用期后，你必须到这个软体的公司去注册后方能继续使用。注册过程一般是用户把自己的私人信息（一般主要指名字）连同信用卡号码告诉给软体公司，软体公司会根据用户的信息计算出一个序列码出来，在用户得到这个序列码后，按照注册需要的步骤在软体中输入注册信息和注册码，其注册信息的合法性由软体验证通过后，软体就会取消掉本身的各种限制。这种加密实现起来比较简单，不需要额外的成本，用户购买也非常方便，在网上的软体80%都是以这种方式来保护的。

我们可以注意到软体验证序列号的合法性过程，其实就是验证用户名与序列号之间的换算关系是否正确的过程。其验证最基本的有两种，一种是按用户输入的姓名来生成注册码，再同用户输入的注册码相比较，公式表示如下：

序列号 = F(用户名称)

Ⅶ 技术分享 | 两个单机 MySQL 该如何校验数据一致性

业务有两个 MySQL 集群是通过 MQ 进行同步的，昨晚 MQ 出现异常，报了很多主键冲突，想请 dba 帮忙校验一下两个集群的数据是否一致。

当接到这个需求的时候并没当回事，隐约有点印象 pt-table-checksum 能通过 dsn 实现 MySQL 的数据校验，所以当时就应承下来了。不曾想，啪啪打脸，回想起来真是草率了。

本文参考的是 pt-table-checksum 的校验逻辑，基于数据块去遍历每个表，然后比对 checksum 的值判断该块是否一致，本文主要是猛哗销想聊聊我在实现数据校验脚本过程中遇到的问题芦老以及解决思路，希望对大家有帮助。

利用线上的配置文件搭建一套主从环境。

这个用例将通过 dsn 方式连接从库。

这个用例将通过 dsn 方式连接从库，但是会将从库的复制链路 stop 掉，并清空复制信息。

熟悉 pt-table-checksum 的朋友应该都知道，该工具是基于主键(非空唯一键)进行扫描数据行，其实这个逻辑针对整型单列主键实现起来很简单，但是如果是联合主键且是字符型，好像就没那么简单了，有兴趣的可以思考一下。下面我先说一下大致的逻辑：

第一步：枝游判断 _min_rowid 是否为空，为空就取该表的第一行，并记作 _min_rowid 。

第二步：根据 _min_rowid 作为条件进行扫描该表，取下一个数据块的数据，记录数据块的最后一行数据的主键值，记录 checksum 的值，并记下 _min_rowid 。

第三步：判断_min_rowid是否为空，非空重复第二步，为空退出检查。

通过上述三个步骤可以看到，如果是单列整型的主键，实现起来很简单，但是问题来了，业务的表的主键五花八门，有的是联合主键，有的是字符型的联合主键，还有整型+字符型的联合主键，那么上述的实现方式显然是有问题的。所以实现起来需要多考虑几个问题：

鉴于存在上述两个问题，可以参考如下实现逻辑：

假如有这么一个联合主键字段 primary key(a,b,c) 都是整型，该如何编写遍历 sql 呢？起初我的想法很简单，具体如下：

至此在编写校验脚本过程遇到的两个问题就算告一段落了，剩下的就是各种逻辑处理了，不过多赘述，有兴趣的可以自行阅读脚本文件。

本着最低程度影响业务，所以取消加锁逻辑。但是又要保证该数据块的数据一致性，如果这个数据块是个热数据，当前正在变更，那么校验的时候难免会不一致。所以只能通过多次校验实现，默认是校验20次，其中有一次校验结果是一致，就认为是一致的，如果前5次校验过程中，这个数据块的数据没有变化，也视为不一致（可能是因为延迟，也可能是真的不一致）。

pt-table-checksum 不校验表结构，改写时添加表结构的校验。

可以基于表的并行校验，可由用户指定并行数，但是脚本有个安全机制，如果用户指定的并行数大于当前 cpu 空闲核心数，就会按当前（空闲核心数-1）作为并行数。

添加网络监控，由用户指定网络上限百分比，当网卡流量超过这个百分比就暂停任务，等待网卡流量低于阈值才会继续任务。这个主要是出于对于中间件（mycat）的场景或者分布式数据库（tidb）的场景。

支持定时任务功能，用户可以使用这个功能规避业务高峰，仅在业务低峰进行数据校验。

不仅限于主从节点的校验，只要目标对象支持 MySQL 的标准 SQL 语法就能做数据校验。

校验逻辑是通过 SQL 采集目标节点的数据库，如果目标数据库系统当前存在异常，无疑是雪上加霜，将会触发未知问题，所以添加超时机制，单次取数据块的阈值是5s，超过5秒就放弃等待重试。测试发现，有时候即便触发超时了，但是 SQL 任务还是会在目标数据库的 processlist 中能看到，所以又添加了一个 kill 机制，超时后会触发一个 kill processlist id 的动作。另外为了避免 kill 错，在每个 SQL 对象添加了一个32位的 md5 值，每次 kill 的时候会校验这个 md5 值。

本工具借鉴 pt-table-checksum 工具思路改写，可以检查随意两个 mysql（支持 mysql sql 语法的数据库）节点的数据一致性。

基于主键以一个块遍历数据表，比对checksum的值，块的大小可通过参数指定。（1）获取该表的第一个数据块的查询SQL。（2）将两个目标节点的数据块的checksum的值，记录到临时文件，file1 file2。（3）比对file1 file2是否一致。

第一步：先开启一个 screen 监控网络

第二步：新开启一个screen执行校验任务

（1）info.log 文件

（2）list目录

（3）md5 目录

（4）pri 目录

（5）res 目录

这是 table 目录下记录某个数据块不一致的一个例子

这是 diff 目录下记录某个数据行不一致的一个例子

（6）skip.log 文件

本工具是参考了 pt-table-checksum 工具的一些思路并结合自身经验进行改写，尚有很多不足之处，仅做学习交流之用，如有线上环境使用需求，请在测试环境充分测试。

怎样去校验一个数据

与怎样去校验一个数据相关的内容