服务器百问百答：什么是Chipkill技术?

显示全部楼层 · 2008-5-6 20:58:40

http://baike.baidu.com/view/1214771.htm

千问 · 2008-5-6 20:58:40

Chipkill技术是IBM公司为了解决目前服务器内存中ECC技术的不足而开发的，是一种新的ECC内存保护标准。我们知道ECC内存只能同时检测和纠正单一比特错误，但如果同时检测出两个以上比特的数据有错误，则一般无能为力。目前ECC技术之所以在服务器内存中广泛采用，一则是因为在这以前其它新的内存技术还不成熟，再则在目前的服务器中系统速度还是很高，在这种频率上一般来说同时出现多比特错误的现象很少发生，正因为这样才使得ECC技术得到了充分地认可和应用，使得ECC内存技术成为几乎所有服务器上的内存标准。但随着基于Intel处理器架构的服务器的CPU性能在以几何级的倍数提高，而硬盘驱动器的性能同期只提高了少数的倍数，因此为了获得足够的性能，服务器需要大量的内存来临时保存CPU上需要读取的数据，这样大的数据访问量就导致单一内存芯片上每次访问时通常要提供4（32位）或8（64位）比特以上的数据，一次性读取这么多数据，出现多位数据错误的可能性会大大地提高，而ECC又不能纠正双比特以上的错误，这样就很可能造成全部比特数据的丢失，系统就很快崩溃了。IBM的Chipkill技术是利用内存的子结构方法来解决这一难题。内存子系统的设计原理是这样的，单一芯片，无论数据宽度是多少，只对于一个给定的ECC识别码，它的影响最多为一比特。举个例子来说明的就是，如果使用4比特宽的DRAM，4比特中的每一位的奇偶性将分别组成不同的ECC识别码，这个ECC识别码是用单独一个数据位来保存的，也就是说保存在不同的内存空间地址。因此，即使整个内存芯片出了故障，每个ECC识别码也将最多出现一比特坏数据，而这种情况完全可以通过ECC逻辑修复，从而保证内存子系统的容错性，保证了服务器在出现故障时，有强大的自我恢复能力。采用这种内存技术的内存可以同时检查并修复4个错误数据位，服务器的可靠性和稳定得到了更加充分的保障。