乐发lv 使用、功能与设置选项不断演变,所以数据中心硬件经理需要知晓当今服务器内存的类型以及它们如何影响计算。
保障服务器可靠性
内存存储着每个虚拟机的镜像与数据,所以内存的可靠性对企业服务器来说尤其重要。如果内存故障,很可能导致该内存中虚拟机奔溃,造成数据丢失或更严重的服务器故障。不同类型服务器内存可以在缓解内存故障上起到不同效果。
错误校正码(ECC)是一种已知技术,用于定位与校正内存内容中的错误。ECC采用某种算法来存储内存中一定量的数据,如单64位内存地址,接着为数据计算一个代码,将代码放入某个保留内存空间。当服务器读取内存内容,并计算出一个ECC,再将其与内存中的ECC相比较。如果两者匹配,则被认为是有效。如果不匹配,则ECC算法会检测那个比特是错误的并修改之。ECC检测不能修复双位错误。
高级ECC通过分配多个独立的ECC设备,而不是单个进行内存读取,扩展了ECC机制。高级ECC可以纠正单位与双位错误并检测内存设备故障。
单设备错误校正(SDDC)采用混合ECC结构检测并修正多位错误,最多支持4比特;该技术同样能够确认并关闭双列直插存储器模块(DIMM)上失效的内存芯片 。SDDC可以从服务器内存映射中移除失效芯片或整个内存模块,让服务器通过备用模块恢复内存内容。高端服务器制造商采用交易标签来识别、关闭与恢复内存故障管理,如IBM的Chipkill,Hewlett Packard Enterprise的Advanced ECC与Chipspare,还有基于Intel的锁步内存。
某些服务器内存类型会牺牲性能来保护内存完整性。配置为高可靠性的服务器,会试图对一些相关联的故障进行处理,如总线频率(速度)、温度、电压水平和内存刷新率等。服务器会降低频率与电压,从而降低内存组件的压力,热损耗和故障率。
乐发lv 如果你正计划更新数据中心服务器,会发现有更多的服务器内存选项可用,现在的内存模块使用串行存在检测(SPD)空间,来记录每个模块可校正的内存错误数量与位置。SPD跟踪错误率并寻找可能出现可修正错误急剧增加的模块。技术人员可以据此先发制人,如内存热备或将工作负载迁移至其他服务器,然后更换有问题的DIMM。相似的技术,如内存页退役,跟踪可恢复的内存错误到内存页或区域。一旦发现可校正错误变得过大,系统会将受灾页面退休并禁止使用,直到问题内存模块被更换。
服务器内存在性能中的角色
数据中心硬件采购者为了获取最佳内存与系统性能,应该为每个DIMM通道购买相同区块、容量和速度的内存。如果DIMM容量不同时,需要确保所有DIMM兼容相同的区块与速度,而且所有通道都采用相同大小的组合。每个可用通道都应该在相同位置安装逻辑唯一的DIMM。
要理解服务器级的内存配置,最好是理解内存的几何形状与特征。区块通常是与DIMM的内存芯片组织方式与如何实现硬件层交互有关。例如,一块拥有8个8位芯片的DIMM,拥有一个区块,而一块在双面都拥有8个芯片的DIMM则拥有两个区块。
乐发lv 内存模块容量直接与构成模块的内存芯片有关。容量通常被以芯片深度x芯片宽度x区块数方式进行标注。例如,拥有4个区块的128Mbit x 16位芯片,具有的总内存容量为128 x 16 x 4 = 8,192 Mbits或1GB内存容量。DIMM被组织到通道中,并通过服务器内存管理器管理。
DIMM同样可以通过速度来分类:总线连接内存与处理器的时钟率。安装了DDR4 DIMM的最新企业级服务器创下了每秒1866 - 2133百万次数据传输(MT/s)的记录,与此同时采用较旧的DDR3 DIMM内存的服务器最高只能达到1600MT/s或1333MT/s。
乐发lv 服务器处理器必须支持所需的内存频率。旧的或更廉价的服务器内存类型可能限制了内存以较低的频率运行,影响性能。
并不是越多越好
乐发lv 增加服务器内存容量可以简单增加更多的DIMM,但过多的DIMM可能会降低频率进而影响性能。例如,装有两个DIMM的服务器,速度可达2133MT/s,但如果再增加一根,速度会降低为1866MT/s。建议采用较少的DIMM,而使用更大容量的内存。低负载DIMM能够提供最大的容量与性能。
乐发lv 如果服务器支持,就选择弹性内存取代高级ECC。高级ECC会捆绑多个内存通道主机控制器来支持SDDC大数据带宽(x8)内存芯片。某些情况下,一些通道可能无法使用,而且无法被填充。多内存控制器之间交互也同样会阻碍内存性能。诸如Dell PowerEdge R710提供了另一种优化模式,以支持独立运行所有内存通道和内存控制器,但这样可能会限制内存集合不大于x4。
为提升数据中心技术并支持更多并发虚拟机,服务器买家需要理解这些方法以提高内存设备性能。