SSD 测试用例及实现方法专题(一)
测试内容
从测试的内容上区分,企业级SSD测试会有以下几类:
1.硬件测试部分
2.产线测试部分
3.固件测试部分
4.前端测试部分
后续文章将会细说这几个部分的。
一、硬件测试部分总览
(1), 首先要说的是SSD的硬件模块组成。(消费级和企业级有些差异)
(2), 核心模块主控制器:消费级有SMI、marvell、Maxio、瑞昱等厂家的主控,SATA 和Nvme Pcie3.0。企业级国内有华为海思H181x系列等。在实际速度上,尤其nvme协议上,受到制成(温控相关)及后端Nand Flash 接口速率(CH/CE)影响。虽然国内目前有很多号称有做企业级SSD方案的主控厂,但是就目前了解到的,出货量仍然较少。基于一些小道消息,英韧科技的企业级主控有部分在铠侠企业级SSD应用,而像Memblaze 企业级SSD主控方案更像是镁光的技术团队所做,至于Dera 和 大普威做企业级SSD 产品,主控方案也应该是类似于拿Core 源码进行二次开发。芯片都是烧钱的,没有稳定渠道出货的公司做企业级主控芯片,几乎是玩命。
(3), Nand Flash: 消费级大多采用的是GD等颗粒,也有很多采用AF、AR等等级的颗粒(网络上俗称的三金一云),一分钱一分货。在Nand Flash 接口速率上大多在800M以内,最高当前未超过1200M;企业级基本使用原厂颗粒,与消费级的主业区别在于PE cycle 高,品控好,接口速率基本可做到1200M以上。Nand Flash 的品质决定了硬盘的寿命上限,以及出错的概率。企业级对数据安全要求极高(入门企业级eTLC),OP大,有Raid 保护功能。而消费级后期基本上靠主控的纠错算法进行维持。消费级SSD在生命后期,后期容量剩余空间较小若采用的Nand 较差,无法使用SLC Cache ,性能则无法恢复至峰值。这也是网上说的为什么不能买整容(120GB、240GB)的盘,最好买足容(128GB、256GB)。
4, Nand 等级划分知识以及货源渠道,可在下发留言)。在华南的一些模组厂,通过SMI的Turn Key方案做企业级SSD,存在很大的问题,主要原因就是在Nand 质量上,拿一些etlc的flash 找一些封装厂自封,虽能用,但无法达到企业级的寿命考验。
Dram : 消费级通常不带Dram,或者带1个小Dram,测试性能不平滑。企业级都会带上Dram ,保证稳态性能的平滑。这也是二者应用场景定位差异造成的。现在有很多消费级nvme SSD 有带Dram ,如三星970 evo pro,价格会相较于不带Dram方案的高出很多,如WD的蓝牌 SN550。
5, 电源:独立电源好于分离电源。企业级SAS、SATA,nvme SSD通常采用12V(8639)供电,供电有服务器电源提供,电源品质好。消费级通常采用5V、3.3V(M.2)供电,有PC电源供电,质量看各家主板厂的良心了。从测试情况来看,PMIC的方案更优,且售后维修大幅降低难度,唯一缺点从我个人角度看是成本较大。
6, 备电电容:企业级有,消费级无。当然这个不是绝对的,在企业级SSD上,对于PLP以及PLD的需求高于消费级,是为了处理在意外断电的情况下,数据可正常被写入Nand中。通常企业级有用钽电容做PLP的方案,如Toshiba的XD5 M.2 方案上,也有用超级电容的,如Intel P5510。
7, NorFlash:看产品方案,少数消费级SSD有,对于数据恢复有较大帮助。企业级应该是标配,为数据安全考虑及数据恢复,带业务升级回退等应用场景。
8, 带外管理电路:企业级独有。当前SATA均已支持热插拔,消费级PCIE暂未支持。企业级SSD PCIE方案支持通知式热插拔及暴力热插拔。带外管理模块会涉及到与服务器端的相关信息通讯。在Nvme MI 协议规范上,是有标出Host 可以通过此信号通道进行SSD设备的管理,Administrator commands 下发的,目前企业级常见的SSD厂家均以支持此功能。
9, 备注,目前看到的国产SSD,特指在消费级SSD,在电气特性这一块的测试水平,以及测试强度,整体情况均较低。有很多模组厂甚至都不会测试这些,在走turn key方案时的拿来主义,只负责贴片开卡生产出货。这样的习惯一旦形成,强出头做企业级也是害人害己。
1.1主控测试
主控测试一般集中在芯片流片回来的初期至中期阶段,只会由芯片设计原厂进行测试。通常来讲测试内容涉及到芯片功能,芯片应力,功耗,以及相关底层调试测试。测试仪器设备数额较高,企业级一般都能吃得消,但消费级下游模组厂均不具备此能力,至于消费级主控原厂,会进行硬件、底层、应力测试的公司也只是少数。
下面列举几个常见的测试case:
(1),IP 协议测试。如Pcie 3.0 ,测试各条lane的带宽,眼图,抖动,误码率以及Pcie 3.0 相关的协议规范的信号质量,时序等。通常示波器会配套销售相关协议测试软件,需要测试人员调整测试socket,并通过串口或其他调适口对芯片下达正确的测试命令。测试完成后将直接生成测试报告。
(2),芯片应力测试。通常会涉及到温升,文冲,高低温等,此项测试直接关乎到产品规格最终能到达的工作温度范围。
(3),老化测试。通过软件平台调取当前芯片状态数据,并通过仿真软件进行加速老化,再将数据会写进行芯片生命末端信号测试,功能测试。
(4),其他接口协议测试,如对接nand 端的 ONFI,对接DDR 端的DDR4等等。
(5),模拟数字信号测试,主要检测ADC接口状态。
(6),如果主控芯片内置有温度传感器,则需进行测试校验
(7),故障指令注入测试
(8),T10/DIF测试
消费级在每一颗主控芯片出厂时,都会由封测厂进行FT测试,经过封测厂进行筛选主控,将主控进行等级区分,哪些可以做工业级宽温,哪些可以做普通消费级,哪些可以做高工级。而专业企业级SSD主控则严格要求主控的质量。
1.2 Nand Flash 测试
Nand Flash测试当前测试情况与主控测试情况相同。消费级主控厂通过市场样片选样测试的数据,调整RDT的相关圈数,速率等等参数,并通过实际测试情况限定Nand 接口塑料范围及BBT管理。而消费级下游模组厂,在拿到主控厂给到的固件和硬件方案,仅通过RDT 筛选,二次开卡抽选进行测试,测试完成即可出货。
企业级SSD则是在新款Nand 设计初期便与之合作,进行调试开发。通过专业的平台测试得出Nand的品质及产品方案,供研发进行固件调试(WL,WA,PE CYCLE、BBT等数据模型)。在Nand正式回片后,测试便正式展开。
下面举几个常见的测试case:
1.硬件测试部分,安装产品规格书进行测试给个控制信号时序,读写末端眼图质量,频率,时钟信号等
根据产品规格书进行拉偏测试,要求在规格范围内信号质量依旧符合要求。
2.产品测试,成品进行调试,进行特定版本老化测试(消费级RDT),进行软件层面拉偏测试。
3.Nand质量测试,在测试平台通过测试脚本进行原厂标记的Block 特定测试case,对原厂统计的PE CYCLE进行验证,老化温度应力测试
4.成品端IO压力测试,应用场景模拟测试。
1.3 外围器件电气特性测试
在硬件电路设计上,根据不同的主控方案,会有不同的外围器件选型,因此在制定硬件特性测试时,也不完全相同,但是大致上可以分为以下几类外围器件
1. Temperature Sensor
2. ADC
3. PMIC、DC-DC
4. NorFlash
因此在测试时,需要根据单板设计上的硬件电路构成进行设计测试用例。如PLP PLD模块会涉及到PMIC的工作,boost-buck up,ADC的转换精度等等。又如在不同的工作负载下,PMIC的转换率。在采用了分离电源方案时的DC-DC的环路测试,相位裕量等等。
会有一些IC与主控通讯,通常有I2C,SPI等通讯协议,这些也会有专业的测试工具,大多数的示波器均可以配套销售协议测试软件,降低测试人员的操作难度和避免由于对于协议理解不深或者有所偏差导致的误测。