SSD 和 SMART 数据
SMART 代表自我监控、分析和报告技术。顾名思义,它是一个记录硬盘驱动器 (HDD) 或固态硬盘 (SSD) 运行状况数据的工具。SMART 数据可以是一种很有价值的工具,如果驱动器出现问题或已到使用寿命的尽头,SMART 数据可以提供早期警告,以便出现故障之前就进行更换。
易于向用户或系统管理员报告至关重要,因为驱动器本身无法对数据进行深入分析。只有某些属性超过了预先确定的阈值,并且只有在固件中对阈值进行编程时,驱动器才能报告。
SMART 已经存在很多年,并且早于 SSD 的诞生。SMART 当初是在 HDD 上实现的,当这项新技术被发明出来作为旋转硬盘驱动器的替代品时,它便已经适应了 SSD。不幸的是,无论存储技术如何,都没有一个行业标准告诉您哪个编号的 SMART 属性描述了驱动器的特定物理属性。属性描述符在不同的 SSD 和 HDD 之间,甚至在不同的 SSD 供应商之间也会有所不同。
有若干第三方实用程序可以检索和报告驱动器的 SMART 数据,通常在免费软件和共享软件中提供。然而,除非第三方软件供应商就正确的 SMART 属性与驱动器供应商进行协商,否则他们的定义和阈值(适用时)很可能会对属性进行错误标记,并可能导致假阳性或假阴性的故障报告。
我们已经见过这样的例子:“通电小时计数”属性向实用程序报告了一个数字,而不兼容的实用程序可能会错误地将该数字标记为“程序故障计数”或“报告的不正确错误”。更糟糕的是,第三方实用程序可能有不适合 SSD 的故障阈值,因此 SMART 实用程序会在制造商知道可接受的操作点报告故障。
由于这种潜在的混淆,Crucial 英睿达建议只使用我们的存储执行软件作为工具,准确地检索和分析 Crucial 英睿达 SSD 上的 SMART 数据。存储执行程序将始终使用正确的属性描述和阈值(如适用)进行编程,但老款 Crucial 英睿达 SSD 除外。
所描述的 Crucial 英睿达定义的 SMART 属性
Crucial 英睿达 SSD 记录了几个不同的属性,供存储执行程序检索。部分属性报告有关 SSD 的关键信息,而其他属性仅提供信息。
我们将在这里讨论一些更重要的属性,当一个属性在 SATA 和 PCle 中有不同的命名时,这两个名称都会出现:
属性 202:剩余寿命百分比(PCIe 上使用的寿命百分比)
这一属性正如它的名字。它是衡量驱动器在任何时间点上预计剩余寿命的指标。当 SSD 为新的时,属性 202 将报告“100”,当达到其指定的寿命时,它将显示“0”,报告剩余 0% 的寿命。
然而,重要的是要认识到使用预期寿命意味着什么——这并不意味着当计数器到达 0 时驱动器就会出故障,而是您的 SSD 可能需要尽快更换。
NAND 闪存设备的寿命由另一个特性定义:数据保留。数据保留是指设备在无电源状态下安全存储并允许成功检索用户数据的时间量。当一个 SSD 或其他 NAND 闪存设备是新的时,它的无电源数据保留将是几年时间。然而,就像人类的记忆一样,通过写入数据(数据读取不会直接导致磨损),当经历磨损时,就会变得更短。
联合电子设备工程委员会 (JEDEC) 是一个行业组织,为基于半导体的设备和组件制定标准和规范。JEDEC 以一种特定的方式定义了数据保留,美光科技是 JEDEC 的主要成员。对于客户端应用(如商业或个人电脑)的 SSD,SSD 的数据保留应为一年,在无电源状态下,存储温度为 30°C(86°F)。如需要,这将给大多数计算机用户足够的时间从闲置的驱动器中检索任何数据。
从这个描述可以看出,当寿命计数器从 100% 下降时,SSD 可以运行良好。然而,随着时间的推移,数据保留率将继续下降,从一年到六个月,再到三个月,以此类推。其结果是,在确保驱动器的寿命外,任何新的写入都将在没有动力的情况下无法保留。
然而,SSD 固件考虑到了这一点。随着 SSD 的持续老化,错误纠正代码 (ECC)、读重试、自适应读参数、后台数据维护和固件中的其他调整可以纠正由于数据保存逐渐退化而出现的问题。随着 NAND 数据块的退化,它们可以被车载备件替换,正常操作可以继续进行。当然,所有这些后台操作都发生在上电时,这就是为什么数据保留被定义为无电源状态。
此属性在某些传统 Crucial 英睿达固态硬盘以及 NVMe 型号上也显示为“已使用寿命百分比”,且与剩余寿命类似,只不过相反。新固态硬盘的属性 202 将报告“0”,当达到其指定的寿命时,将显示“100”,报告已使用 100% 的寿命。在这些型号上,随着完成更多的写入操作,百分比可能超过 100%,但数据保留问题不变。
属性 5:停用的 NAND 块
SMART 属性 5 在不断评估 NAND 块质量的过程中对停用块的数量进行跟踪。除了上面描述的磨损和数据保留问题外,SSD 固件停用 NAND 块还有几个原因。停用的一个原因是在垃圾收集期间删除数据或移动数据时无法擦除块。这种类型的故障对用户数据造成的风险较低,因为所涉及的数据正在被删除或已成功复制到 SSD 上的新位置。
较新的 Crucial 英睿达 SSD 使用这个属性来测量超级块,超级块是由许多单独块组成的组。当这个值是由属性 5 测量得出时,在停用诸多单独块之前,块的总数不会增加。
属性 180:未使用的保留块计数(PCIe SSD 上可用的空闲块)
同样,顾名思义,这是在坏块需要停用时可以使用的额外块的计数。这个数字因底层 NAND 架构、固件架构和驱动器的用户容量而异,但通常从数千开始。
这个数量随着禁用区块数目的增加而减少。当属性 180 达到 0 时,固件会将 SSD 置于只读模式。SSD 将不能作为一个普通的驱动器使用,但用户应该能够检索存储的数据并将其转移到一个新的设备。
与属性 5 类似,较新的 Crucial 英睿达 SSD 也使用该属性测量超级块,这就意味着该块总数在许多单个块停用之前不会减少,并且可以反映出新开箱即用的值比旧部件要低得多。
属性 210:RAIN 成功恢复页面计数
独立 NAND 冗余阵列 (RAIN) 与在驱动器阵列中使用 RAID 获得数据冗余类似。然而,RAIN 冗余是在驱动器内完成的,对用户来说是透明的。RAIN 是 SSD 用来保护用户数据和延长驱动器寿命的功能。
RAIN 事件很少发生,所以如果这个计数变大,就应该检查上面的属性,看看是否需要更换驱动器。频繁的 RAIN 事件会导致性能显著下降。使用奇偶校验冗余来恢复数据允许正常的驱动器操作继续进行,但会消耗部分 I/O 带宽。如果性能经常下降,则可能是 RAIN 重建的原因,并可能引起关注。
属性 174:意外功率损耗计数(PCIe SSD 上的不安全关机计数)
在计算机系统的正常断电之前,主机向 SSD 发出电源即将断电的消息。这个警告给 SSD 时间来完成任何正在进行的活动。一旦完成,SSD 则会向主机发送“确认”消息,主机完成关机。
很多情况下,电源意外断电可能会给 SSD 带来问题。几乎所有情况下,SSD 都可以对此进行补偿,尽管下一次启动时间可能会更长一些(几秒钟,而不是几百毫秒),但系统将重新启动。
属性 174 通常仅提供信息。然而,大量这样的事件可能表明需要对用户进行适当关闭操作系统的培训,或者可能存在电源或连接问题。
属性 194:外壳温度(PCIe 上的设备温度)
Crucial 英睿达存储执行软件将报告当前温度和寿命高限温度,以摄氏度为单位,由 SSD 上的传感器测量。大多数 Crucial 英睿达 SSD 的指定操作范围为 0°C 到 70°C(或 32°F 到 158°F)。任何记录在 70°C 以上的温度都可能使产品保修无效,因此应定期监测温度。如果温度经常高于 65°C,则建议采取改善通风和风扇等纠正措施。
若干总结思考
SMART 是监控 SSD 运行状况的有用工具。然而,SMART 并不是一个综合的诊断工具。从 SMART 属性和操作系统诊断中收集的信息可以为标准故障排除实践提供良好的起点。
错误报告或错误解释的 SMART 数据可能导致错误的结论,不幸的是,这可能导致一个功能良好驱动器的退货。因此,值得重申的是,Crucial 英睿达强烈建议只使用 Crucial 英睿达存储执行软件从 Crucial 英睿达 SSD 读取 SMART 数据。
© 2019 Micron Technology, Inc. 版权所有。信息、产品和/或规格如有更改,恕不另行通知。Crucial(英睿达)或 Micron Technology Inc.(美光科技股份有限公司)对于印刷或摄影中的遗漏或错误均不承担任何责任。Micron 美光、Micron 美光徽标、Crucial(英睿达)和 Crucial(英睿达)徽标均为 Micron Technology Inc.(美光科技股份有限公司)公司财产。PCI Express 和 PCIe 是 PCI- SIG 的注册商标。所有其他商标分别为其各自所有者所有。