固态硬盘失效率报告:死因集中在早期头条相关
Facebook工程师和卡内基梅隆大学研究人员组成的团队,已经发表了一项历时4年的《闪存失效率报告》,而其数据则是来自Facebook服务器上的固态硬盘驱动器。尽管研究结果未能全面概括出可用于建模的数据,但它仍然为大家给出了实用且详尽的信息。据悉,研究团队直接从驱动器的硬件层来获取数据,而不是依赖于操作系统层面的报告数据,因此能够真实反映闪存单元的实际写入量。
2007年的时候,Google公司曾发表过类似的“机械硬盘失效率研究报告”。不过针对固态硬盘的新研究的有趣之处在于——失效往往在早期出现,随后又一帆风顺,直到驱动器寿终正寝。
在2007年,数据显示,故障通常发生在非常早的时期、或是在使用了数年之后。鉴于这项研究略有点过时了,所以卡内基梅隆大学又进行了一次类似的研究(PDF)。幸运的是,我们拥有了来自在线备份服务提供商Backblaze的最新故障数据,记录了其在过去5年中所购买的25000块硬盘。
根据这份数据,早期失效率(infant mortality)仍然是个问题——最初3个月的操作失败率远高于3年内的其它季度;直到超过3年的大限之后,才变得不一样。Backblaze报告称,有5.1%的硬盘会在18个月内挂掉;而仅有1.4%会在接下去的18个月内失效。在经过3年的"大限"之后,故障率才"飙升"至11.8%。4年后,仍有近80%的硬盘还活得好好的。Backblaze没有指出在那之后的数据,但是目前的趋势表明,硬盘寿命的中位数为6年。
有趣的是,Backblaze的大部分硬盘都是消费级产品,而不是企业或服务器级(尽管后两者的质保期限更长)。Backblaze也表示,在未来的报告中,该公司会试着区分消费级和企业级型号故障率的差异。自2011年年泰国洪灾以来,硬盘的"低价"一去不返,如果能够将相同的品质延续到今天,那用更低的成本换来一样的使用效果,就不会浪费太多无谓的投资了。
当然,这里还有个关键的区别,那就是团队如何确定这种“早期发现”(early detection period)。当SSD仍处于“年轻”状态的时候,主控会立即识别出哪些闪存单元是不可靠的。
根据下方统计数据,我们发现大容量SSD同样会在早期阶段出现这种类似的闪存单元失效状况。
这项研究还表明,温度对闪存的可靠性有着直接的影响。当SSD在温度更低的环境下使用、或者部署了更积极的调节机制的时候,其闪存单元失效率也会明显更少。
有趣的是,在闪存单元的生命周期中,数据的读取量似乎没有任何关联。