MTBF(Mean Time Between Failure)即平均无故障工作时间,是衡量一个产品(尤其是电器产品)的
可靠性指标。单位为“小时”。它反映了产品的时间质量,是体现产品在
规定时间内保持功能的一种能力。具体来说,是指相邻两次故障之间的平均
工作时间,也称为平均故障间隔。概括地说,产品故障少的就是可靠性高,产品的故障总数与
寿命单位总数之比叫“
故障率”(Failure rate)。它仅适用于可维修产品。同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。
磁盘阵列产品一般MTBF不低于5万小时。
计算方法
MTBF是可修复
产品可靠性的一种
基本参数。度量方法为:在规定的条件下和规定的时间内,产品的
寿命单位总数与故障总次数之比。
MTBF值是
产品设计时要考虑的重要参数,
可靠度工程师或设计师经常使用各种不同的方法与标准来估计产品的MTBF值。
相关标准包括MIL-HDBK-217F、Telcordia SR332、Siemens Norm、Fides或UTE C 80-810(RDF2000)等。不过这些方法估计到的值和实际的平均故障间隔仍有相当的差距。计算平均故障间隔的目的是为了找出设计中的
薄弱环节。
MTBF的数学式表达:
另外,在
工程学上,常用
希腊字母θ来表示MTBF,即有:
在
概率论中,可用ƒ(t)形式的
概率密度方程表示MTBF,即有:
此处ƒ指的是直到下次失效经过时长的概率密度方程——满足标准概率密度方程——
设有一个可修复的产品在使用过程中,共计发生过N0次故障,每次故障后经过修复又和新的一样继续投入使用,其
工作时间分别为:T0,T1。那么产品的
平均故障间隔时间,也就是
平均寿命为Q为:(T0+T1)/N0。
关于 MTBF值的计算方法,最通用的权威性标准是MIL-HDBK-217、GJB/Z299B和Bellcore,分别用于
军工产品和民用产品。其中,MIL-HDBK-217是由
美国国防部可靠性
分析中心及Rome实验室提出并成为
行业标准,专门用于军工产品MTBF值计算,GJB/Z299B是我国
军用标准;而Bellcore是由
AT&TBell实验室提出并成为商用电子产品MTBF值计算的行业标准。
MTBF计算中主要考虑的是产品中每个器件的失效率。但由于器件在不同的环境、不同的使用条件下其失效率会有很大的区别,例如,同一产品在不同的环境下,如在实验室和
海洋平台上,其可靠性值肯定是不同的;又如一个
额定电压为16V的电容在实际电压为25V和5V下的失效率肯定是不同的。所以,在计算
可靠性指标时,必须考虑上述多种因素。所有上述这些因素,几乎无法通过人工进行计算,但借助于软件如MTBFcal软件和其庞大的参数库,我们就能够轻松得出MTBF值。
故障时间
随着服务器的广泛应用,对服务器的可靠性提出了更高的要求。所谓“可靠性”,就是产品在
规定条件下和
规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。故障率常用λ表示,例如正在运行中的100只硬盘,一年之内出了2次故障,则每个硬盘的故障率为0.02次/年。当产品的寿命服从
指数分布时,其故障率的倒数就叫做
平均故障间隔时间(Mean Time Between Failures),简称MTBF。即:
MTBF=1/λ
假设一款可用于服务器的WD Caviar RE2 7200 RPM 硬盘,MTBF 高达 120万小时,保修 5年。120万小时约为137年,并不是说该种硬盘每只均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即该硬盘的平均年故障率约为0.7%,一年内,平均1000只硬盘有7只会出故障。
由来
如图1所示为著名的
浴盆曲线,左边斜线部分为早期
故障率,其故障率一般较高且随着时间推移很快下降。曲线中部为使用寿命期,其故障率一般很低且基本固定。最右部为耗损期,失效率急速升高。电子产品制造商一般通过测试、
老炼、筛选等手段将早期故障尽量剔除,然后提供给客户使用。当使用寿命期将尽,产品也即将进入故障高发期,需要报废或更新换代了。
电子产品的寿命一般都符合浴盆曲线,可分为三个阶段:
寿命
明白了MTBF和“浴盆”曲线的基本概念,我们对评估产品的使用寿命有了一定的掌握。在合适
工作条件下器件使用寿命期内的故障率很低。广大
电子爱好者都知道
电子元器件的寿命,与
工作温度是有密切关系的。以电脑主板上常用的也常出故障的
电解电容器为例,其寿命会受到温度的影响。因此,应尽可能使电容器在较低的温度之下工作,如果电容器的实际工作温度超过了其规格范围,不仅其寿命会缩短,而且电容器会受到严重的损毁(例如
电解液泄漏)。因此,在分析电脑主板上电容器的工作温度时,不仅要考虑机箱内整体
环境温度及电容器自身的发热,还要考虑机箱内其他
发热元件的热辐射(特别是
CPU、
稳压器、
电源供应器等)。
根据测试,通常2.0G的CPU消耗功率达56.7W,生成温度达70℃;而当频率提高至3.0G时,
CPU温度往往超过90℃。在这样的高温烘烤下,主板上的电容器寿命会发生什么变化?
为简化起见,不考虑
纹波、频率、
ESR等因素,
电容器的估计寿命可用下述公式表示:
其中,L0表示最高工作温度下的寿命,
Tmax表示最高工作温度,Ta表示实际环境温度。由此可见,如果环境温度每升高10℃,电容器寿命将下降一倍。
由图2右面的曲线可明显看出,随着电容器工作环境温度的上升,其
有效寿命急剧缩短。其中有效寿命(Useful life)是指该种电容器达到给定故障率的时间。
计算分类
一个产品在设计、生产、材料、运输、保存和
使用环境中存在各种不确定的因素,使得产品的寿命成为
随机变量,对于随机出现问题的时间,可通过各种统计计算得出,通常MTBF有计算分以下三类。
可靠性预计计算
预计产品MTBF的好处,首先在产品
设计阶段就可以满足客户的制造要求:其次对生产方而言,可使其以最少的费用对预计的产品的弱点进行关注和改进。
实验室试验结合理论计算
实验室的可靠性寿命评价具有一定的破坏性,因面不可能对所有的产品都进行试验,而且这样的工作量太大了。因此,通过实验室试验来获取
试验样品的基本方法是,从同型号、同批次的一批产品中抽取一部分产品来进行试验,这些产品在可靠性术语中被称为“样本”,其中的每个产品被称为“样品”显然从
概率统计的观点看,抽取的试验样品数量越多,就越能真实地反映该批产品的可靠性水平。
现场失效数统计计算
产品在完成设计改进、准备批量生产之前,原则上需要通过部分样机进行实验室试验来评价产品的MTBF,再确定是否批量生产。而实际上,由于新产品在推出时间上的需要,不可能进行长时间的 MTBF试验。对于民用产品来说,实验室试验由于时间和费用的关系根本无法操作:对于部分军用产品来说,由于生产数量极有限,不可能抽取过多的试验样品进行MTBF试验,这样通过极少样品评价出的MTBF,其
可信度是个大问题。
应用举例
电脑硬盘
指硬盘从开始运行到出现故障的最长时间,单位是小时。一般硬盘的MTBF至少在30000到40000小时。
电视机
评价电视机质量的好坏,往往以不出故障
正常工作时间的长短来衡量,叫做
无故障工作时间。其时间越长,意味着电视机质量越可靠。但是,单凭一台电视机的好坏,并不能说明整批电视机质量的高低,一般是从工厂的产品中任意抽取一部分产品专门进行
老化试验(在高温、潮温等恶劣环境中进行),测出样品的不出故障正常工作时间有多长,从而推算出这批产品的
平均无故障工作时间即MTBF是多少小时。这是评价电视机
质量指标中较有
代表性的一项。
数控机床
平均无故障时间是
数控机床在两次故障之间能正常工作的时间的
平均值,也就是数控机床在寿命范围内
总工作时间与总故障次数的比,即MTBF=总工作时间/总故障次数。
分析目的