发布日期:2018-10-31
早在1985年的时候,中国航空工业界为了搞歼十飞机研制,在当时大部分人都不知道可靠性是什么的历史背景下,航空工业仍然开始全面引入可靠性工程。这是值得回味的一段传奇。
中国制造2025与可靠性
浴盆曲线
在可靠性领域的几个关键概念内涵,最为重要的概念就是浴盆曲线,任何一本可靠性教科书都会出现这个曲线,纵坐标是产品的故障率,横坐标是产品的使用时间。这是从统计上反映出来的产品故障发生的规律。
图1 可靠性工程的浴盆曲线
第一个规律就是曲线的第一段,在早期使用的时候,故障率非常高,要经过不断的维修、适应性的改进甚至修改设计、工艺,把故障率降下来;
曲线的第二段,就是使用阶段故障率应该是很低的水平,而且还不应该发生剧烈的波动,最好保持常数,长时间保持低的水平;
曲线的第三段,是表达低水平故障率保持到多长的规律。一般而言,保持到预期的使用寿命,过了使用寿命故障率又急剧增高。这是统计规律表现出来的。
但是当产品从统计数据上看到了浴盆曲线第一个阶段的时候,即在用户的运维的过程中发现这个阶段的时候,说明企业没有对产品实现可靠性管理,或者说当出现了浴盆曲线早期故障期,说明可靠性工程实践是失败的。
第二个阶段,如果在使用的过程中长期的故障率稳定不下来,并且浴盆底的高度还很高,也说明可靠性工程失败了。
第三个阶段,如果使用时间没多长就坏掉、不能再用、老化、疲劳、断裂或腐蚀等,这些问题说明你的产品寿命也不符合要求,可靠性工程还是失败了。
浴盆曲线可以折射出中国制造业的很多问题。
目前中国制造业的特征在这三个点上都反映了,第一产品投入使用初期故障率很高,第二久久不能把故障率稳定下来,第三寿命还很短,所以这些问题交织在一起反映了企业的可靠性工程的实践出了问题。浴盆曲线就是这么一个有关故障发生概率和统计规律的曲线。
故障六性
跟故障相关的产品的设计特性,主要包含六个方面:可靠性、维修性、测试性、保障性、环境适应性和安全性。
图2 故障六性
这些特性都不是中国学术界发明的,当北京航空航天大学在1985年成立可靠性研究所、工程系统工程系的时候,国外这些专业词汇在学术界、工业界已经产生了几十年。
早在1991年,北航可靠性与系统工程学院的创始人杨为民教授提出可靠性系统工程的概念,是从如何推进可靠性工作的角度提出的,最重要的是研究产品“故障的发生、发展及其预防和维修保障的规律”。
可靠性系统工程的理念在航空航天兵器舰船等军工行业的实践中不断的在扩展推动。现在武器装备行业把这“六性”叫通用质量特性,这是笔者在2006年的一份战略咨询报告中提出来的一个概念,把这些与故障直接或间接相关的设计特性给了一个概括性的说法。那么,可靠性系统工程就是围绕产品保障规律组织管理通用质量特性工作的方法论。
图3 可靠性系统工程内涵
图3从方法论上进一步解释了可靠性系统工程,就是在研发阶段要进行与故障相关特性的设计、分析、试验评价工作,同时还要做与故障相关的系统设计、分析、评价工作。
与故障相关的系统,则是指面向产品的使用维护和运维阶段,以前叫售后服务系统。没有经历过正向研发过程的时候,我们的解决方案当然是出了故障就要修好,这就是被动的维修服务,归到售后服务系统里,即使是售后服务系统也需要主动去设计。后来的维修保障系统、BIT、ATE、中央维护系统、远程维护系统、PHM故障预测与健康管理系统等,都属于与故障相关的系统,随着技术的发展,现在技术热点就是PHM系统。图3才是完整的针对故障的研发和设计,这个就是可靠性系统工程最基本的理念。
可靠性发展历史与工业史
质量与可靠性,是一对形影不离的双胞胎,而且伴随着工业化过程过去一百年的历程。
图4 过程质量检验的发展史
第一个阶段就是在大批量制造业出现的过程中。首先产生的产品质量检验。
说起质量检验的概念可以查到中国古代,一把剑铸造的好不好,也取决于设计、制造、检验,但那是手工业时代,所有这些事情可能都是一个人做。但是工业化以后批量生产就不一样了,福特汽车在大批量生产时代,做的最有里程碑意义的事情,就是把质量检验从产业工人里面分出来,专门有一批人看着制造线上的产品,生产出来之后是合格的还是不合格的。这是真正的专业化质量检验,是基于专业化分工的流水线上的质量检验,质量专业因此而诞生了。
质量检验又分为两个阶段,当批量比较少的时候是全数检验;后来,批量上来了,一年几百万辆车,零件上千万个,无法全数检验,统计的方法出现了——也就是抽样检验。这两个检验都可以叫做过程质量检验。过程质量检验的出现是质量可靠性发展历史上的第一个里程碑事件。
第二个阶段可以称为过程质量控制。当工业化发展到一定程度后,又出现新的问题,质量检验是产品生产出来之后才能对它进行合格不合格的判定,会产生废品,造成质量损失。所以,这个问题就驱动人们思考:能不能在制造过程中进行质量控制,预防不合格品的发生,降低不合格率,这个就是过程质量控制。统计过程控制SPC和六西格玛概念方法就是这个阶段产生的。
图5 质量检测和质量控制的发展史
第三个阶段是跟安全性有关。工业品出来之后,会发生很多事故。
图6 安全性的发展史
20世纪工业化进程很精彩,人类产生很多伟大的发明,如蒸汽机、汽车、火车、飞机等,有人总结每一次技术的发明都为人类创造了一种新的死亡方式。这就是安全性问题。没有汽车的时候,人类死亡方式最多就是被马踢死了;有了汽车,就有了新的死亡模式,被车撞死了;发明了飞机,就有飞机事故。所以,安全性是伴随着工业化要面临的又一个问题,就是产品一定要安全。所以安全性在当时也成为一个新概念。但人们很容易接受,很多时候大家都能想到安全,电气产品如何安全,机械产品如何安全。这都需要有一套设计准则,有一套严格的验证规范,政府也要监督。
但是,像民用飞机这一类政府监管的适航取证,则是只管安全性,不管可靠性。可靠性对飞机安全有影响,但是安全性又有自己的技术范畴,安全的不一定可靠,可靠的不一定安全,这是两个很有意思的概念。
图7 可靠性的发展史
第四个阶段就是可靠性问题。第二次世界大战德国人用火箭打英国的过程中,通过作战运筹产生的可靠度的概念,就有了可靠性的意识。到了50年代,美国正式诞生了可靠性工程专业。但是质量这块的发展也一直在往外推进,从质量过程的事后检验到事前的过程质量控制,到了60、70年代发现光抓生产过程不行,还要抓全面质量管理,这就是非常经典的“人机料法环”。
图8 可靠性与质量伴随着整个工业化进程
可以这样总结,过程质量检验、过程质量控制是经典的传统的方法,70、80年代是全面质量管理。在这个过程中,可靠性逐渐发展了维修性、测试性、保障性等概念。维修性指的是要好修;测试性指的是维修的过程中要能快速进行故障定位、诊断;保障性指的是在维修诊断的过程中,要能够提供足够多的资源、备件、维修人员、维修设备、维修设施等。
伴随着这些新概念的发展,国外尤其是美国,在可靠性概念出来10年之后,也就是1960s在研发过程中提出新的管理的技术叫工程专业综合,后来发展成系统工程,到了90年代发展成并行工程,现在就是基于模型的系统工程,这些解决什么呢?解决可靠性这些概念融入到设计研发流程以及整个寿命周期流程的问题。
所有的这些特性都是要设计的。从上面的历史可以看出,可靠性与质量伴随了整个工业发展的全过程,是工业化的主旋律。
中外工业发展史对比
在过去一百年整个国外工业化的过程,西方先进国家的制造业平均十年左右遇到一类问题,然后去解决,就是这么按部就班发展起来的。中国的工业则呈现了不太一致的局面。
中国的工业化进程,可以说过去一百年,在1949年之前中国几乎没有像样的工业。新中国才有了工业化,大概又分成两个阶段,一个是改革开放前与改革开放后,所谓前30年和后30年。
图9 中外工业第一阶段对比
在50年代,航空航天等领域的工业化过程有一个非常高大上的名称:“测绘仿制”,非军工行业可能就叫做拷贝模仿,或者干脆就叫“山寨”。这是一个发展中国家走向工业化的必由之路,而且是一个国家工业化快速发展的保障。德国当年模仿英国也是这样走过来的。没有测绘、模仿或所谓的“侵权”,德国、日本和中国制造都走不到今天。
测绘仿制过程中没有正向研发,只有生产过程的质量管理。中国工业化的前三十年还没有批量生产,因为中国彼时还不是消费型社会。消费能力不够的情况导致批量也很少,所以在前30年,改革开放之前的研发上,基本是测绘仿制,制造上是小批量,满足不了人民生活和社会发展的需求。这是中国制造当时的实际情况。这个背景下对于质量可靠性的需求都很弱,这是第一个阶段。
图10 中外工业第二个对比
第二个对比是,国外二战期间和之后,制造过程的质量控制、质量检验做的很充分,在上个世纪50年代随着新的可靠性这些概念的出现,开始有了正向研发。美国军工行业在50年代开始建立采办程序,就是研发程序。中国以军品为代表的研发也是改革开放之后1982年才开始,有了武器装备研制程序。这个是一个非常有意义的历程。而非军工行业又比军工行业晚发展20年左右。
图11 中外工业化对比全景图
第三个对比是在80年代的时候。当时国外的可靠性、维修性工程实践了20多年,概念、方法全都有,但是效果不好,武器装备的可靠性也很差。因此,在80年代美国国防部狠抓可靠性、维修性管理,制定很多政策文件。而此时,在1985年中国北航成立可靠性系统工程专业是,就是在发现美国人如此重视可靠性,而中国要搞新型歼击机(歼十)的时候,对可靠性工程几乎一无所知。在这个背景下,老一辈专家开始搞这个专业,在50岁左右的时候开始创业,建立了一个全新专业。正是这个高屋建瓴的远见才造就了今天的可靠性工程的枝繁叶茂。1991年军工口开始提出可靠性系统工程,抓与故障相关的特性设计。通过近40年的发展,基本在管理的方法论方面赶上国外,而且有一定的特色。
小记
透过国外工业化发展的历史和中外三个阶段的对比——生产过程、研制过程和全系统全寿命的管理,可以看出可靠性系统工程的诞生背景。实际上,这些完全对应了钱老提出来的“可靠性是设计出来的、生产出来的、管理出来的”。 中国制造要从大国走向强国之路,企业必须狠抓质量和可靠性。而系统工程抓可靠性管理是唯一的可行之路。
中国质量这么搞
企业搞可靠性的切入点是什么?
成本倒逼!
在许多企业,运行维护费用能占到利润的1/4,企业家有足够的动力推动研发部门去搞可靠性。国内非军工企业,要做可靠性的起点都是基于这样的倒逼机制。
那么,如何实施可靠性系统工程。大致可以归纳为八个要素,即指标体系、组织形式、专业队伍、工作流程、规范指南、过程控制、数据信息、技术集成。
八个实施要素
全面需求
第一个要素就是全面的需求,也就是指标需求。共有七个方面,长寿命、高可靠、快诊断、能预测、易维修、好保障、要安全。这七个方面的要求在可靠性系统工程的技术体系里都有对应的定量指标,因此,可靠性并不是简单的MTBF(平均故障间隔时间)。只有这七个指标都满足了,中国制造业才能真正是从大到强。
全面需求
这么多要求,企业如何做?首先要思考的是,所有的对策本质上是故障和应对应故障的对策权衡,是研发阶段放任不管,到运维阶段再考虑?还是在研发阶段多投入,从而节省运维费用?这个节点的选择,是需要权衡决策。
组织形式
第二个要素:组织形式。首先必须要认识到,可靠性是一个独立的专业。只有这样,它才能得到重视。目前看上去国内一些企业已经先动起来了。例如,国内风电领头羊金风科技,就是把可靠性当做一个专业来建设,一个简单的标志就是这个企业有可靠性专业毕业的学生。
徐工也非常重视。徐工最早希望笔者把全厂技术人员都集中起来,上三天课以便使得工程师可以理解可靠性,并推动企业装备的可靠性。笔者跟他们强调,学校里的学生,从本科、硕士到博士学了七年,面对具体的产品仍然无法独立处理可靠性的问题,企业“运动式搞可靠性”基本是不可能的。一无可靠性组织,二无可靠性工程师,企业是不可能搞好可靠性的。幸运的是,徐工领导非常认真地接受了这个想法,目前已经进入系统性建设的起步阶段。徐工车间里挂了一幅标语,“技术领先用不毁”,这意味着既要技术先进性,也要功能可靠性。这正是中国制造业转型升级的目标,从这一点而言,徐工抓可靠性抓的好,走在正确的强国制造的道路上。
企业的可靠性要有专业的组织,这个专业的组织建在哪里?
航空航天大概是三个结构。第一个结构放在质量部门,质量部门下面有可靠性专业室,专业的技术室和设计室。但这种结构,发展到一定阶段就不顺当了。因为,可靠性毕竟要从根上设计,而不能仅仅作为管理工作放在质量部门,因为它质量部门是管理责任,无法承担设计责任。这个时候,一定有冲突。
质量主导下的可靠性组织
第二个结构是项目制,或事业部制。每个事业部下面都有可靠性的团队,可靠性的研究室。这样做好处是,每个事业部各自对可靠性负责;但坏处就是可靠性资源分散了,各个事业部之间往往无法交流。一个企业的两个项目组,相互之间甚至都可能要保密,这是事业部制带来的弊端。
第三种结构是矩阵的组织,这是一种理想的状态。企业里应该有专门的可靠性研究室,而每个项目里还都有可靠性工程师。在具体实施项目过程中,专业部门和项目组的可靠性工程师联合组成团队。
矩阵式的可靠性组织
可靠性工作系统是航空行业建立起来的,因此相对完善。从上到下,分别有飞机总设计师,和各种各样的专业副总设计师,其中就有可靠性副总师。
复杂的武器装备甚至设置两个副总设计师。这就构成一个矩阵的组织结构,非军工口目前做的最好的企业是华为,华为的可靠性工作从可靠性试验起步,现在遍布了整个集团公司,近两百名可靠性工程师。以前大学生毕业,主要在军工行业内就业,而最近十几年都是在华为这样的可靠性非军工口的先行企业就业。
专业人员
第三个实施要素:专业人员。中国的可靠性工程师并不多,华为这样的企业还比较少,可靠性工程师头衔和岗位集中在军工行业,华为、长虹、联想、中车等都有。
可靠性是一个专业
可靠性跟可维修性、安全性一样,也是一个专业。现在产品的创新需要年轻人,越年轻的活力越强,但是质量可靠性专业的人需要老人,越老越有经验。国外大概都是这样的。有国外的机构做统计发现,国外的可靠性工程师年薪比其它产品设计师的高。
中国质量协会,有一个项目叫注册可靠性工程师考试,推广了好几年,不温不火。但这种考试一定要坚持,一定会迎来大发展的那一天。美国、日本类似的培训,各类企业派人踊跃参加、场面火爆,中国企业一定会发展到那一天。
流程实施
第四个实施要素就是流程。可靠性系统工程里要做的工程活动很多,需要进行的每个活动之间是有逻辑关系的,要串起来。都是要靠前因后果的逻辑关系和信息传递的,而且一定要嵌入到研发流程。很多企业研发流程不完整,不符合系统工程研发的过程,可靠性做了一点点(如失效分析FMEA),但不知道塞到哪个部门,往往是孤零零的部门;过两天别的部门会重新做一个障诊断的设计,但其诊断故障模式和前面做的FMEA毫无关系。
再比如售后服务系统,一般的售后部门数据的统计,只用来算钱。尽管财务上售后服务算的非常准,但技术上的数据就不统计了。企业的设计工程师在特别混乱的售后数据中,来统计浴盆曲线,找主要故障原因排列,会非常困难。而实际上,这本来就是售后部门的事情。
综合流程
制造业如果重视自主创新的研发,流程要有两个:一个是围绕着功能,一个是围绕着故障。两条线并行。中国的境况是,第一条设计制造的线条,刚刚从测绘仿制转到自主创新,还在建立的过程中;而第二条线围绕故障的维修保障的线条,基本还没有也不全。两条线索叠加在一起,给中国制造业做强,带来了很大的困难。
过程监控
第五个要素叫过程监控。过程监控首先是监控工作项目之间的内在的逻辑关系是否是有效的传递?
什么叫内在的逻辑关系?平均故障间隔时间叫MTBF是可靠性指标、平均修复时间叫MTTR是维修性指标,还有一个指标叫可用度,或者叫停机时间。这三个指标有约束关系,知道两个就知道第三个。但很多企业在制定这些目标的时候,定了三个指标,但却不符合自我约束关系。这样情况下,是不可能做出可用度设计、可靠性设计和维修性设计,因为目标本身就矛盾。过程监控,就要查看这些工作逻辑是否正常。
第二个纵向监控,就是监控整个供应链的要求。当真正做可靠性的时候发现供货方零部件不可靠,这说明企业的质量控制体系里面没有可靠性的控制。当然,这种监控的主体之一是政府对企业的监管,但是政府只管安全和环境,不管可靠性;而企业对供应商的监控,用户对产品的或业主对系统的监控,都必须包含这一点。定量跟踪,就要前面定的七个方面的定量指标,要在整个寿命周期里进行监控。
规范体系
第六个要素叫规范体系。每一个可靠性系统工程的活动都要有自己的规范,要有属于企业自己的规范和标准,不要完全指望国标和国军标。当企业自己创新设计时,只能依靠自己的标准。这个没有捷径,只能通过实践过程中产生的规范、形成自己的标准,这才是一个制造强国的企业应具有的水平。
以前在测绘仿制,是按照国外的标准干,而且不敢改,改了之后也小心翼翼的。这都是摸索的阶段。现在要自主创新了,必须学会从无到有。每一个可靠性系统工程实践活动,先找一个产品或者设备试点,做可靠性工程中的某一件事,试点之后把它形成规范指南,用规范指南指导做第二个、第三个,之后马上变成企业的标准。然后持续做下去。企业真正有核心技术,是不会把它弄成行业标准和国家标准。一些企业的可靠性试验体系,对外基本都不开放。
郑州的宇通客车的可靠性实验室,就形成了自己的规范。大客车做30天试验等效于在路上跑一百万公里,要求整个过程无故障,整个车架子上面每个坐位有配重,相当乘客的重量,然后运行和计算。通过自己采集各种各样的试验载荷,用一百万公里的实践证明过的结果,来指导所有新开发的客车。这就叫规范体系。规范体系有三类:一个是要求类,如何定指标的,指导对故障相关的特性和故障相关的系统定指标要求;第二个指导类,就是怎么干各种活动,这一版都是保密的;第三类是验证类,对提出来的各项要求,确认是否已经得到实现,属于验证类规范。
技术集成与大数据
第七个要素叫技术集成。这张图分成了好多技术,每一类技术,可以再展开下一级的各种各样的技术方法。当然这些技术不一定都用得到,重要的是企业要学会去选择合适产品和技术。
各种相关技术
第八个要素是大数据。对于采集上来的大数据信息,能不能画出一条正确的运维数据曲线?这也是需要下功夫的地方。很多企业通过售后服务、运维数据得到的故障统计数据,基本都是错的。这样的数据,不可能指导设计改进和工艺改进。所以,要全面地收集各种数据、正确地分析各种数据,需要管理上下大力气。
大数据来源
小结
可靠性工程的实施,不是一个短期运动式就能解决的。它需要对组织、对流程进行系统的规划,并且按照非常规范的方式循序渐进,才可能真正实施成功。
可靠性应用模式与能力等级评价
实施可靠性系统工程的八个要素、五个应用模式,共同构成了企业的可靠性系统工程能力。八个要素,即指标需求、组织形式、专业队伍、工作流程、规范指南、过程控制、数据信息、技术集成。五个应用模式,即故障归零模式、试验把关模式、定量设计模式、故障补偿模式、综合集成模式。
可靠性系统工程能力
故障归零模式
所谓故障归零模式,就是企业在运行维护过程中,收集产生的数据,进而进行故障信息的统计。下面以某汽车制造厂某型离合器故障为例进行说明,这是很早期的汽车数据。从离合器按里程故障统计和主要失效模式统计中,可以得到这一部件发生各种故障多少的视图。图2统计了各个时间段发生的故障数,图3是按照这一部件的故障模式发生数据进行统计,包括有哪些故障模式,每个故障模式占的百分比。
某汽车制造厂某型离合器按里程故障统计
某汽车制造厂某型离合器主要失效模式统计
有了这些数据之后,就知道哪些零部件、哪些故障模式要进行改进。在需要对某些零部件进行改进的时候。首先,要对它进行故障机理分析,针对机理进行设计或者是工艺技术的改进,改进之后还要进行有效性的验证,通过FRACAS(Failure Report Analysis and Corrective Action System,故障报告分析与纠正措施系统)循环来提高可靠性。
故障报告分析与纠正措施系统
目前,大部分企业采用的是故障归零模式,但是做的并不好。做不好的原因主要有两个,一是信息缺失,二是没有管理好FRACAS循环。做好可靠性,三分靠技术、七分靠管理。
试验把关模式