中国电子标准协会培训中心

  
培训课程筛选
 首页 >> 资讯中心 >> 正文

可靠性分析技术系列之(六) 性能退化数据预处理技术

作者:不详 ; 发布时间:2019-1-9 7:07:47 ; 来源:互联网  点击:

在进行基于性能退化的可靠性建模和寿命预测时,为了判断产品的退化失效情况,通常选几项可以反映产品健康状态的主要技术性能指标作为特征性能参数,当这几项特征性能参数中一项或几项超出某个门限值(即失效阈值)时,则该产品出现退化失效。


特征性能参数的选取必须具备两个条件:

(1)作为特征性能参数的性能指标必须有准确定义而且能够进行监测;

(2)随着产品工作或试验时间的延长,特征性能参数有明显的趋势性变化,能客观反映产品的健康状态。


而产品可测的性能参数往往有很多,如何通过数据预处理,挑选出符合要求的性能退化特征量,是决定寿命预测工作成败的关键。套用机器学习领域中的一句名言,“数据和特征决定了可靠性问题解决程度的上限,而模型和算法只是逼近这个上限”。

所以,咱们就具体说一说数据预处理和数据特征提取技术。


未经预处理的数据可能存在的问题

通过性能参数测试,我们能得到未经处理的参数数据,这时的数据可能有以下问题:

(1)不属于同一量纲。即特征的规格不一样,不能够放在一起比较。

(2)信息冗余。对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或“不及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。

(3)定性特征不能直接使用。某些机器学习算法和模型只能接受定量特征的输入,那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值,但是这种方式过于灵活,增加了调参的工作。

(4)存在缺失值。缺失值需要补充。

(5)信息利用率低。不同的机器学习算法和模型对数据中信息的利用是不同的,之前提到在线性模型中,使用对定性特征哑编码可以达到非线性的效果。类似地,对定量变量多项式化,或者进行其他的转换,都能达到非线性的效果。

数据预处理方法

无量纲化

无量纲化使不同规格的数据转换到同一规格。常见的无量纲化的方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布,标准化后,其转换为标准正态分布。区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如[0,1]等。


标准化与归一化的区别是,标准化是依据特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依据特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有同一的标准,也就是说都转换为“单位向量”。

对定量数据二值化

定量特征二值化的核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0。

对定性数据哑编码

通常使用哑编码的方式将定性特征转换为定量特征:假设有N种定性值,则将这一个特征扩展为N种特征,当原始特征值为第i种定性值时,第i个扩展值为1,其他扩展值为0。哑编码的方式相比直接指定的方式,不用增加调参的工作,对于线性模型来说,使用哑编码后的特征可达到非线性的效果。例如,为了研究四季的影响,可采用下述编码方式:

缺失值的计算

缺失值的计算有五种常用方法。

(1)个案剔除法。如果任何一个变量含有缺失数据的话,就把相对应的个案从分析中剔除。如果缺失值所占比例比较小,这一方法比较有效。具体多大的比例算是“小”比例,学术界意见不一(5%或20%)。局限性:以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。特别是当缺失数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。

(2)均值替换法。将变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果确实值是非数值型的,就根据统计学中的众数原理,用该变量在其他所有对象中的取值次数最多的值来补齐该缺失的变量值。但这种方法会产生有偏估计,对变量的均值估计不会产生影响,但这种方法是建立在完全随机缺失的假设之上的,而且会造成变量的方差和标准差变小。

(3)热卡填充法。对于一个包含缺失值的变量,热卡填充法在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来判定哪个变量(如变量Y)与缺失值所在变量(变量X)最相关。然后把所有个案按Y的取值大小进行排序,那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。

(4)回归替换法。回归替换法首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望对缺失值进行替换,与前几种插补方法比较,该方法利用了数据库中尽量多的信息。弊端:(a)但是该方法容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。(b)研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。

(5)多重替换法。多重估算是Rbubin等人于1987年建立起来的一种数据扩充和统计分析方法,作为简单估算的改进产物。首先,多重估算技术用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确定性。然后,用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。最后,把来自于各个数据集的统计结果进行综合,得到总体参数的估计值。由于多重估计技术并不是用单一的值来替换缺失值,而是试图产生缺失值的一个随机样本,这种方法反映出了由于数据缺失而导致的不确定性,能够产生更加有效的统计推断。结合这种方法,研究者可以比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。

数据变换

常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。单变元函数的数据变换可以使用一个统一的方式完成。

数据预处理方法回顾

表1 数据预处理方法汇总表


特征选择方法

当数据预处理完成后,我们需要选择有意义的特征输入可靠性分析算法和模型进行训练。

特征选择与降维有着些许的相似点,两者达到的效果是一样的,就是试图去减少特征集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同:降维的方法主要是通过属性间的关系,如组合不同的属性得新的属性,这样就改变了原来的特征空间;而特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有改变原始的特征空间。

特征选择的目标是:“一个正确的数学模型应当在形式上是简单的。构造机器学习的模型的目的是希望能够从原始的特征数据集中学习出问题的结构与问题的本质,当然此时的挑选出的特征就应当能够对问题有更好的解释。”

(a)提高预测的准确性;

(b)构造更快、消耗更低的预测模型;

(c)能够对模型有更好的理解和解释。

通常来说,从以下两个方面考虑来选择特征,如表2所示。

表2 特征选择依据

(本文部分内容为原创,仅供学习参考,如需转载,请务必标明出处。)

作者介绍

冯静

女,1975年10月生,中国共产党党员,安徽芜湖人,于2016年7月从中国人民解放军国防科技大学转业,现任湖南银杏数据科技有限公司董事、总工程师,银杏可靠性实验室副主任。主要从事小子样复杂系统信息融合、复杂系统状态感知与健康管理、装备可靠性分析与寿命预测领域的教学科研工作,讲授“数据分析与建模”、“应用统计分析”、“计算方法”、“试验鉴定理论”等课程10余门,主持科研项目10余项,其中国家自然科学基金2项。曾为华为公司、三一重工提供了产品可靠性咨询、培训等服务,获军队科技进步二等奖2项,出版《小子样复杂系统可靠性信息融合方法及其应用》、《装备可靠性与综合保障》等教材专著8部,发表学术论文60余篇,申报或授权专利8项、软件著作权5项。现为中国运筹学会可靠性分会理事。

 
推荐公开课
[江苏回流焊和通孔回流焊(THD)的SMT
[广东NPI新产品导入
[江苏PCBA的可制造性设计(DFM)实施
[广东光学镜头测试培训
[广东在软件开发流程中构筑软件质量-软件测
[广东嵌入式软件可靠性设计培训
[广东电路设计中器件选型及工程计算培训课程
[上海面向可制造性的设计与工艺优化
[江苏ESD检验员职业资格(防静电系统高级
[广东硬件测试管理
推荐内训课
[广东SMT核心工艺技术、质量控制与案例解
[广东“倒装焊器件(BGA\WLP\QFN
[广东照相模组的设计工艺、组装技术和失效分
[河北硬件测试技术及信号完整性分析
[山西电子产品实用可靠性设计和试验技术高级
[广东SMT组装中的实用可制造性(DFM)
[上海电磁兼容设计与整改对策及经典案例分析
[广东板级电磁兼容设计与整改对策分析培训
[广东非财务经理的财务管理必修课
[广东电路设计中器件选型及工程计算
资讯中心
·为什么说2018是自动驾驶最艰难的一年
·当今世界谁的5G实力最强
·阿里百度上榜 2018中国IC设计新势力
·华为发布智能计算新战略 推进AI战略落地
·德国法庭批准高通请求:对iPhone颁永
·竞争力不足 英特尔或彻底退出芯片代工市场
·国产FPGA的新机会和旧问题
·捷克下令禁用华为 多米诺骨牌效应作祟?
·从MathWorks新工具看5G系统设计
·人工智能存在局限性 引发信息孤岛
·AI决策影响人类 必须尽快进行修正
·2018年最吸引眼球的论文都有哪些?

 

中国电子标准协会培训中心专业提供可靠性设计、热设计、SMT工艺、电路设计、架构设计、硬件测试、研发管理、嵌入式软件测试、EMC培训、软件技术等课程及服务。
欢迎来电来函咨询:
0755-26506757 13798472936
martin@ways.org.cn
http://www.ways.org.cn

中国电子标准协会培训中心(深圳市威硕企业管理咨询有限公司)成立于2006年,经过十多年的发展,在国内外业界技术顾问及广大客户的支持下,我培训中心已成为一家专业的电子技术、研发、管理、企业资格及电子标准培训服务提供商,致力为各企业提供成熟的企业技术、管理及标准培训服务。借鉴国际先进的电子技术应用与管理理念,让协会整合以“技术”为核心的企业资源体系,解决企业运营过程中的技术难题,提升生产、运作与工作效率,增强企业核心能力,赢得竞争优势,最终实现企业长期追求的使命与愿景。
经典课程:可靠性设计各种设计技术(包括可靠性降额设计、硬件测试、可靠性余度设计、可靠性动态设计、电路设计、可靠性环境防护设计、EMC培训、热设计、硬件测试、可靠性安全设计、缓冲减振设计、静电防护设计等)、SMT技术管理培训、EMC培训、硬件测试、IPC标准(IPC-A-610E标准、IPC-A-7711/21标准、IPC-A-620A标准、IPC-A-600H标准、IPC J-STD-001标准)、电路设计、硬件测试、ESD防静电防护、ESD设计、硬件测试、EMC培训、电路设计、硬件测试技术及信号完整性分析、硬件测试、DFM电子可制造性设计、机械结构设计、加速试验和筛选技术和模拟仿真技术、硬件测试、EMC培训、失效分析、EMC培训、电路设计、EMC培训、故障模式影响及危害性(FMEA、FMECA)和故障树分析(FTA)、元器件可靠性设计、硬件测试、电路设计、软件可靠性设计、硬件测试、软件测试(黑盒和白盒)、电路设计、可靠性设计各种试验技术(环境应力筛选试验、EMC培训、硬件测试、可靠性工程试验、可靠性统计试验等)以及可靠性管理是我协会的强项;软件类:架构设计、EMC培训、硬件测试、C语言、电路设计、UI设计、硬件测试、需求分析、电路设计、软件项目管理、硬件测试、电路设计、Oracle、软件敏捷、.NET、EMC培训、硬件测试、Android、硬件测试、软件配置管理、Linux、硬件测试、CMMI、软件重构、C++等等

服务热线:0755-33558698 26506757 传真:0755-33119039 电子邮件:martin@ways.org.cn
客服 QQ:52630255 751959468 1305933375 385326049
中国电子标准协会培训中心(http://www.ways.org.cn)网站 ICP注册号:ICP备257378787号