数据修正
计算机技术领域术语
随着社会的发展,各行各业、各个领域都会对自身的行为结果做出评估,数据不可避免含有不确定的随机误差, 会导致试验研究和性能分析出现偏差。数据修正一般是预先给出某个人、某件物或者某件事的数据结果,如分析师对国家或者地区的经济状况打分、检查员给产品打分以及公司领导对员工进行考核等等,然后对数据结果做出整体的考评和修正.
数据修正技术
对于整条电缆线路以及所敷设环境温度的在线监测,当前比较常用的是分布式光纤测温技术,但由于电缆线路分布面广、相距较远,使该技术具有分布式光纤节点部署不均衡、采集频率高和感知数据强关联等特点,且由于整个系统损耗和噪声的影响,造成所测电力电缆数据的真实性受损,从而形成漏报、误报,致使其应用受限。为了使光纤传感监测技术更好地应用于实际,对其数据质量和数据管理技术提出了更高的要求,以便有效地提高电力电缆感知数据的质量,并进行有效的计算和准确报警。
传统上提高传感器节点采集数据质量最简单的方法就是进行多次采样,然后取采样数据的平均值作为最终的采样数据,但该方法需要很多存储空间并占用了大量采样时间。提出了一种基于最小一乘估计的多传感器信息融合方法,但这需要更多的传感器,增加了系统的成本。利用 Kalman滤波对同一检测目标的多个采集节点采集到的信息进行综合对比和分析,以达到提高数据精度和可信度的目的,但这种算法只在网络入侵检测和传统数据挖掘中应用较多。前人研究的基础上,采用线性自回归方法,给出传感器数据流的预测模型,并提出一种预测模型自动调整策略,以便在预测误差超过预先设定的阈值时,自动调整预测模型,从而提高分布式光纤传感器信息的质量,并在数据出现异常情况时能够进行有效修正,在一定程度上降低了光纤检测系统的缺陷发生率,避免了大量的现场工作。
分布式光纤温度传感系统结构及硬件平台
分布式光纤温度传感系统结构其原理是:驱动电路发出驱动信号,对大功率激光器进行调制,同时发出一路同步脉冲对 A/D(模/数)采集卡进行控制。激光器经调制后发出的脉冲光,经CWDM(粗波分复用)后,注入参考光纤,参考光纤的末端连接传感光纤。脉冲光在光纤中传输时,会发生瑞利散射,散射方向与光波前进方向相反的背向散射光含有斯托克斯光和反斯托克斯光,经CWDM分路后,被APD(雪崩光电二极管)接收,进行光/电转换,转换后的电信号经滤波和信号放大电路后,被A/D采集卡采集,并输入到计算机中进行处理。
其硬件平台主要包括子系统、客户端和集成软件平台三部分。其中,各子系统负责各自监测参数的采集、分析处理和存储,并通过 TCP/IP(传输控制协议/网际协议)将数据上传到集成软件平台上。各子系统上传的数据经集成软件平台的接口模块接收并统一转换成标准格式存储到数据库中,供集成软件平台上层分析和应用。各客户端通过网络来查看集成软件平台上的数据,并提出相应的业务功能请求。集成软件平台采用网络化架构实现数据的采集、转换、处理、分析和展示,并通过TCP/IP与电力部门其他软件系统进行数据交换。
无人机试飞数据修正
试飞数据不可避地免含有随机误差,这些误差会导致研究分析有一定的偏差, 甚至得到错误结果。因此无人机试飞数据要经过一系列修正,以消除测量过程中引入的各种随机误差, 得到真实的飞行运动参数,这一过程即为试飞数据预处理,也是后续研究工作的基础。试飞数据预处理主要包括:野值识别、剔除与补正;滤除噪声和曲线平滑。
噪声滤除是数据预处理中重要的环节, 试飞数据中的干扰信号来自多样的非平稳、非线性慢时变信号,它们混叠在真实数据中,由于无法得到这些非平稳信号准确的先验统计特性,在线拟合其数学模型对其进行参数辨识也是比较困难的。受到干扰后的输出数据有很多跳变,传统的降噪方法是将试验数据通过一个滤波器,滤除高频噪声成分, 然而对于非平稳、含宽带噪声信号,采用传统方法有明显的不足和局限。局域波分解EMD(empiricalmodedecomposition)法使用自适应的广义基函数将信号分解为有限个基本模式分量之和,很好地突出了信号的局部特征,非常适用于非线性、非平稳的数据序列处理,信号降噪处理结果优于其他信号处理方法。所以在试飞数据预处理滤除噪声中,引入局域波分解的方法对试飞数据在时频域上进行分解,通过重构有用信号实现信噪分离。对于试飞数据, 经过野值识别、剔除与补正, 滤除噪声和曲线平滑处理,在某型无人机试飞数据中应用,修正后的试飞数据满足后续分析要求。
无人机试飞数据修正
试飞数据中含有一些野值(粗大误差), 如果对这试飞数据中含有一些野值(粗大误差), 如果对这
些数据不进行处理, 直接用于后续的性能分析及计算,所得结果将会存在很大偏差,所以将这些野值去除并保留原先真实数据是试飞数据预处理应完成的首要任务。
1. 野值识别、剔除与补正
正交多项式可以拟合连续函数, 用一个低阶多项式将试验数据拟合,如果有判别点不符合多项式,则可以判断为野值。为避免后面野值逆传影响前面的正常,采用前向差分方法进行野值判断,它用到的数据是判别点以前的数据,而这些数据是已经处理的数据,可以认为这些数据是可靠的。这里σ=3,实际中连续野值点很少超过4个, 所以m=3。当满足上式的点超过3个, 那么认为fk, fk+1, …, fk+3都是正常值,如果判断为野值点则对该点进行标记。
野值识别和剔除后,需要对剔除的野值点进行补正,才能保证试验数据的完整性,野值的补正即为数据插值,主要的差值方法有Lagrange插值、Newton插值,分段多项式插值及样条插值。从工程的角度考虑, 由于Lagrange插值缺少递推关系, 增加节点要重新计算,高次差值无法利用低次结果,这里采用Newton插值,假设fk, fk+1, …, fk+n, (n
2.滤除噪声
试飞数据中夹杂着各种随机噪声,它们混叠在真实数据中, 所以要对数据进行降噪处理, EMD分解后的分解分量与原数据的相关系数如表1所示。
从表1中可以看出分量1、2是伪分量,可以直接剔除,分量4、5、6、7、8和趋势项是原数据主要成分。分量3、9、10、11是疑似噪声,随后计算的自相关证明分量3是噪声,其余不是噪声。
云数据修正
深部隐患采空区是矿山安全生产重点监控的危险源,三维激光扫描技术是采空区边界信息获取的重要手段,可以对空间三维物体特征点快,具有速扫描,精确获取目标的空间三维信息探测过程自动化程度高、数据精度高等技术特点,便于结构复杂、非接触式场景的三维可视化建模.但是激光扫描收集的点云数据格式多样,数据点分布不均匀,可能存在异常点,难以直接在原始数据点的基础上进行曲面重构和三维建模内外许多学者对此进行了大量的研究 Cici 等提出先对点云数据进行 Delaunay 三角剖分然后进行处理的方法; 董明晓等提出了利用复合二次插值函数处理法; 还有对局部或边缘点云数据进行优化的方法,. 这些研究中探测的对象都是在地面以上,边界形状规则,探测环境相对较好,所获数据中噪声点判断特征较明显.
国内许多矿山都已经进入深部开采,生产条件复杂,地下工程处于“三高一扰动”的特殊力学环境,岩爆、流变和底板突水等非线性动力学灾害现象频繁,针对深部复杂环境下采空区激光探测效果影响因素及异常点云数据修正的研究较少.本文统计大量空区探测数曲线的拓扑关系,分析坏点和噪声点产生的影响因素,提出噪声点的判断依据,研究采空区激光扫描点云数据坏点插值和噪声点过滤算法.
深部采空区激光探测
1.激光轨迹线规律
采空区激光扫描过程结束后,获取的正常点云数据格式简单、逻辑清楚、圈( 轨迹线) 间有明显分界、圈内数据按先后顺序排列.其数据形式是按激光扫描线组织的“点云”数据,几何拓扑性质具有以下特点:扫描头旋转一圈形成1 条轨迹线,包含若干个有前后顺序的点; 每条轨迹线都反映了三维物体的对应边界点空间信息,是1 条光滑的、相邻点起伏和距离变化不大的曲线,满足C连续性; 圈与圈( 轨迹线) 相互独立.不符合此规律的为异常点,分两大类: 坏点和噪声点.
2.坏点及环境影响因素
统计大量深部采空区探测数据,分析在高温、高湿和高粉尘浓度的环境下坏点出现频率.部分数据见表1.
表1 环境影响因素统计
在工程中统计发现:当温度高于34 ,湿度大于85% ,扫描镜头上形成水珠、水雾,岩尘浓度大于2 mg /m,空区底部有积水,吸收激光能量或者反射激光线时,坏点数目会显著增加.如果有坏点产生,设备自动收集并报告.
噪声点过滤
轨迹线上噪声点相比前后两点,有以下明显几何特征: 与前后两点的距离大于圈内正常点间距; 与前后两点连线形成的夹角比圈内正常点间连线夹角小; 空间位置与其他轨迹线冲突等.基于点云扫描轨迹曲线上点与点之间的拓扑关系和二阶几何连续性的要求,本文提出噪声点复合判据———弦夹角和弦高比,数据点符合该判据时,被确定为噪声点,将被删除.
1.弦夹角
弦夹角过滤算法的基本思维:在扫描圈3 个相邻点点Pi及前后两点Pi-1和Pi+ 1,边Pi-1Pi与边PiPi+ 1连成的2 条边形成的夹角中寻找小于阈值(ε1)的夹角,阈值根据空区的具体形态和工程精度要求确定.夹角θ 的余弦值可以通过余弦定理结合向量的点积( 数量积) 求出.过程如下: 三角形(a,b,c),设向量A = a -c,向量B = b -c,两向量的夹角为θ.
2.过滤算法
1)读取XYZ 数据文件,将点的空间信息存入动态数组中,点的空间信息包含空区边界点的x,y,z 坐标值、圈数和点在圈的索引值;
2)定义1 条初始边(一般选第一个圈的第一、二点的连线为初始边) ;
3)假设存在边e1为第i 圈j 点和第i 圈j -1 点连线,假设存在边e2为第i 圈j 点和第i 圈j + 1 点连线,e1和e2形成的夹角为θ1;
4)按照弦夹角的原则,通过计算和比较夹角的余弦值,余弦值较小则说明夹角较大.如果 ε1>θ1时,确定第i圈j点符合弦夹角判据;
5)计算第i 圈j 点到第i 圈j -1 点和j + 1 点连线的距离dj,以及| dj/dj-1| ;
6)如果| dj/dj-1| ≥ε2,确定第i 圈j 点符合弦高比判据;
7)在点集中删除j 点;
8)完成每个圈上的每个点的比较;
9)将过滤后形成的新点云数据集存入动态数组中.
数据修正的差异性
机器学习关注的根本问题之一是如何提高学习系统的泛化性能.集成学习为此问题提供了一条有效的解决途径,受到了国际机器学习界的广泛重视,并被认为是当前机器学习4 大研究方向之首.在此背景下,Hansen 和Salamon 提出了神经网络集成方法,通过简单地训练多个神经网络并将其结果进行合成,可以显著地提高神经网络系统的泛化性能.该方法易于使用且效果明显,是一种非常有效的工程化神经计算方法.神经网络集成的研究始于Hansen 和Salamon在1990 年的工作,相关研究主要集中在如何生成集成中的个体网络.根据Krogh 等人的分析,成员网络的平均精度越高、成员网络之间差异性越大(即误差相关程度越低),越有利于神经网络集成泛化误差的降低,因此生成满足个体精度要求和差异性要求的成员网络是提高神经网络集成泛化性能的前提基础.综合以往国内外的研究成果,个体网络生成大致可以分为5 种方式:
(1) 样本扰动法.样本扰动方法期望通过样本的随机性来获得差异性,在该方式下,最重要的技术是Boosting和Bagging算法.
(2) 基于输入特征选择的方法.通过选择不同的特征子集来提高个体网络的差异性和降低示例空间的误差相关性,即基于特征选择的神经网络集成技术(集成特征选择)也是一种很有效的个体网络生成技术 .为实现多源扰动、进一步提高个体网络的差异性,近年来,一些学者将样本扰动的Boosting 和Bagging 方法和对输入特征属性扰动的特征选择技术进行结合.
(3) 基于选择性策略的神经网络集成方法.针对传统Boosting 和Bagging 算法由于随机性生成的个体网络规模大、冗余多的问题,Zhou根据分析和实验提出,部分成员网络的集成反而可能超过所有成员网络集成的性能,并以此为依据提出了选择性集成的思想.
(4) 基于进化算法的个体网络生成方法.近年来,Wu 利用粒子群优化算法的全局搜索能力,同时进化神经网络的结构和初始连接权,最后将训练结果进行平均集成,建立短期气候预测模型.Liu和Kim 通过适应度共享(fittness sharing)使遗传算法在进化中形成侧重于不同解空间的差异性种群,最后由聚类或其它选择性策略实现神经网络集成.Pedrajas提出了一种基于协同进化方法的神经网络,进化过程中不仅考虑个体的性能改善,同时根据个体网络性能及和其它网络的协同性为每一个个体网络定义不同的目标函数,实现进化过程中个体网络的协同训练.
(5) 基于差异性评价的个体网络生成方法.为克服前面4 类神经网络集成方法中差异性个体网络生成的随机性和增强差异性学习的目的性,近年来研究人员积极探索了新的基于差异性评价的差异性个体网络学习方法.Liu通过负相关性来评价个体网络的差异性,并通过在误差函数中加入反映负相关度的罚函数项,使个体网络在训练过程中形成差异性.Liu还进一步探讨了基于负相关的神经网络集成的进化学习,通过进化学习可以自动确定集成的规模和实现个体网络学习的交互.张东波 通过对集成误差公式的理论分析,提出了一种能主动引导个体网络进行差异性学习的集成网络学习算法(ADL).该方法通过对集成误差的分解,使个体网络的训练准则函数中包含个体网络误差相关度的因素,并通过协同训练,引导个体网络进行差异性学习.
主动差异性学习方法通过对集成误差公式的分解,使个体网络的训练准则函数中包含个体网络误差相关度的因素,促进个体网络间的协同训练,这将有助于个体网络偏向于不同输出子空间的学习.但是,主动差异性方法集成中成员网络均采用BP (backpropagation)学习算法,它需要成员网络间的较高的数据通信成本,不利于并行分布式快速实现.此外,在训练过程中成员网络必须综合误差相关度函数重新修正其误差准则函数,这也增加了集成多种异构神经网络的困难.上述缺陷一定程度上限制了差异性神经网络集成方法在实际问题中的广泛应用.
为克服这些局限性,本文提出了一种新型差异性神经网络集成方法,该方法利用修正目标数据(object-corrected data,O-C data)作为新的训练集,训练过程中通过修正目标数据引导个体网络间的差异性学习,简称OCD 方法.该方法不同于引导个体网络进行差异性学习的ADL 集成方法,无需实现困难的成员网络误差函数的修正.新型差异性学习方法不仅实现简便,而且不局限于成员网络是否采用 BP 学习算法,因此该方法可用于异构网络的集成.另一个优点是OCD 方法明显降低了网络集成训练过程的通信成本.
新型差异性集成网络的构造算法
以3个成员网络组成的集成网络为例,集成网络采用OCD 方法在分布式计算环境中的具体实现.集成中成员网络各自独立运行,依靠控制中心互相交流.控制中心集中所有信息,它的作用有3 点:
(1) 产生各网络的修正数据;
(2) 分发这些数据到各成员网络;
(3) 集成所有成员网络的输出结果.
修正目标数据的更新间隔定义为gupdate,每个网络被允许训练的总次数定义为gtot.所有成员网络完成gupdate次训练后,修正目标数据同时进行更新.除此之外,也可能是当任意一个成员网络完成gupdate次训练后,修正目标数据进行更新.本文中实验采用第1 种修正相关数据方法.实现的具体过程为:Step 1 初始化M个成员网络的权系数.针对输入训练数据集D =fX;dg,各成员网络开始训练,训练次数达到gupdate,输出网络各自的训练结果.Step 2 所有成员网络的输出结果达到控制中心.以第i 个成员网络为例,分析该过程,其输出结果为fi:
(1)更新集成网络的输出结果f(采用式(10)简单平均法集成结果);
(2)根据式(13) 得到目标修正数据ci;
(3)传递新的训练集Di=fX;cig 到第i 个成员网络,然后输入该数据网络开始训练gupdate次;
(4)输出网络的结果fi到控制中心.Step 3 如果成员网络的总训练次数达到gtot,停止训练,输出成员网络结构;否则,返回Step 2
基于目标数据修正的差异性神经网络
将收集到的496 组已知故障类别的变压器故障样本分为2 部分,其中训练样本206 组,测试样本290组.该故障样本的故障类别可分为中低温过热、高温过热、低能放电、局部放电及正常五种类型.
实验采用5 种特征气体(H2、CH4、C2H6、C2H4、C2H2)含量作为网络输入变量,集成网络输入层神经元节点数为5.为减少各种气体量值间差异造成的影响,所有样本数据都进行了相对归一化处理 .故障样本共分为5 种故障类型,因此,集成中成员网络的输出节点数目为5.集成网络的输出由各成员网络的输出简单平均得到,相关实验结果是20 次运行的统计结果.
为体现本文方法的特点,实验选用了3 种不同类型和学习原理的神经网络进行实验测试.多层感知器网络MLP(multi-layer perception)是一种适合于分类问题的经典网络,本文MLP 采用的是3 层(单隐层)结构,输入层和隐含层之间只负责数据传递,权值不训练,而隐含层和输出层之间的权值采用的是基于MSE(mean squared error)感知准则函数的梯度下降算法.RBF(radial basis function)网络 作为一种基于局部逼近的神经网络,其隐含层每一个神经元都可以代表某一类原型样本,具有结构简单、可解释性好、收敛速度快的特点.RBF网络本文采用2 阶段学习方法,隐含层有5 个神经元(代表5 类原型样本),首先采用期望最大化算法调整基函数中心(5 个高斯函数的中心),随后采用最小二乘法调整输出层连接权值;而BP 网络是采用BP 算法的3 层结构的前馈神经网络,隐含层和输出层采用的都是sigmod 函数.为便于比较,MLP网络和BP 网络的隐含层均采用8 个神经元.实验中集成网络的成员网络有4 种组成方式:
(1)由3 个MLP 网络组成;
(2)由3 个RBF 网络组成;
(3)由3 个BP 网络组成;
(4)由1 个MLP 网络、1 个RBF 网络和1 个BP网络组成.
据观察,更新间隔gupdate一般在20~50间取值性能较好,本文实验OCD 方法中参数的设置:gupdate25,l= 0:2,最大训练次数gtot= 2 000.MLP 和BP 网络的待训练权值参数W在初始化时都设置为接近于0 的随机变量.根据文[19] 可知,主动差异学习集成方法中,个体网络并不需要训练到过高的精度,集成性能的提升主要依赖个体网络的差异性.同时经过试验检验(通过单独选取一部分样本作为校验集),最终在各类网络(RBF 网络除外)训练时,选取2 000 次的训练迭代步数,此时不会出现过学习问题.而RBF 网络由于收敛速度快,不需要过多的训练迭代次数,实验中采用200 次迭代步数.基于概率统计理论的贝叶斯分类方法和基于近邻准则的最近邻法被用在同样的故障样本上与本文OCD 方法进行了比较
数据修正与插值法
随着社会的发展,各行各业、各个领域都会对自身的行为结果做出评估,譬如经济分析和风险分析综合评价、卫生评价、学生成绩评价、公司年度考核、企业产品分等级等等.评估的整体结果一般分为优秀、良好、合格、不合格四个等级,从而为未来的发展做出规划,或进行必要的调整.在这些评估行为中,我们一般是预先给出某个人、某件物或者某件事的数据结果,如分析师对国家或者地区的经济状况打分、检查员给产品打分以及公司领导对员工进行考核等等,然后对数据结果做出整体的考评.
但是往往这些数据考评的结果并不是我们所期望的,可能出现不合格的太多,或者优秀的对某公司员工考核原始太多. 为了使评估的结果达到某种规定的水平,考虑用插值法数据进行适当的调整. 这些研究将不仅为各行各业的评估提供了一个新的方法,而且修正前和修正后数据的比较也为我们提供了未来调整或改进的方向.
插值法在数据修正中的应用
一般地,数据结果评定有 100 分制和等级制两种记载方式,等级制分为优秀、良好、合格、不合格四个等级,它和 100 分制的对应关系见表 1.
假设我们的评估目标为:优秀的比率控制在15% 左右,良好的比率控制在40% 左右,合格的比率控制在40% 左右,不合格的比率控制在5% 左右.本节将用线性插值、拉格朗日插值、牛顿插值方法对某公司员工年度考核分进行修正,目的就是要将结果调整到上述规定的目标范围内.原始数据见表2.根据原始数据表2 可知:原始数据达到优秀的人数为0 人,良好的为6 人,合格的为8 人,不合格的为15 人.而按该公司考核的目标,应有4 人达到优秀,12 人达到良好,12 人达到合格,不合格应控制为1 人.可见,原始考核分达到优秀的人数比预期的目标少4 人,而不合格的人数则多了14 人,与我们规定的目标相差甚远.
线性插值法是一种最简单的插值法,我们的方法是:第一步: 排序: 对原始数据进行统计排序,排序从高向低进行;第二步:分段:把数据分为四段,排在最前面15% 为优秀段,紧接着的40% 为良好段,其次的40% 为合格段,最后的5% 为不合格段;第三步:取上、下限数据(用X 表示原始数据) :找出各段数据的最高分及最低分,即为各段的上限分值和下限分值(其中约定优秀段的最高分为100 分,不合格的最低分为0 分),分别用符号X优秀上、X优秀下、X良好上、X良好下、X合格上、X合格下、X不合格上、X不合格下表示,其中X优秀上= 100,X不合格下= 0;第四步:确定变换目标(用Y 表示目标分值) :把各段的上、下分限换成目标段的上、下分限,即:X优秀上 Y优秀上= 100、X优秀下 Y优秀下= 85 ;X良好上 Y良好上= 84、X良好下 Y良好下= 70 ;X合格上 Y合格上= 69、X合格下 Y合格下= 60 ;Y不合格上= 59、X不合格下 Y不合格下= 0 ;第五步:数据修正:取各段中的数据X ,按式(1)进行线性变换,即可得到相应修正后的数据Y.
下面利用前面所介绍的方法来对原始数据表2 进行修正.按上述介绍的方法,先对原始数据进行排序,排序方式由高到低,最前面的4 个为优秀段,其次的12 个为良好段,紧接着的12 个为合格段,最后面的1 个为不合格段.第4 位分数78 便是优秀段的下限原始分值,第5 位的分数77 便是良好段的上限原始分值,第16 位分数56 便是良好段的下限原始分值,第17 位的分数54 便是合格段的上限原始分值,第28 位的分数25 便是合格段的下限原始分值,第29 位的分数23 便是不合格段的上限原始分值.规定:优秀段的上限原始分值为100,不合格的下限原始分值为0.各段的原始上、下限数据,目标上、下限数据以及各段的变换公式.修正以后 有 4人达到优秀,12 人达到良好,12 人合格,1 人不合格,完全达到我们规定的目标.
最新修订时间:2022-08-25 18:48
目录
概述
数据修正技术
参考资料