贝叶斯信息标准
数学术语
贝叶斯信息标准是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策,最后再利用期望值和修正概率做出最优决策,是使用的越来越多的信息指标。贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小,又考虑了因误判造成的损失大小,判别能力强。
简介
贝叶斯信息标准是使用的越来越多的信息指标。贝叶斯信息标准有两种不同的类型。一种贝叶斯信息标准指标用来比较所设模型与饱和模型;另一种是用来比较所设模型与零假设模型(即只包含常数项的模型)。贝叶斯信息标准是统计模型决策中的一个基本方法,其基本思想是:已知类条件概率密度参数表达式和先验概率,利用贝叶斯公式转换成后验概率,根据后验概率大小进行决策分析。
定义
贝叶斯信息标准是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。
=模型的似然函数的最大值M
X=观测数据
n=数据点的数量x,观察次数或者相当于样本量
k=要估计的自由参数的数量。如果正在考虑的模型是线性回归,k是回归的数量
贝叶斯信息标准是根据数据分布处于指数族的假设得出的渐近结果,用于模型选择问题,其中向BIC添加常数不会改变结果。
基本思想
贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:
1、已知类条件概率密度参数表达式和先验概率
2、利用贝叶斯公式转换成后验概率
3、根据后验概率大小进行决策分类
属性
1、独立于先前或先前是“模糊”(一个常数)。
2、可以测量参数化模型在预测数据方面的效率。
3、有模型的复杂性,其中复杂性是指模型中的参数数量。
4、大致等于最小描述长度标准,但具有负号。
5、可以用于根据特定数据集中存在的固有复杂度来选择簇数。
限制
贝叶斯信息标准主要受到两方面的限制:
1、上述近似值仅适用于样本大小n远远大于数字k的模型中的参数。
2、贝叶斯信息标准无法像高维度的变量选择(或特征选择)问题那样处理复杂的模型集合。
应用
滑坡灾害是山地主要灾害之一,具有分布广泛,发生频繁,成灾快速等特点,给山区的经济发展造成极大危害。区域滑坡空间预测主要是通过对滑坡产生条件进行分析,确定出对滑坡作用最有利的因素组合,根据这些有利的因素组合来预测区域上或某斜坡地段将来产生滑坡的可能性,圈定可能产生滑坡的影响范围,预测可能造成的危害。单体滑坡敏感因子分析方法主要通过分析稳定性系数与抗震参数和地震强度的关系,找出敏感性最强的因素;或采用灰色关联分析方法、正交试验设计等方法进行敏感性因素评价。
由于一个地区历史滑坡的发生用有或无来表示,所以可以运用区域滑坡影响因素与历史滑坡之间建立的Logistic模型,通过贝叶斯信息标准进行模型优劣程度的比较,对影响区域滑坡的因素进行对比,得出区域滑坡敏感因子的结论,为生产实际服务。
贝叶斯决策
理论分析
1、如果我们已知被分类类别概率分布的形式和已经标记类别的训练样本集合,那我们就需要从训练样本集合中来估计概率分布的参数。在现实世界中有时会出现这种情况。(如已知为正态分布了,根据标记好类别的样本来估计参数,常见的是极大似然率和贝叶斯参数估计方法)
2、如果我们不知道任何有关被分类类别概率分布的知识,已知已经标记类别的训练样本集合和判别式函数的形式,那我们就需要从训练样本集合中来估计判别式函数的参数。在现实世界中有时会出现这种情况。(如已知判别式函数为线性或二次的,那么就要根据训练样本来估计判别式的参数,常见的是线性判别式和神经网络)
3、如果我们既不知道任何有关被分类类别概率分布的知识,也不知道判别式函数的形式,只有已经标记类别的训练样本集合。那我们就需要从训练样本集合中来估计概率分布函数的参数。在现实世界中经常出现这种情况。(如首先要估计是什么分布,再估计参数。常见的是非参数估计
4、只有没有标记类别的训练样本集合。这是经常发生的情形。我们需要对训练样本集合进行聚类,从而估计它们概率分布的参数。(这是无监督的学习)
5、如果我们已知被分类类别的概率分布,那么,我们不需要训练样本集合,利用贝叶斯决策理论就可以设计最优分类器。但是,在现实世界中从没有出现过这种情况。这里是贝叶斯决策理论常用的地方。
决策依据
贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小,又考虑了因误判造成的损失大小,判别能力强。贝叶斯方法更适用于下列场合:样本(子样)的数量(容量)不充分大,因而大子样统计理论不适宜的场合;试验具有继承性,反映在统计学上就是要具有在试验之前已有先验信息的场合。用这种方法进行分类时要求两点:
1、要决策分类的参考总体的类别数是一定的。例如两类参考总体(正常状态Dl和异常状态D2),或L类参考总体D1,D2,…,DL(如良好、满意、可以、不满意、不允许、……)。
2、各类参考总体的概率分布是已知的,即每一类参考总体出现的先验概率P(Di)以及各类概率密度函数P(x/Di)是已知的。显然,(i=l,2,…,L),。
对于两类故障诊断问题,就相当于在识别前已知正常状态D1的概率P(D1)和异常状态的概率P(D2),它们是由先验知识确定的状态先验概率。如果不做进一步的仔细观测,仅依靠先验概率去作决策,那么就应给出下列的决策规则:若,则做出状态属于D1类的决策;反之,则做出状态属于D2类的决策。例如,某设备在365天中,有故障是少见的,无故障是经常的,有故障的概率远小于无故障的概率。
因此,若无明显的异常状况,就应判断为无故障。显然,这样做对某一实际的待检状态根本达不到诊断的目的,这是由于只利用先验概率提供的分类信息太少了。为此,还要对系统状态进行状态检测,分析所观测到的信息。
贝叶斯网络模型
贝叶斯网络是基于概率推理的数学模型。采用图形化网络结构直观地表达变量的联合概率分布及其条件独立性。一个贝叶斯网络是一个有向无环图,由代表变量节点及连接这些节点的有向边构成。基于贝叶斯信息标准评分的贝叶斯网络结构学习常采用如下方法:
1、基于评分一搜索的学习方法。该方法过程简单规范,但搜索空间大,一般在节点有序的前提下,根据评分算法的可分解性进行局部确定或随机搜索(完全搜索是NP问题)。
2、基于依赖分析的学习方法。该方法过程较复杂,但在一些假设下学习效率较高,且能获得全局最优结构。但在现有依赖分析方法中,冗余边检验在确定边的方向之前进行,无法准确地确定切割集,导致大量高维条件概率计算,通常不能定向所有边。这些缺点降低了学习效率和准确性。
最新修订时间:2022-08-25 13:43
目录
概述
简介
定义
参考资料