当前位置:首页 >读好书>

原油/燃料油种类鉴别的化学计量学方法

来源:www.timetimetime.net 时间:2020-02-09 编辑:技巧

本章主要介绍本研究的理论基础,即本研究涉及的主要化学计量学方法的原理,包括因子分析中的主成分分析原理、判别分析中的费希尔判别分析和贝叶斯判别分析原理以及多元统计分析中的逻辑回归分析原理

5.1主成分分析原理

因子分析中确定因子变量的方法很多,如基于主成分分析模型的主成分分析法、基于因子分析模型的主轴因子法、最大似然法和最小二乘法等。 基于主成分分析模型的主成分分析是[54-60]中应用最广泛的因子分析方法之一

主成分分析(Principal Component Analysis)主要利用坐标变换将原始的P相关变量xi线性变换成另一组不相关变量yi,可以表达如下:

Y1=U11X1+U21X2+.+UP1SP

y2=U11X 1+U22X 2+.+UP2SP

.

yp=U1PX1+U2PX2+.+向上PXP(公式2-1)

y1,Y2,y3,YP是第一,第二,第三,和原始变量的P Y1在总方差中所占比例最大,并且具有最强的综合原始变量的能力。其他主成分在总方差中的比例逐渐降低,即综合原始变量的能力逐渐减弱。 所谓主成分分析(principal component analysis),就是选择前几个比例最大的主成分,这样不仅可以减少变量的数量,而且可以用较少的变量反映原始变量的大部分信息。

主成分分析的步骤如下:

数据的标准化处理

(公式2-2)

其中I=1,2,n,n是样本的点数;J=1,2,p,p是样本的原始变量数 为方便起见,标记为

[西吉*]n×p=[西吉]n×p(公式2-3);

(2)计算数据的协方差矩阵r[x j]n×p;

(3)找到R: λ 1 ≥ λ 2 ≥ λ 3 ≥ λ … ≥ λ m的前M个特征值,以及相应的特征向量u1,u2,嗯;

(4)找出m个变量的因子负荷矩阵

5.2判别分析原理

判别分析是统计学中研究分类问题的常用分析方法。这是对个案进行分类和分析的有效方法 在判别分析中,一个群体的特征是已知的,通常是基于已知事物类别的特征,利用一些技术建立判别函数,然后未知类别的新事物被判断为被分类为已知类别 例如,苹果的质量可以通过测量苹果中矿物元素的含量来判断。通过测定不同产地蔬菜中的元素含量,利用判别分析确定未知蔬菜样品[61-66的产地

分析的每个阶段都要把握原则:

先验组的分类标准(作为判别分析的因变量)应尽可能准确可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。

被分析的自变量应是因变量的重要影响因素,应选择具有重要特征和区分能力的变量,以达到最小变量的高分辨率。

初始分析的数量不能太小

判别分析常用的方法包括最大似然法、费希尔判别分析、贝叶斯判别分析和逐步判别分析。以下重点介绍费希尔判别分析和贝叶斯判别分析的原理

5.2.1费希尔判别分析原理

费希尔判别分析费希尔判别分析的中心思想是试图找到最佳投影方向,并将m维空中的点投影到低维空,例如一维空,以尽可能分离不同的点,然后将其分类到低维空

具有p指数的样本观测数据从k个总体中提取,并且线性判别函数

U(X)=u1X1+u2X2+…+upXp=u'X(公式2-4)

其中系数u'=(u1,u2,“向上”由最大化群体间差异和最小化每个群体内的分散性的原则决定 在具有线性判别函数之后,对于新样本,将其p指数代入线性判别函数公式2-4中,以找到U(X)的值 然后,根据某些标准,我们可以区分未知样本属于哪个群体。

Fischer判别分析步骤可以总结如下:

有一个训练样本集:个体观察值必须准确,个体数量必须足够;

建立一个判别函数来解释变量(简称变量或指标)X1,X2,Xp必须与分类相关。

使用这个判别函数来判别未知个体的类别

5.2.2贝叶斯判别分析原理

贝叶斯判别是基于这样的假设,即存在定义明确的g种群π1,π2,πg,它们是X1,X2,分别为Xp 对于任何个体,如果观察到的磷变量的值是已知的,就需要确定该个体最有可能属于哪个群体。

如果我们制定分类规则,错误分类将不可避免地发生。 属于第一类的个人被错误地归入第j类的概率被记录为p(j | 1),由这种错误分类造成的损失被记录为c(j | 1) 贝叶斯准则是最小化平均损失的准则 根据这个标准找到一个区分分类的规则就是贝叶斯判别

贝叶斯判别准则下判别分析的分类函数形式如下(g类,p指标):

y1=c01+c11x1+c21x2+.+cp1xp

y2=c02+c12x1+c22x2+.+cp2xp

.

yg=c0g+c1gx1+c2gx2+.+cpgxp(公式2-5)

即g线性函数的联立方程,每个线性函数对应于某一类别 其中C0j、C1j、Cpj,(j=1,2,g)是要估计的参数吗 判别函数建立后,常用的判别准则是:如果你想判断一个样本属于上述哪一个G类,你可以将样本的每个Xi值代入方程2-5中的每个方程,计算Y1,Y2,分别为Yg值 其中,如果Yf最大,则意味着样本属于F类的概率最大,因此被判断为属于F类[67-70]

5.3逻辑回归分析原理

逻辑回归分析主要采用最大似然估计模型 让因变量为y,事件发生时y的值为1;当事件不发生时,y的值为0。 影响y的n个独立变量是x1,x2,xn 假设事件在独立变量作用下发生的条件概率为π,不发生的条件概率为1-π,以下计算公式可用:

(公式2-6)

(公式2-7)

公式2-6和公式2-7都是由独立变量组成的非线性函数

事件发生与不发生的概率比称为事件发生率,对数变换可以得到逻辑回归分析的线性模型:

与费希尔判别分析等多元线性判别相比,逻辑回归分析有许多独特的优势,如不要求数据的正态性和方差齐性,不要求自变量的类型,系数的可解释性等。[71-72]

相关文章
热门标签
日期归档

版权所有© 阅读时间 | 备案: 鄂ICP备12015973号-1 | www.timetimetime.net . All Rights Reserved | 网站地图