|
摘要:讨论了正态分布三种特殊随机模型[1]的估计性质:(1)算术平均值估计是最小二乘估计(LS估计),是一种全纳伪的估计方法;(2) 中位数估计是抗差估计的严密估计方法,是一种全弃真的估计方法;(3) 期望估计是标准正态分布估计,具有既不纳伪、也不弃真的估计方法。期望估计分方差未知和方差己知两种子样情况进行估计[2] 。文中对未知子样的应用进行了讨论,指出它在经济学及变形观测中的应用具有重要的科学价值。
http://
关键词:算术平均值估计;中位数估计;期望估计;标准估
中图分类号:G623.56文献标识码:A文章编号:
Discussing the estimated quality and application of three kinds of estimatioGe ChuanzengHousing Construction Bureau Planning Office Rizhao Lanshan276807
Zhu JuntaoGuilinInstitute of Technology,Guilin541004
Abstract: we discussed the estimated quality of three kinds of special random model what were normal distributed: (1) arithmetical average estimation was Least Square estimation (LS estimation), which was a kind of estimated method including all wrong value; (2) median estimation was the rigorous estimated method of Robust Estimation, which was a kind of estimated method discarding all eligible values; (3) expected estimation was standard normal distributed estimation, which was a kind of estimated method having the quality neither including wrong values nor discarding eligible values. Expected estimation had two kinds of subsample instances that variancewas unknown and variancewas known when we estimated with it. In this paper we discussed the application of subsample whosewas unknown, indicating that it had significant scientific value in the application of economics and anamorphic observation.
Key words: arithmetical average estimation ;median estimation; expected estimation; standard estimation
前言
利用子样求母体参数称为估计;利用子样值求出的母体参数的大小(或数值) 称为估计值;所使用的方法称之为估计方法。估计方法有多种多样,统计起来成百上千。但估计结果必定在LS估计量和中位数估计量之间的闭区间内取值。这个闭区间我们称它为期望估计域,意思是随机变量数学期望的估计值可能存在的区域,计为,这个域的大小既与子样的取值有关,又与母体的特性有关。本文就是针对这些问题进行讨论。
估计的基本原理和三种估计量
所谓估计,就是利用有限子样对母体参数进行估计。设随机变量X,子样,
当,对进行估计。有误差方程
(1)
对(1)式取期望,因为E(△) = 0,所以有 。这就是说,如果取无穷子样,则子样的数学期望等于随机变量的数学期望;也就是说,当时,我们可求出 ,如果是有限的,我们只能求得的估计值。对(1)式取期望,有,一般有,顾及(1)式得且因有,所以有
于是有
(3)
同理,得到方差的计算公式
(4)
(3)式和(4)式表明,和是两个常量,是参数真值,即是随机变量的数学期望值;在间取值,是随机变量的方差。 当时,在取任何值,恒有(3)式之恒等关式。例如在测量中利用DJ2和DJ6两种经纬仪对同一个角进行无穷次观测,必有,而。所以是唯一确定的常数,而不是。如果是有限的,用表示有限子样,则
(5)
表明:即使己知和两个常数,当子样有限时,也无法按(3) 式求参数的真值,而只能求出的估计值。同理,也是估计值。于是可以将(3)、(4)式写成函数式(6) 、(7)式。
(6)
(7)
(6)和(7)式是非线性隐函数方程,通过迭代法解算的、估计值、。在迭代过程中,每次迭代的值就减少,直到有,此时,因此可以说(6)、(7)式实际上也是中位值计算的严密公式[2]。这时(3)式中的与(6)式中的已经具有不同的含意了:(3)式中的是方差,而(6)式中的已经不具有方差的性质,它只具有尺度因子的性质了。(3)式是数学期望表达式,而(6)式是数学期望估计表达式。为了不至引起混淆,将(6)式改写为
(8)
以替代,在取值,则在 取值。我们称为期望估计域。在期望估计域中有三个特殊的估计量[1]:(1) 算术平均值估计量;(2) 中位数估计量;(3) 标准估计量。下面对这三种估计量作进一步的探讨。
2.1 算术平均值估计量
当→∞时,由(8) 式可知,得到
(9)
由于当→∞时,任何错误观测值都可以通过滤波器,所以算术平均值估计量是全纳伪估计量。算术平均值估计量也就是最小二乘估计量,而估计是建立在所有观测值只含偶然误差的基础上的一种估计方法,如果观测值中含有错误观测值或粗差,由于这种估计是按平均分配误差原则来处理数据的,则将会导致估计结果纳伪。
2.2中位数估计量
当→0时,由(8)式将得到中位数估计量,由滤波器知,一切有用信息都被滤掉。如果未知参数是1维的、且观测个数n是奇数时,才可以求得中位数。将观测值由小至大依次排列,其中间的那个观测值就是。如果未知参数是多维的、或者虽然未知参数是1维的、但观测个数是偶数时,不可能严密地求得中位数估计量[3]。具有彻底的抗差性,观测列中一切粗差(错误) 都不会对产生影响。但由于具有彻底的排它性,从而使中位数估计排除了所有的多余观测,因此带来了全弃真的估计性质。中位数估计也是建立在观测值所产生的观测误差是偶然误差的基础上的一种估计方法,但也由于中位数估计量具有彻底的抗差性质,任何粗差(错误) 对不产生影响,因此,中位数估计是彻底的抗差估计方法。
2.3期望估计量
期望估计与估计和中位数估计的区别在于:估计和中位数估计是不顾及子样性质的一类估计;而期望估计是根据子样性质的不同而给出不同的估计公式[2]的一类估计方法。对于已知的子样,用(10)式
(10)
对于未知的子样,则按(6)、(7)式进行估计。在用(10)式进行估计时,取所得到的估计量称为标准估计量,意思是以作为标准进行估计所求得的估计量。求得的估计量为。显然的估计量不是标准估计量,则和不是标准估计量,当然抗差估计量也不是标准估计量。在期望估计域中,标准估计量是唯一的。(10)式适用于已知的子样的参数估计。这种估计具有既不纳伪、也不弃真的估计性质。而|k|>1的估计存在纳伪;|k|<1的估计则存在弃真。
3.算例和分析
在测量平差中,面对的观测列,其观测值所产生的观测误差基本上属偶然误差,粗差(错误) 是少数,因此,要优于。如果观测列中没有粗差(错误) 观测值,则 和 都可作为未知参数估值。
例1用经纬仪对某角度进行观测,得到L=(3.15.24.64.24.3) T,试对该角进行估计。
解:LS估计得到 =4.28,中位数估计得到=4.30,期望估计得到
当时可解得:=5.24,=4.30,
可以看出只要观测列中不含错误观测值,前两种估计方法都是可以作为参数估计的。如果存在错误观测值,则LS估计方法不能使用,只能使用中位数估计。然而中位数估计是一种不收敛的估计方法,于是就产生了抗差估计,抗差估计实际上可以看作中位数的近似方法,它的估计结果接近于中位数,这样,既起到了抵抗粗差(错误) 的目的、又使得解算过程一般是收敛的。中位数估计被认为是最好的抗差估计方法,但中位数是无法求出的。为了求得接近于中位数的估计值,我们可以通过求期望估计域的办法,得到接近于中位数的估计结果。设己知先验方差为,则可以从期望估计(10)式中找到满意的估计结果。
4. 未知子样的估计公式(6)式的估计性质及其应用
许多经济统计推断、社会学统计推断的子样,其子样的母体方差是未知的。例如求某个地区的年平均气温、求某个地区人均生活水平、求一所学校学生的平均身高,所有这些统计推断问题,通常都采用算术平均值估计量。但从本文给出的期望估计域知,取算术平均值估计量来代表推断结果是不严密的。由于不严密而导致推断结果不正确,用不正确的指标制定政策会带来失误。下面我们引用文献[5]的一段文字:“在实用上,中位数用得很多:特别有不少社会统计资料,常拿中位数来描述某种量的代表性数值,有时它比算术平均值更能说明问题。例如,某社区内人的收入的中位数告诉我们:有一半的人收入低于此值,而另一半人高于此值。我们直观上感觉到这值对该社区的收入情况,的确很具代表性,它和期望值相比有一个优点是:它受个别特大或特小值的影响小,而算术平均值则不然。举例而言,若该社区中有一人收入在百万元以上,则该社区的均值可能很高,而绝大多数人并不富裕,这个值并不很有代表性,中位数则不然:它几乎不受少量几个特大值的影响。”这段文字强调以中位数取代算术平均值(均值)的代表性,实际上就是用抗差估计替代LS估计。由于百万富翁是客观存在的真实,若用中位数作为代表,就存在弃真,弃真与纳伪一样将导致估值歪曲。正确的估计方法应该按(6)、(7)式进行估计。
例2.为了研究地壳形变以预报地震,布设个水准点进行了两期水准测量。求得 个点的高程变化量为
这里高程变化量为零的那个点就是参考基准点。因为测区发生了地壳形变,或者测量数据中包含某种或综合成份的周期性误差,可以认为网中各点都是变形点或是等概率性变,参考基准点也发生了变化。在这种情况下,自然认为采用重心基准。当观测值中又包含有较大的观测误差时,如何求出参考基准的变化呢?文献[6]是无法解决的。而应用下式则彻底解决了。
(11)
解(11)式求得的就是重心参考系,也是参考基准的变化量。
5.结束语
随机误差可分为两大类:一类是观测误差,产生这类误差的观测值通常是已知的观测值,其取值区间为,由观测值出现的概率
知,若取,则可知,含以上的观测值出现的概率几乎为零。因此,可以认为观测误差是有界误差。超过误差界限的观测值就是错误观测值,对于错误观测值必须予以剔除,才能按估计进行估计,或者不予剔除而按中位数估计即抗差估计;也可以按(10)式进行估计,但不能按(6)、(7)式进行估计。
另一类是样本误差,产生这类误差的样本值,通常是未知的样本体。样本值总是在()取值。样本误差是无界误差,例如,统计推断美国的人均收入,穷人收入可能接近于零美元,而比尔盖茨的收入为几百亿美元,相对之下误差近于天文数字。所以说这种误差是无界的。这时对于样本观测值的估计,只有按(6)、(7)式进行估计才是正确的;因此,可以说(6)、(7)式的估计在经济学领域是很有实用价值的。
参考文献 reference
[1] 黄 杰. 正态分布三种特殊随机模型及适用范围一一兼论算术平均值是事实上的有偏估计.桂林工学院学报,20(4) :283一287。
[2] 黄杰、唐诗华、朱军桃、廖中平. 两类子样估计.大地测量与地球动力学,2004、2,24(1) :90一93
[3] 彭军还. 一种新的估计准则一一和极大似然估计.桂林冶金地质学院学报,1994,15(1) :436一444
[4]黄杰. 理论平均值及P分布实例试验.测绘科学,2001、16(1):23一24
[5]陈希孺. 概率论与数理统计.合肥,中国料学技术大学出版社。1982:192页
[6]陶本澡.自由网平差与变形分析〈M>.北京,测绘出版社。1984
|
|