本文对两个独立二项分布的比例差提出了一种提升Beal区间估计方法,这种方法具有较好的覆盖率和最小覆盖率,区间长度也比较短,并且,新方法使用的最优权值具有显式表达式,计算简单,增加的计算量很小。模拟结果和实例分析表明了这种方法具有良好的有效性和稳定性。 This paper proposes a modified Beal interval for the difference between independent binomial proportions. The new method with the optimal weight has better coverage probabilities and shorter intervals than most of the often used ones. Most importantly, the optimal weight value has a simple non-iterative form, therefore there is no much additional computation compared with the existing methods. A real extreme case is analysed to show the claimed properties and practical usability.
吴延科*,柴华金
广东海洋大学数学与计算机学院,广东 湛江
收稿日期:2018年7月18日;录用日期:2018年8月3日;发布日期:2018年8月10日
本文对两个独立二项分布的比例差提出了一种提升Beal区间估计方法,这种方法具有较好的覆盖率和最小覆盖率,区间长度也比较短,并且,新方法使用的最优权值具有显式表达式,计算简单,增加的计算量很小。模拟结果和实例分析表明了这种方法具有良好的有效性和稳定性。
关键词 :Beal区间,二项比例,比例差,独立的
Copyright © 2018 by authors and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
区间估计是统计推断的基本任务之一,很多常用的区间估计方法都是基于正态近似。令 X 1 , X 2 是两个独立的二项分布变量,分别服从二项分布 B ( n 1 , p 1 ) , B ( n 2 , p 2 ) 。两个二项分布的比例差定义为 θ = p 1 − p 2 , θ 的最大似然估计是 θ ^ = p ^ 1 − p ^ 2 ,其中 p ^ 1 = X 1 p 1 , p ^ 2 = X 2 p 2 分别是 p 1 , p 2 的最大似然估计。给定 p 1 和 p 2 , θ ^ 的方差是 v a r ( θ ^ ; p 1 , p 2 ) = 1 n 1 p 1 ( 1 − p 1 ) + 1 n 2 p 2 ( 1 − p 2 ) ,用 p ^ 1 , p ^ 2 分别替换 p 1 , p 2 得到著名的Wald区间
C I W a l d = θ ^ ± z α 2 1 n 1 p ^ 1 ( 1 − p ^ 1 ) + 1 n 2 p ^ 2 ( 1 − p ^ 2 ) ,
其中 z α 2 是标准正态分布的 α 2 分位数。Fleiss [
C I W a l d , c c = θ ^ ± { z α 2 1 n 1 p ^ 1 ( 1 − p ^ 1 ) + 1 n 2 p ^ 2 ( 1 − p ^ 2 ) + 1 2 ( 1 n 1 + 1 n 2 ) } .
Mee [
C I M e e = θ ^ ± z α 2 1 n 1 p ˜ 1 ( 1 − p ˜ 1 ) + 1 n 2 p ˜ 2 ( 1 − p ˜ 2 ) .
Beal [
C I B e a l = θ * ± w ,
其中
θ * = θ ^ + z α / 2 2 v ( 1 − 2 η ˜ ) 1 + z α / 2 2 u ,
w = z α / 2 1 + z α / 2 2 u u [ 4 η ˜ ( 1 − η ˜ ) − θ ^ 2 ] + 2 v ( 1 − 2 η ˜ ) θ ^ + 4 z α / 2 2 u 2 η ˜ ( 1 − η ˜ ) + z α / 2 2 v 2 ( 1 − 2 η ˜ ) 2 .
Beal [
本文我们关注Beal区间中 η 值的非对称性问题,提出一种提升Beal区间。
Newcomb [
记
r = μ 2 ( 1 n 1 + 2 μ + 1 n 2 + 2 μ ) , f i = n i n i + 2 μ , i = 1 , 2 (2.1)
其中 μ ≥ 0 ,则 η ˜ = 1 2 ( f 1 p ^ 1 + f 2 p ^ 2 ) + r 。对Haldane区间, μ = 0 ,对Jeffreys-Perks区间, μ = 1 2 。Beal [
η λ = λ p 1 + ( 1 − λ ) p 2 , λ ∈ [ 0 , 1 ]
作为讨厌参数,重参数化得到 p 1 = η λ + ( 1 − λ ) θ , p 2 = η λ − λ θ ,则
v a r ( θ ^ ; η λ , θ ) = [ η λ + ( 1 − λ ) θ ] [ 1 − η λ − ( 1 − λ ) θ ] n 1 + ( η λ − λ θ ) ( 1 − η λ + λ θ ) n 2 .
假设 η ˜ λ 是 η λ 的一个估计,求解
( θ ^ − θ ) 2 − z α / 2 2 v a r ( θ ^ ; η ˜ λ , θ ) = 0 (2.2)
即得到以两个根为端点的
其中
使用Beal [
其中
其中
我们使用两个模拟试验验证提升Beal区间的效果,第一个用于检验覆盖率和最小覆盖率,第二个用于检验区间长度。作为对比,我们同时给出Wald方法、Mee方法和Beal方法(包含Roths & Tebbs [
给定
从图1~图2和表1可以看出,Mee方法和提升的Jeffreys-Perks方法具有较高的最小覆盖率。
我们来评估9种方法的平均区间长度。给定
其中
我们使用Wallenstein [
图1. 九种方法的覆盖率,
图2. 九种方法的覆盖率,
Beal方法估计比例差的95%和99%置信区间。作为对比,我们也给出前述几种方法的估计结果,见表3。我们发现,对于这种极端情况,除了Mee方法和提升的Beal方法,其它方法估计出的区间都超出了[−1,1]的合理范围,这种现象称为overshoot现象,而Mee方法和提升的Beal方法可以避免这种现象的发生。此外,Mee方法和提升的Haldane方法具有相同的估计结果,但是在3.2节的模拟中,Mee方法的平均区
Method |
|
|
---|---|---|
Wald | 0.2336 | 0.5313 |
Wald, cc | 0.6497 | 0.7848 |
Mee | 0.9139 | 0.9298 |
Haldane | 0 | 0 |
Jeffreys-Perks | 0 | 0 |
Beal-MLE | 0.8290 | 0.8760 |
Beal-MOM | 0 | 0 |
Haldane M | 0 | 0 |
Jeffreys-Perks M | 0.9026 | 0.9298 |
表1. 九种方法的最小覆盖率
Method |
|
|
|
|
---|---|---|---|---|
|
Wald | 0.3654 | 0.5937 | 0.4741 |
Wald, cc | 0.5321 | 0.7604 | 0.6408 | |
Mee | 0.4255 | 0.6078 | 0.5864 | |
Haldane | 0.4375 | 0.5728 | 0.4473 | |
Jeffreys-Perks | 0.4402 | 0.5883 | 0.5068 | |
Beal-MLE | 0.4379 | 0.5906 | 0.5078 | |
Beal-MOM | 0.4364 | 0.5657 | 0.4207 | |
Haldane M | 0.4325 | 0.5656 | 0.4481 | |
Jeffreys-Perks M | 0.4348 | 0.5875 | 0.5066 | |
|
Wald | 0.2369 | 0.3436 | 0.2847 |
Wald, cc | 0.2902 | 0.3969 | 0.3380 | |
Mee | 0.2465 | 0.3477 | 0.3122 | |
Haldane | 0.2465 | 0.3394 | 0.2788 | |
Jeffreys-Perks | 0.2472 | 0.3427 | 0.2896 | |
Beal-MLE | 0.2464 | 0.3428 | 0.2886 | |
Beal-MOM | 0.2467 | 0.3344 | 0.2745 | |
Haldane M | 0.2462 | 0.3384 | 0.2791 | |
Jeffreys-Perks M | 0.2457 | 0.3426 | 0.2896 |
表2. 九种方法的平均置信区间长度(
Method | 95% | 99% | ||
---|---|---|---|---|
CI | Length | CI | Length | |
Wald | [0.5351, 1.1315] | 0.5964 | [0.4414, 1.2252] | 0.7838 |
Wald, cc | [0.4504, 1.2162] | 0.7657 | [0.3568, 1.3099] | 0.9531 |
Mee | [0.4365, 0.9699] | 0.5334 | [0.3365, 0.9801] | 0.6437 |
Haldane | [0.4473, 1.0315] | 0.5842 | [0.3097, 1.0623] | 0.7526 |
Jeffreys-Perks | [0.4420, 1.0492] | 0.6072 | [0.3068, 1.0849] | 0.7781 |
Beal-MLE | [0.4481, 1.0289] | 0.5808 | [0.3102, 1.0591] | 0.7489 |
Beal-MOM | [0.4424, 1.0480] | 0.6056 | [0.3070, 1.0833] | 0.7763 |
Haldane M | [0.4365, 0.9699] | 0.5334 | [0.3365, 0.9801] | 0.6437 |
Jeffreys-Perks M | [0.4362, 0.9695] | 0.5332 | [0.3357, 0.9796] | 0.6439 |
表3. 实际数据的95%和99%置信区间
间长度比提升的Haldane方法要大。综上所述,实际中我们推荐使用Mee方法和我们提出的提升Jeffreys-Perks方法。
本文我们通过改良Beal区间中的讨厌参数的选取,提出了一种提升Beal区间方法,最优调节参数可以通过一个显式表达式给出,计算简单。实验模拟显示我们的方法具有大的覆盖率和最小覆盖率,平均区间长度也比较短。实际中,我们推荐使用Mee方法和我们提出的提升Jeffreys-Perks方法。
本文为“广东海洋大学人文社会科学项目:二项抽样下两独立总体的比例差的统计推断”项目成果。
吴延科,柴华金. 两个独立二项分布比例差的提升Beal区间估计A Modified Beal Interval for the Difference between Two Independent Binomial Proportions[J]. 统计学与应用, 2018, 07(04): 400-406. https://doi.org/10.12677/SA.2018.74046
https://doi.org/10.2307/2531547
https://doi.org/10.1080/03610920600683622
https://doi.org/10.1002/(SICI)1097-0258(19980430)17:8<873::AID-SIM779>3.0.CO;2-I
https://doi.org/10.1002/(SICI)1097-0258(19970630)16:12<1329::AID-SIM567>3.0.CO;2-I