bootstrap

bootstrap的数学定义

设随机样本$X=[x_{1},x_{2},...,x_{n}]$是独立同分布样本,$x_{i}\sim F(x),i=1,2,...,n$。$R(X,F)$为某个预先选定的随机变量,是X和F的函数。现要求根据观测样本估计$R(X,F)$的分布特征。例如,设$\theta =\theta(F)$为总体分布$F$的某个参数,$F_{n}$是观测样本$X$的经验分布函数,$\hat{\theta}=\hat{\theta}(F_{n})$是$\theta$的估计,记估计误差为$R(X,F)=\hat{\theta}(F_{n})-\theta(F)$,现由观测样本$X=[x_{1},x_{2},...,x_{n}]$估计$R(X,F)$的分布特征,bootstrap方法实质就是一个再抽样过程,计算$R(X,F)$分布特征的基本步骤归纳如下:

1.基于样本进行自助抽样,构造出M个自助抽样子样本集,即bootstrap样本。

2.基于M个bootstrap样本,得到所求参数$\theta$的M个取值,进而求出参数$\theta$的分布及其统计量。

由抽样过程可以看出,$R_{n}$的统计特征近似于一个$M(0,\sigma^{2})$的正态分布。

$\sigma_{\hat{\theta}}=\sqrt{D(\hat{\theta})}$称为估计量$\hat{\theta}$的标准误差。

假设:bootstrap样本的参数估计分别为$\hat{\theta}_{1},\hat{\theta}_{2},...,\hat{\theta}_{M}$,那么,

$\hat{\sigma}_{\hat{\theta}}=\sqrt{\frac{1}{M-1}\sum_{i=1}^{M}(\hat{\theta}_{i}-\bar{\theta})^{2}}$

上式即为$\sigma_{\hat{\theta}}$的bootstrap估计,其中$\bar{\theta}$为bootstrap样本均值。

参数$\theta$的bootstrap偏差可以写为,$\bar{\theta}-\theta_{n}$,其中$\theta_{n}$为原样本的参数$\theta$的估计值。

参数$\theta$估计的bootstrap均方误差为,$E(\hat{\theta}-\theta)^{2}=\sigma_{\hat{\theta}}^{2}+(\bar{\theta}-\theta_{n})^{2}$。