Hoeffding’s Inequality

霍夫丁不等式 (P(|vμ|ϵ)2e2nϵ2 ) 的意义:

  • 当n 很大时,抽样的期望v可以逼近样本本身的期望值μ(一般是未知),例如:

    n=1000,ϵ=0.05μ0.05vμ+0.05,P(|vμ|ϵ)2e210000.052=0.013

    注意这里只是概率上说明vμ的误差关系,真实情况v 的取值是随意的。所以霍夫丁不等式只是告诉我们在一定误差范围内,取得我们想要的μ的估计值v的概率可能性,而不是一定。(关于误差的介绍以后会相继推出)

常用的不等式证明

σμ是样本本身的方差和均值,X是随机变量,ϵ是任意整数。

E(x)=(xμ)f(x)dx=μ

D(x)=(xμ)2f(x)dx=σ2

  • 切比雪夫不等式为: P[|Xμ|ϵ]σ2ϵ2

  • P[|Xμ|ϵ]=|Xμ|ϵf(X)dX|Xμ|ϵ|Xμ|2ϵ2f(X)dX 1ϵ2(Xμ)2f(X)dX=σ2ϵ2

引理 1

同理可以证明马尔科夫不等式t为非负随机变量:

P[tα]=tαf(t)dttαtαf(t)dt1α0f(t)dt=E(t)α

即: P[tα]E(t)α

引理2[1]

X1,...,Xn,P(Xi=1)=12+a,P(Xi=1)=12aP(XE[X]t)ent22

可以看到这个结论和我们需要证明的结论形式非常类似,但是相对于原来的命题,这个结论更加“对称”一些,这是因为1,+1以及12+a,12a都比较对称,后面证明中可以看到,这样的对称性可以使得证明更加方便,下面来证明这个结论。

证明:首先计算E[Xi],E[X]

E[Xi]=(12+a)×1+(12a)×(1)=2aE[X]=E[Xi]=2a

所以原不等式可以转化为

P(X2at)ent22

以及有如下等价关系

P(X2at)ent22P(i=1nXin(t+2a))ent22P(esi=1nXiesn(t+2a))ent22(s>0)

这里s是任意正数,接下来使用引理1

P(esi=1nXiesn(t+2a))E[esi=1nXi]esn(t+2a)

我们现在对E[esi=1nXi]esn(t+2a)进行处理,注意X1,,Xn独立同分布

E[esi=1nXi]esn(t+2a)=1esnt×(E[esX1])ne2asn=1esnt×(E[esX1]e2as)n

接下来我们处理E[esX1]e2as,利用P(Xi=1)=12+a,P(Xi=1)=12a

E[esX1]e2as=es(12+a)+es(12a)e2as=12(es+es)+a(eses)e2as

m=12(es+es),n=eses,所以上式可以改写为

f(a)=m+nae2as

对其取对数可得

g(a)=lnf(a)=ln(m+na)2as

研究f(a)的极值只要研究g(a)的极值即可

g(a)=nm+na2s=0a=n2ms2nsg(a)=n2m+na<0

所以当a=n2ms2ns时,g(a)取极大值,并且an2ms2ns时单调递增,a>n2ms2ns时单调递减,但是注意这里的a[0,12],所以还要看n2ms2ns[0,12]的关系,我们先判断n2ms2ns是否大于0,因为s>0,所以分母2ns=2s(eses)>0,只要考虑分子即可

h(s)=n2ms=esess(es+es)h(s)=es+es(es+es)s(eses)=s(eses)<0h(s)=n2ms<h(0)=0

所以n2ms2ns<0,从而g(a)[0,12]上单调递减,因此

g(a)g(0)f(a)f(0)=m=12(es+es)

所以现在只要处理12(es+es)即可,对es,es分别使用泰勒展开

es=i=0+sii!,es=i=0+(s)ii!12(es+es)=12i=0+(1+(1)i)i!si=k=0+s2k(2k)!

(2k)!稍作变形

(2k)!=1×2×...×k×(k+1)×...×2kk!×2×...×2k2=2kk!

将这个式子带入原式可得

12(es+es)=k=0+s2k(2k)!k=0+(s2)kk!2k=k=0+(s22)kk!=es22

把以上几点结合起来可以得到

E[esX1]e2ases22E[esi=1nXi]esn(t+2a)=1esnt×(E[esX1]e2as)n1esnt×ens22=(es22st)n

由于s为任意大于0的数,取s=t,从而

E[esi=1nXi]esn(t+2a)(et22)n=ent22P(XE[X]t)=P(esi=1nXiesn(t+2a))E[esi=1nXi]esn(t+2a)ent22

所以结论得证。这里再补充一点,我们还有以下对称的结论

P(XE[X]t)ent22

这是因为

P(XE[X]t)=P(XE[X]t)

因为P(Xi=1)=12+a,P(Xi=1)=12a,所以Xi也是形式一致的随机变量,由引理2可知

P(XE[X]t)=P(XE[X]t)ent22

把以上两者结合有以下推论

P(|XE[X]|t)=P(XE[X]t)+P(XE[X]t)2ent22

最后就利用上述引理2及其推论证明Hoeffding不等式

Hoeffding不等式的证明

Hoeffding不等式中的随机变量X1,,Xn满足P(Xi=1)=p,P(Xi=0)=1p,对其稍作变形,转化为引理2的形式

Yi=2Xi1P(Yi=1)=p,P(Yi=1)=1p

从而

Y=2X1,E[Y]=2E[X]1

所以

P(|XE[X]|t)=P(|2X2E[X]|2t)=P(|2X1(2E[X]1)|2t)=P(|YE[Y]|2t)

由引理2的推论可知可知

P(|YE[Y]|2t)2en(2t)22=2e2nt2

从而

P(|XE[X]|t)=P(|YE[Y]|2t)2e2nt2

从而结论得证。

参考:

[1] 霍夫丁不等式证明