Processing math: 100%

The Chernoff Bound

本文主要介绍一下chernoff bound的证明,以及一些在统计学习理论中的涉及到的一些不等式,首先来几个简单的。

Jensen 不等X为随机变量,f:XR为凸函数,则下面的不等式成立

f(E[X])E[f(x)]

这个就是凸函数的性质,这里并不给出证明了,想知道为什么的看一下《凸优化》的前几章就行了。

接下来是Markov不等式,这里终于牵涉到概率了。假设X为非负的随机变量,且t>0,则下式成立。

P(X>t)E[X]t

这里的证明也很简单

E[X]=+0xp(x)dx=t0xp(x)dx++txp(x)dx+txp(x)dxt+tp(x)dx=tP(X>t)

现在重点来了,我们隆重介绍一下chernoff bound。首先来看一下最简单形式的chernoff bound。

假设X为随机变量,则下面的不等式成立

P(X>ϵ)inft0exp(tϵ)E[exp(tX)]

这个不等式的证明也比较简单,直接利用之前的markov不等式即可。

P(X>ϵ)=P(exp(X)>exp(ϵ))=P(exp(tX)>exp(tϵ))exp(tϵ)E[exp(tX)]Markovsinequality

粗略一看,这个式子好像没有什么用。的确,在任何情况下都成立基本没啥用,我们需要在不同的情况下推广他的扩展形式

在期望已知的情况下Chernoff Bound的变体

假设随机变量X[a,b],E[X]=0,则下面的不等式成立。

E[exp(tX)]exp(t2(ba)28)

这个不等式,粗看起来与之前提到的Chernoff Bound有点相似,但是只是在左边相似而已。事实上不等式左边的基本毫无意义,怎么得到右边的公式才是最重要的。在得到右边的过程中,我们需要利用f(x)=exp(tx)为凸函数的性质。

证明如下:在a0,b0时,我们可以把X表示为a,b的线性组合

X=αb+(1α)a

其中α=(Xa)/(ba)[0,1]。接下来我们利用凸函数的性质,即Jensen不等式

f(X)=f(αx+(1α)b)αf(x)+(1α)f(b)

X=αb+(1α)a带入到上面的不等式中,我们得到

exp(tX)Xabaexp(tb)+bXbaexp(ta)

对该不等式求期望,并考虑到我们之前的大前提E[X]=0,我们得到下面的不等式

E[exp(tX)]abaexp(tb)+bbaexp(ta)=exp(g(u))

其中u=t(ba),g(u)=θu+log(1θ+θexp(u)),θ=a/(ba)(0,1)。看上去我们把东西弄得越来越复杂,接下来是见证奇迹的时刻。根据Taylor展开公式,存在v(0,u)使得下面的等式成立:

g(u)=g(0)+ug(0)+u22g(v)

下面来对g(u)求一阶导数和二阶导数

g(0)=θ+θexp(u)1θ+θexp(u)|u=0=0

二阶导数的放缩利用了ab(a+b)2/4这个最简单的不等式。接下来我们将上面得到的结果都带入原来的taylor展开式中

g(u)=u22g(v)u28=t2(ba)28

由此,经历了千辛万苦,我们终于证明了

E[exp(tX)]exp(t2(ba)28)

在bernoulli分布中的Chernoff Bound

之前得到的Chernoff界是绝对差形式,这里的Chernoff界则是相对差形式。假设X1,X2,,Xn为符合bernoulli分布的各自独立的随机变量,X=Xi,且μE[X]。则对于任意的δ>0,下面的不等式都成立

Pr[X>(1+δ)μ]<[eδ(1+δ)(1+δ)]μ

这个不等式跟之前的不等式相比,简直丑爆了,而且右边更加复杂。但是证明的第一步还是相同的,还是markov不等式。

Pr[X>(1+δ)μ]=Pr[etX>et(1+δ)μ]et(1+δ)μE[etX]

又由于X=Xi,所以

E[etX]=E[etXi]=E[etXi]

这里利用了E[YZ]=E[Y]E[Z]这个独立变量的积的期望公式。又由于Xi是符合伯努利分布的随机变量,假设其参数为Pr[Xi=1]=pi,则我们有

E[etXi]=piet+(1pi)=1+pi(et1)epi(et1)

这里的放缩又利用了1+αeα。最终,我们将每一个分量都带入,得到

Pr[X>(1+δ)μ]et(1+δ)μE[etX]=et(1+δ)μE[etXi]et(1+δ)μepi(et1)et(1+δ)μeμ(et1))

最后,我们令t=ln(1+δ),化简得到

Pr[X>(1+δ)μ][eδ(1+δ)(1+δ)]μ

这个式子提供了一个上界。对称的来说,对于下界我们也有一个不等式。 假设X1,X2,,Xn为符合bernoulli分布的各自独立的随机变量,X=Xi,且μE[X]。则对于任意的1>δ>0,下面的不等式都成立

Pr[X<(1δ)μ]<[eδ(1δ)(1δ)]μ

这个公式的证明类似于之前公式的证明,这里我们要借助一个t<0

Pr[X<(1δ)μ]=Pr[tX>t(1δ)μ]e(t(1δ)μ)E(etX)=e(t(1δ)μ)E(etXi)

这里我们再次遇到E(tX),再次利用Bernoulli分布性质,假设Xi=1的概率为pi,则有

E(etXi)=piet+(1pi)epi(et1)

将这个不等式带入,得到

Pr[X<(1δ)μ]e(t(1δ)μ)E(etXi)e(t(1δ)μ)eE(X)(et1)e(t(1δ)μ)eμ(et1)

在这里,我们让t=ln(1δ),代入得

Pr[X<(1δ)μ][eδ(1δ)(1δ)]μ

这样,下界我们也证明了。上下界一起大概就是中心极限定理的内容了。实际上,这两个界并不怎么好用,光写起来就十分麻烦,我们要对这两个界进一步放缩。那么问题来了,放缩方法哪家强,当然是Taylor展开了。我们可以观察到

ln(1+δ)=(1)i+1δii

所以,当δ<1

(1+δ)ln(1+δ)=δ+i2(δ)i{1i11i}δ+δ2/2δ3/6δ+δ2/3

综上我们有

Pr[X>(1+δ)μ]eδ2μ3(0<δ<1)

对称的,我们也有

Pr[X<(1δ)μ]eδ2μ2(0<δ<1)

Hoeffding不等式

假设X1,,Xnn个相互独立的随机变量,且Xi[ai,bi],令X=Xi/n,则对任意的ϵ>0

P(|XE[X]|>ϵ)2exp(2n2ϵ2ni=1(biai)2)

看到这个公式,是不是感觉自己选择了Hard模式啊。根据对称性,Chernoff界以及随机变量的独立性质,我们可以得到

P(|XE[X]|>ϵ)=2P(XE[X]>ϵ)2inft0exp(tϵ)E[exp(tX)]=2inft0exp(tϵ)E[exp(tni=1Xi/n)]=2inft0exp(tϵ)E[ni=1exp(tXi/n)]=2inft0exp(tϵ)ni=1E[exp(tXi/n)]2inft0exp(tϵ)ni=1exp(t2(biai)2/(8n2))=2inft0exp(tϵ+ni=1t2(biai)2/(8n2))

为了进一步化简结果,我们需要对右边的求极值。右边指数项里面是一个一元二次函数,求极值很简单,求一阶导数就可以了。我们定义函数p:RR

p(t)=tϵ+ni=1t2(biai)28n2

对其求一阶导数

p(t)=ϵ+tni=1(biai)24n2=0

可得到

t=4n2ϵni=1(biai)2

最后将这个t带入到p(t)即可得到Hoeffding不等式

P(|ˉXE[ˉX]|>ϵ)2exp(2n2ϵ2ni=1(biai)2)

联合界Union Bound

联合界理解起来很简单,对于有限个事件A1,A2,,An,有

P(ni=1Ai)ni=1P(Ai)

这个不等式是通过数学归纳法来证明的,对于n=2的时候就是

P(AB)=P(A)+P(B)P(AB)

进行归纳

P(k+1i=1Ai)=P(ki=1Ai)+P(Ak+1)P(ki=1AiAk+1)ki=1P(Ai)+P(Ak+1)=k+1i=1P(Ai)

因此,这个联合界成立。

经验风险最小化

机器学习求解的假设函数不是单纯为了拟合已有的数据,其最终目标是准确预测未知数据的输出。经验风险最小化存在过拟合的风险,其目的在于找到一个可以很好与训练数据匹配的假设函数,而该假设函数不一定能预测未知数据的输出,即泛化误差很大。增加训练数据的规模有利于降低泛化误差。但也不是训练数据越多越好,因为当训练数据达到一定规模后,泛化误差的变化趋于平缓。而且很多时候我们并不能拿到这么多的数据,还有可能我们的资源无法对这么多的数据进行处理。在固定了数据量的情况下,我们只能从模型复杂度下手来减少泛化误差,模型复杂度太大或者太小都会导致泛化误差过大。选择模型,就是我们预先提供的一些分布函数的集合H,这个集合包括模型H={h1,h2,,h|H|。根据经验风险最小化原则,我们选择模型的准则就是训练误差最小

ˆh=argminhiHˆR(hi)

我们需要证明我们的选择是有道理的,即使训练误差较小的假设函数ˆh,他的泛化误差也不至于太大。

首先,对任意假设函数h而言,ˆR(h)都是R(h)的一个可靠的近似值;其次,给出ˆh的泛化误差R(ˆh)的上界。我们在样本空间内格局样本的概率分布D进行采样,得到训练集S={(x(i),y(i))}mi=1。给定任意假设函数hiH,定义服从Bernoulli分布的随机变量Zj=I{hi(x(j))y(j)}{0,1},则Zj表示hi是否将样本(x(j),y(j))误分类了,hi的泛化误差R(hi)=P(zj=1)。因为所有样本都是从同一个概率分布中独立采样的,所以{Zj}mj=1中的都是满足独立同分布的Bernoulli随机变量。hi的训练误差形式为

ˆR(hi)=1mmj=1I{hi(x(j))y(j)}=1mmj=1zj

显然ˆR(hi)m个独立同分布的Bernoulli随机变量的均值,且这些随机变量的期望值都是R(hi)。根据Hoeffding不等式,得到如下不等式

P(|R(hi)ˆR(hi)|>γ)2exp(2γ2m)

上述规律说明:对于特定假设函数hi而言,在样本数目m足够大时,训练误差和泛化误差近似相等的概率可以非常大,这也证明了ˆR(h)R(h)的一个可靠的近似值。但我们想要保证的不仅仅是这种近似的可靠性只对特定的假设函数成立,而是对假设集合H所有的假设函数都成立。现将时间Ai定义为|R(hi)ˆR(hi)|>γ,则由上一个结论可得P(Ai)2exp(2γ2m)。由于

P(hH.|R(hi)ˆR(hi)|>γ)=P(|H|i=1Ai)|H|i=1P(Ai)2|H|i=1exp(2γ2m)=2|H|exp(2γ2m)

因此

P(¬hH.|R(hi)ˆR(hi)|>γ)=P(hH.|R(hi)ˆR(hi)|γ)12|H|exp(2γ2m)

上式被称为一致性收敛(uniform convergence),因为这个界对于H都成立。由此可知,H中所有假设函数的训练误差与泛化误差偏离范围在γ内的概率至少为

12|H|exp(2γ2m)

在给定其中两个值得情况下,我们可以推出第三个变量需要满足的条件。例如为了确保所有假设函数的训练误差和泛化误差间的偏差范围都在γγ以内的概率至少为1δ,至少需要多少个训练样本?这个问题对应的数学表述为:

P(hH.|R(hj)ˆR(hj)|γ)12|H|exp(2γ2m)1δ

由此我们可以得到训练样本数目的下界为

m12γ2log2|H|δ=O(1γ2log|H|δ)

这条规律对我们是非常有用的,由此我们可以推测算法性能要达到某种水平,至少需要多少个样本就足够了,这也称为算法的样本复杂度(sample complexity)。一般而言,log|H|增长很慢,据CMU的Andrew Moore所说,log|H|30。样本数目太少不能保证训练出来的模型有较优的性能,样本数目也没必要太多太多,尤其在样本的收集比较困难的情况下,只要能在模型性能达到期望的效果,样本越少越好。 同样地,假设样本数目mδ都确定了,我们想知道假设集合H中所有假设函数的训练误差和泛化误差间偏离程度γ

|R(hj)ˆR(hj)|γ12mlog2|H|δ

接下来,我们给出ˆh的泛化误差上界。定义假设集合H的最优假设函数为

h=argminhHR(h)

由于h训练误差小于ˆh,结合|R(h)ˆRh|γ,可得到ˆh的泛化误差上界:

R(ˆh)ˆR(ˆh)+γˆR(h)+γR(h)+2γ

上式说明,训练误差最小的假设函数ˆh的泛化误差顶多比假设集合中最优的假设函数h2γ,即:

R(ˆh)(minhHR(h))+212mlog2|H|δ

我们可以总结出如下规律:在|H|有限的情况下,只要样本数目m足够大,就有R(ˆh)ˆR(h);此时若有ˆR(ˆh)0,必然有R(ˆh)0,即通过经验风险最小化得到的最优假设函数是可靠的。但实际情况并非如此简单:如果|H|有限,在大多数情况下我们无法保证从H中选择出来的假设函数的经验风险趋近于0(少数时候可以碰巧找到经验风险为0的假设函数),此时ˆh的泛化误差可能无法令人满意;如果|H趋于无限,我们虽可以保证R(ˆh)0,但根据上式又无法得到R(ˆh)ˆR(h),使得无法确保ˆh的泛化误差足够小。

SVM的置信界

假设训练点都处于一个半径为R的球体之中,且让G(x)=sign[f(x)]=sign[βTx+βo],则由G(x),βA组成 的函数集合的VC维h满足

hR2A2

如果f(x)是在βA下分离训练数据最优的函数。则在测试集上的误差E(test)我们有如下界限

Pr(E(test)4h[log(2B/h)+1]log(η/4)N)1η

在SVM中,规则化参数C的作用是用来约束分类器VC维的上界。根据结构风险最小化原则,我们来选择使得测试误差上界最小的C。但是利用正则化项C与交叉验证相比哪个更好,目前还不清楚。

Published:
2015-04-17 21:33
Category:
Tag: