Pattern Recognition and Machine Learning: Chapter 01习题详解

2020年08月08日 阅读数:219
这篇文章主要向大家介绍Pattern Recognition and Machine Learning: Chapter 01习题详解,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

PRML_Exercises

Pattern Recognition and Machine Learning习题中文详解

欢迎讨论题目(我把本身作的过程贴出来也是为了更方便讨论),禁止一切形式的转载。

关于排版,实话说我也想把公式排得舒服好看一些,奈何着实费力,这着实不太讨喜,见谅。

Chapter 1

1.1

可以使得式(1.2)给出的偏差函数最小的参数 w = { w i } \mathbf{w}=\{w_i\} 就是使得偏差为 0 0 的参数,那么就知足
j = 0 M w j x n j = t n \sum_{j=0}^{M}w_jx_n^j=t_n
而咱们要作的这道证实题的右式
T i = n = 1 N ( x n ) i t n T_i=\sum_{n=1}^{N}(x_n)^it_n
直接将上述咱们已知的 t n t_n 代入,得
T i = n = 1 N [ ( x n ) i j = 0 M w j ( x n ) j ] T_i=\sum_{n=1}^N[(x_n)^i\sum_{j=0}^{M}w_j(x_n)^j]
又因为 ( x n ) i (x_n)^i 不含有与 j j 相关的系数,因此能够将其放入后面的求和项,即
T i = n = 1 N j = 0 M ( x n ) i w j ( x n ) j T_i=\sum_{n=1}^N\sum_{j=0}^{M}(x_n)^iw_j(x_n)^j
再互换一下求和顺序
T i = j = 0 M n = 1 N ( x n ) i w j x n j = j = 0 M n = 1 N ( x n ) i + j w j T_i=\sum_{j=0}^{M}\sum_{n=1}^N(x_n)^iw_jx_n^j=\sum_{j=0}^{M}\sum_{n=1}^N(x_n)^{i+j}w_j
其中就能够看到 n = 1 N ( x n ) i + j \sum_{n=1}^N(x_n)^{i+j} 就是题目中的 A i j A_{ij} 了,从而得证。html

1.2

已知
E ~ ( w ) = 1 2 n = 1 N { y ( x n , w ) t n } 2 + λ 2 w 2 \widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2}
其中 w 2 w T w = w 0 2 + w 1 2 + + w M 2 \|\mathbf{w}\|^{2} \equiv \mathbf{w}^{\mathrm{T}} \mathbf{w}=w_{0}^{2}+w_{1}^{2}+\ldots+w_{M}^{2} ,这里提一下正则项里面的 w 0 2 w_0^2 ,做者说一般来说这一项要么不放正则项中,要么使用另外一个 λ \lambda 对其进行大小控制,不过我们这里为了公式的推导方便就不作特殊处理,且让它在这个正则项中。既然题目中要求这个偏差函数 E ~ ( w ) \widetilde{E}(\mathbf{w}) 最小化,也就意味着该式对各个参数 w w 的导数均为 0 0 ,由此可得:
d E ~ ( w ) d w i = 1 2 n = 1 N { 2 [ j = 0 M w j ( x n ) j t n ] ( x n ) i } + λ w i = 0 \frac{\mathrm{d}\widetilde{E}(\mathbf{w})}{\mathrm{d}w_i}=\frac{1}{2}\sum_{n=1}^{N}\{2[\sum_{j=0}^{M}w_j(x_n)^j-t_n](x_n)^i\}+\lambda w_i=0
因此
n = 1 N { j = 0 M [ ( x n ) i + j w j ] ( x n ) i t n ] } + λ w i = n = 1 N j = 0 M { ( x n ) i + j w j } n = 1 N { ( x n ) i t n + λ w i N } = 0 \sum_{n=1}^{N}\{\sum_{j=0}^{M}[(x_n)^{i+j}w_j]-(x_n)^it_n]\}+\lambda w_i=\sum_{n=1}^{N}\sum_{j=0}^{M}\{(x_n)^{i+j}w_j\}-\sum_{n=1}^{N}\{(x_n)^{i}t_n+\frac{\lambda w_i}{N}\}=0
因此能够看到,题目1.1中的式子基本均可以保持不变,只需将 T i T_i 修改成 T i = n = 1 N { ( x n ) i t n + λ w i N } T_i=\sum_{n=1}^{N}\{(x_n)^{i}t_n+\frac{\lambda w_i}{N}\} web

Tips:上面求导的过程使用了复合函数的求导。app

1.3

已知 p ( B = r ) = 0.2 p(B=r)=0.2 p ( B = b ) = 0.2 p(B=b)=0.2 p ( B = g ) = 0.6 p(B=g)=0.6 ,同时, p ( F = a B = r ) = 0.3 p(F=a|B=r)=0.3 p ( F = o B = r ) = 0.4 p(F=o|B=r)=0.4 p ( F = l B = r ) = 0.3 p(F=l|B=r)=0.3 p ( F = a B = b ) = 0.5 p(F=a|B=b)=0.5 p ( F = o B = b ) = 0.5 p(F=o|B=b)=0.5 p ( F = l B = b ) = 0 p(F=l|B=b)=0 p ( F = a B = g ) = 0.3 p(F=a|B=g)=0.3 p ( F = o B = g ) = 0.3 p(F=o|B=g)=0.3 p ( F = l B = g ) = 0.4 p(F=l|B=g)=0.4 。第一小问说,抽一次抽出苹果的几率是多少,可经过sum rule和product rule求出,即:
p ( a ) = p ( a , r ) + p ( a , b ) + p ( a , g ) = p ( a r ) p ( r ) + p ( a b ) p ( b ) + p ( a g ) p ( g ) = 0.34 p(a)=p(a,r)+p(a,b)+p(a,g)=p(a|r)p(r)+p(a|b)p(b)+p(a|g)p(g)=0.34
第二小问说,在已知抽出的结果是橘子(orange)的状况下,从绿色(green)盒子中抽出这个橘子的几率是多大。这就是一个很典型的由果推因的贝叶斯公式题,至关于求 p ( B = g F = o ) p(B=g|F=o) ,根据贝叶斯公式,可得 p ( g o ) = p ( o g ) p ( g ) p ( o ) p(g|o)=\frac{p(o|g)p(g)}{p(o)} ,其中分母能够按照第一小问的方式求出,分子中各项均为已知条件,求得 p ( B = g F = o ) = 0.5 p(B=g|F=o)=0.5 ide

1.4

已知 x = g ( y ) x=g(y) p y ( y ) = p x ( x ) d x d y = p x ( x ) g ( y ) p_y(y)=p_x(x)|\frac{\mathrm{d}x}{\mathrm{d}y}|=p_x(x)|g^{\prime}(y)| ,对于两个几率分布而言,可以取到最大值的位置知足导数为 0 0 ,所以 p y ( y ) y = p x ( x ) g ( y ) y = 0 \frac{\partial p_y(y)}{\partial y}=\frac{\partial p_x(x)|g^{\prime}(y)|}{\partial y}=0 ,题目中假设 x = g ( y ) x=g(y) 为线性函数,所以咱们假设 x = g ( y ) = a y + b x=g(y)=ay+b ,因此能够获得 p y ( y ) y = p x ( x ) a x x y = p x ( x ) x a 2 = 0 \frac{\partial p_y(y)}{\partial y}=\frac{\partial p_x(x)|a|}{\partial x}\frac{\partial x}{\partial y}=\frac{\partial p_x(x)}{\partial x}|a|^2=0 ,因为 a 2 > 0 |a|^2 > 0 ,( a a 的绝对值不该该为 0 0 ,不然并不能称其为变换了),因此使得 p x ( x ) x = 0 \frac{\partial p_x(x)}{\partial x}=0 的状况下, p y ( y ) y \frac{\partial p_y(y)}{\partial y} 也等于 0 0 ,也就是说在 x x 取值使得 p x ( x ) p_x(x) 最大的位置,这个 x x 对应的 y y 也是使得 p y ( y ) p_y(y) 最大的位置,而 x = g ( y ) = a y + b x=g(y)=ay+b 一样知足两变量之间的线性关系。svg

1.5

式(1.38)为 var [ f ] = E [ ( f ( x ) E [ f ( x ) ] ) 2 ] \operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right] ,所以 var [ f ] = E [ ( f ( x ) E [ f ( x ) ] ) 2 ] = E [ f ( x ) 2 2 f ( x ) E [ f ( x ) ] + ( E [ f ( x ) ] ) 2 ] \operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right]=\mathbb{E}[f(x)^2-2f(x)\mathbb{E}[f(x)]+(\mathbb{E}[f(x)])^2] ,因此 var [ f ] = E [ f ( x ) 2 ] 2 ( E [ f ( x ) ] ) 2 + ( E [ f ( x ) ] ) 2 ] = E [ f ( x ) 2 ] E [ f ( x ) ] 2 \operatorname{var}[f]=\mathbb{E}[f(x)^2]-2(\mathbb{E}[f(x)])^2+(\mathbb{E}[f(x)])^2]=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2} 函数

1.6

根据式(1.41)可知, cov [ x , y ] = E x , y [ x y ] E [ x ] E [ y ] \begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned} 。设变量 x x y y 独立同分布,对应的分布分别为 p ( x ) p(x) p ( y ) p(y) ,则 E x , y [ x y ] = x y p ( x y ) d x d y = x y p ( x ) p ( y ) d x d y = y q ( y ) x p ( x ) d x d y \mathbb{E}_{x, y}[x y]=\iint xyp(xy)\mathrm{d}x\mathrm{d}y=\iint xyp(x)p(y)\mathrm{d}x\mathrm{d}y= \int yq(y)\int xp(x)\mathrm{d}x\mathrm{d}y ,因为第二个积分与第一个积分项无关(相互独立,二者之间没有函数关系),所以能够拎出来,得 E x , y [ x y ] = x p ( x ) d x y q ( y ) d y = E [ x ] E [ y ] \mathbb{E}_{x, y}[x y]=\int xp(x)\mathrm{d}x\int yq(y)\mathrm{d}y=\mathbb{E}[x]\mathbb{E}[y] ,因此在两变量互相独立的状况下, cov [ x , y ] = E x , y [ x y ] E [ x ] E [ y ] = 0 \begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned}=0 测试

1.7

x = r cos θ x=r \cos \theta y = r sin θ y=r\sin \theta ,知足 x 2 + y 2 = r 2 x^2+y^2=r^2 r 0 r\ge 0 ,则原来的积分式能够写成 I 2 = exp ( 1 2 σ 2 x 2 1 2 σ 2 y 2 ) d x d y = o 2 π 0 exp ( 1 2 σ 2 r 2 ) r d r d θ I^{2}=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} x^{2}-\frac{1}{2 \sigma^{2}} y^{2}\right) \mathrm{d} x \mathrm{d} y=\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}r^2)r\mathrm{d}r\mathrm{d}\theta ,使用 u = r 2 u=r^2 代换,ui

因此 I 2 = 1 2 o 2 π 0 exp ( 1 2 σ 2 u ) d u d θ = 1 2 0 2 π ( 2 σ 2 ) exp ( 1 2 σ 2 u ) 0 d θ = 2 π σ 2 I^{2}=\frac{1}{2}\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}u)\mathrm{d}u\mathrm{d}\theta=\frac{1}{2}\int_{0}^{2\pi}(-2\sigma^2)\exp(-\frac{1}{2\sigma^2}u)|_0^{\infty}\mathrm{d}\theta=2\pi\sigma^2 ,因此 I = ( 2 π σ 2 ) 1 / 2 I=\left(2 \pi \sigma^{2}\right)^{1 / 2} 编码

1.8

式(1.46)为 N ( x μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 exp { 1 2 σ 2 ( x μ ) 2 } = p ( x μ ) \mathcal{N}\left(x | \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}=p(x-\mu) ,即要证实 + x 1 ( 2 π σ 2 ) 1 / 2 exp { 1 2 σ 2 ( x μ ) 2 } d x = x p ( x μ ) d x = μ \int_{-\infty}^{+\infty}x\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}\mathrm{d}x=\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x=\mu 。先抛开该式不谈,咱们须要换元,且必须手头拿到一个已知的东西,那么咱们首先有 + ( x μ ) 1 ( 2 π σ 2 ) 1 / 2 exp { 1 2 σ 2 ( x μ ) 2 } d ( x μ ) = 0 \int_{-\infty}^{+\infty}(x-\mu)\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}\mathrm{d}(x-\mu)=0 ,这个比较简单,根据奇函数积分为 0 0 可得,而后咱们把这个式子在 ( x μ ) (x-\mu) 这里展开,能够看到即 x p ( x μ ) d ( x μ ) μ p ( x μ ) d ( x μ ) = x p ( x μ ) d x μ = 0 \int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}(x-\mu)-\mu\int_{-\infty}^{\infty}p(x-\mu)\mathrm{d}(x-\mu)=\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x-\mu=0 ,因此 x p ( x μ ) d x = μ \int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x=\mu ,亦即 E [ x ] = N ( x μ , σ 2 ) x d x = μ \mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) x \mathrm{d} x=\mu spa

第二小问要求验证式(1.50)的正确性。在题目1.7中咱们获得 exp ( 1 2 σ 2 ( x μ ) 2 ) d x = ( 2 π σ 2 ) 1 / 2 \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} (x-\mu)^{2}\right) \mathrm{d} x = \left(2 \pi \sigma^{2}\right)^{1 / 2} ,在等式两边对 σ 2 \sigma^2 求导可得 exp { ( x μ ) 2 2 σ 2 } 2 ( x μ ) 2 ( 2 σ 2 ) 2 d x = π ( 2 π σ ) 1 / 2 \int_{-\infty}^{\infty}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}\frac{2(x-\mu)^2}{(2\sigma^2)^2}\mathrm{d}x=\frac{\pi}{(2\pi \sigma)^{1/2}} ,将式子整理后为: 1 ( 2 π σ 2 ) 1 / 2 exp { ( x μ ) 2 2 σ 2 } ( x μ ) 2 d x = σ 2 = E [ ( x μ ) 2 ] \int_{-\infty}^{\infty}\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}(x-\mu)^2\mathrm{d}x= \sigma^{2}=\mathbb{E}[(x-\mu)^2] ,又由于 E [ ( x μ ) 2 ] = E [ x 2 2 μ x + μ 2 ] = E [ x 2 ] 2 μ E [ x ] + μ 2 \mathbb{E}[(x-\mu)^2]=\mathbb{E}[x^2-2\mu x+\mu^2]=\mathbb{E}[x^2]-2\mu\mathbb{E}[x]+\mu^2 ,而咱们在上一小问已经知道 E [ x ] = μ \mathbb{E}[x]=\mu ,因此所有带进去可得, σ 2 = E [ x 2 ] μ 2 \sigma^2=\mathbb{E}[x^2]-\mu^2 ,因此 E [ x 2 ] = σ 2 + μ 2 \mathbb{E}[x^2]=\sigma^2+\mu^2 ,从而证得式(1.50)。这样一来,式(1.51)也就瓜熟蒂落地成立了。

1.9

单元高斯分布的极大值能够经过对其几率分布函数求导获得极值对应的坐标 x = μ x=\mu ,不作赘述。

多元高斯分布函数为 N ( x μ , Σ ) = 1 ( 2 π ) D / 2 1 Σ 1 / 2 exp { 1 2 ( x μ ) T Σ 1 ( x μ ) } \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} ,一样进行求导,这里要用到矩阵的求导法则,得 N ( x μ , Σ ) x = 1 2 N ( x μ , Σ ) x { ( x μ ) T Σ 1 ( x μ ) } = 1 2 N ( x μ , Σ ) x μ { ( x μ ) T Σ 1 ( x μ ) } \frac{\partial\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})}{\partial \mathbf{x}}=-\frac{1}{2}\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\nabla_{\mathbf{x}}\left\{(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}=-\frac{1}{2}\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\nabla_{\mathbf{x}-\boldsymbol{\mu}}\left\{(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} ,利用PRML(C.19)和(C.20)公式,令 A = ( x μ ) T Σ 1 \mathbf{A}=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} B = x μ \mathbf{B}=\mathbf{x}-\boldsymbol{\mu} ,则很容易获得 N ( x μ , Σ ) x = N ( x μ , Σ ) Σ 1 ( x μ ) \frac{\partial\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})}{\partial \mathbf{x}}=-\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) ,在推导过程当中须要注意的是 Σ 1 ( x μ ) = ( x μ ) T Σ 1 {\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}}{\Sigma}^{-1} ,这是因为 x μ \mathbf{x}-\boldsymbol{\mu} 是向量所致使的。那么根据求得的导数,一样在 x = μ \mathbf{x}=\boldsymbol{\mu} 时取得极值。

1.10

E [ x + z ] = ( x + z ) p ( x , z ) d x d z = ( x + z ) p ( x ) p ( z ) d x d z = x p ( x ) p ( z ) d x d z + z p ( z ) p ( x ) d x d z \mathbb{E}[x+z]=\iint (x+z)p(x,z)\mathrm{d}x\mathrm{d}z=\iint (x+z)p(x)p(z)\mathrm{d}x\mathrm{d}z=\iint xp(x)p(z)\mathrm{d}x\mathrm{d}z+\iint zp(z)p(x)\mathrm{d}x\mathrm{d}z

对于右侧的式子,因为 x x z z 相互独立, p ( z ) p(z) 的积分为1,所以第一项即为 x p ( x ) d x = E [ x ] \int xp(x)\mathrm{d}x=\mathbb{E}[x] ,同理第二项为 E [ z ] \mathbb{E}[z] ,因此 E [ x + z ] = E [ x ] + E [ z ] \mathbb{E}[x+z]=\mathbb{E}[x]+\mathbb{E}[z]

var [ x + z ] = E [ ( x + z ) 2 ] ( E [ x + z ] ) 2 \operatorname{var}[x+z]=\mathbb{E}[(x+z)^2]-(\mathbb{E}[x+z])^2 ,代入第一小问的结果,获得所求方差为 E [ x 2 + z 2 + 2 x z ] ( E [ x ] + E [ x ] ) 2 = E [ x 2 ] + E [ z 2 ] + 2 E [ x z ] ( E [ x ] ) 2 ( E [ z ] ) 2 2 E [ x ] E [ z ] \mathbb{E}[x^2+z^2+2xz]-(\mathbb{E}[x]+\mathbb{E}[x])^2=\mathbb{E}[x^2]+\mathbb{E}[z^2]+2\mathbb{E}[xz]-(\mathbb{E}[x])^2-(\mathbb{E}[z])^2-2\mathbb{E}[x]\mathbb{E}[z]

又根据题目1.6的结论,化简获得 var [ x + z ] = E [ x 2 ] + E [ z 2 ] ( E [ x ] ) 2 ( E [ z ] ) 2 = var [ x ] + var [ z ] \operatorname{var}[x+z]=\mathbb{E}[x^2]+\mathbb{E}[z^2]-(\mathbb{E}[x])^2-(\mathbb{E}[z])^2=\operatorname{var}[x]+\operatorname{var}[z]

1.11

y = ln p ( x μ , σ 2 ) = 1 2 σ 2 n = 1 N ( x n μ ) 2 N 2 ln σ 2 N 2 ln ( 2 π ) y=\ln p\left(\mathbf{x} | \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi) ,能够获得 y μ = 1 σ 2 n = 1 N ( μ x n ) = 0 \frac{\partial y}{\partial \mu}=-\frac{1}{\sigma^2}\sum_{n=1}^{N}(\mu-x_n)=0 ,因此 n = 1 N ( μ x n ) = 0 \sum_{n=1}^{N}(\mu-x_n)=0 ,因此 n = 1 N μ n = 1 N x n = N μ n = 1 N x n = 0 \sum_{n=1}^{N}\mu-\sum_{n=1}^{N}x_n=N\mu-\sum_{n=1}^{N}x_n=0 ,因此 μ M L = 1 N n = 1 N x n \mu_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} x_{n}

y σ 2 = 2 ( 2 σ 2 ) 2 n = 1 N ( x n μ M L ) 2 N 2 σ 2 = 0 \frac{\partial y}{\partial \sigma^2}=-\frac{2}{(2\sigma^2)^2}\sum_{n=1}^{N}(x_n-\mu_{\mathrm{ML}})^2-\frac{N}{2\sigma^2}=0 ,很容易获得 σ M L 2 = 1 N n = 1 N ( x n μ M L ) 2 \sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2}

1.12

这题其实第一小问挺迷的,主要问题在于为何做者要使用不一样的下标来表示是否独立,或者说,若是做者你想表达这个意思,那你就应该明说啊我透。这样子一来就比较简单明了了,若 n = m n=m ,则 E [ x n 2 ] \mathbb{E}[x_n^2] 根据式(1.50)很容易获得 E [ x n 2 ] = μ 2 + σ 2 \mathbb{E}[x_n^2]=\mu^2+\sigma^2 ,下标为 m m 时相同。若 n m n\ne m ,那么按照做者的意思,就是说这俩变量相互独立,因此 E [ x n x m ] = E [ x n ] E [ x m ] = μ 2 \mathbb{E}[x_nx_m]=\mathbb{E}[x_n]\mathbb{E}[x_m]=\mu^2

其实做者是想用第一小问做为引子来帮助咱们证实式(1.57)和式(1.58),那么实际上我是以为不必这么麻烦,咱们直接证实这两个式子便可,无需绕他给的这条弯路。

对于第一个式子,求取最大似然分布的均值的指望,咱们这里假设总共取了 K K 次数据,每一次都取 N N 个数据来进行极大似然估计, x k n x_{kn} 表示第 k k 次取的第 n n 个数据,那么 E [ μ M L ] = 1 K k = 1 K [ 1 N n = 1 N x k n ] = 1 K N k = 1 K n = 1 N x k n \mathbb{E}[\mu_{\mathrm{ML}}]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^Nx_{kn}]=\frac{1}{KN}\sum_{k=1}^{K}\sum_{n=1}^Nx_{kn} ,到这里,咱们先停一下,假设咱们每次取的数据有限,也就是 N N 有限,可是咱们一直取一直取,也就是说 K K 无限,那么这里就能够看作我对整个分布上全部的 x x 都取到了,从而推得 x k n x_{kn} 的均值就是正态分布 N ( x μ , σ 2 ) \mathcal{N}\left(x | \mu, \sigma^{2}\right) 的均值 μ \mu ,因此 E [ μ M L ] = μ \mathbb{E}[\mu_{\mathrm{ML}}]=\mu ,这就证实了式(1.57)。

对于式(1.58),首先依旧采起咱们以前的取数据规定,同时将方差的计算公式展开, μ k M L \mu_{k\mathrm{ML}} 为第 k k 次取得的数据的均值,则 E [ σ M L 2 ] = 1 K k = 1 K [ 1 N n = 1 N ( x k n μ k M L ) 2 ] = 1 K k = 1 K [ 1 N n = 1 N ( x k n 2 2 x k n μ k M L + μ k M L 2 ) ] \mathbb{E}[\sigma_{\mathrm{ML}}^2]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N(x_{kn}-\mu_{k\mathrm{ML}})^2]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N(x_{kn}^2-2x_{kn}\mu_{k\mathrm{ML}}+ \mu_{k\mathrm{ML}}^2)] ,这就能够拆分为三项,其中第一项与 x k n 2 x_{kn}^2 相关,沿用上面的思路,至关于取遍了全部的 x k n x_{kn} ,因此 1 K k = 1 K [ 1 N n = 1 N x k n 2 ] = E [ x 2 ] = μ 2 + σ 2 \frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^Nx_{kn}^2]=\mathbb{E}[x^2]=\mu^2+\sigma^2 ,后面两项能够写成 1 K k = 1 K [ 2 μ k M L 1 N n = 1 N x k n ] + 1 K k = 1 K [ 1 N n = 1 N ( μ k M L 2 ) ] \frac{1}{K}\sum_{k=1}^K[-2\mu_{k\mathrm{ML}}\frac{1}{N}\sum_{n=1}^Nx_{kn}]+\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N( \mu_{k\mathrm{ML}}^2)] ,也就是 1 K k = 1 K [ 2 μ k M L 2 ] + 1 K k = 1 K [ μ k M L 2 ] = 1 K k = 1 K [ μ k M L 2 ] \frac{1}{K}\sum_{k=1}^K[-2\mu_{k\mathrm{ML}}^2]+\frac{1}{K}\sum_{k=1}^K[\mu_{k\mathrm{ML}}^2]=-\frac{1}{K}\sum_{k=1}^K[\mu_{k\mathrm{ML}}^2] ,这就比较明白了,后面两项就是 E [ μ M L 2 ] -\mathbb{E}[\mu_{\mathrm{ML}}^2] ,所以 E [ σ M L 2 ] = μ 2 + σ 2 E [ μ M L 2 ] \mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2] ,因此咱们就要求这个 E [ μ M L 2 ] \mathbb{E}[\mu_{\mathrm{ML}}^2] ,这个表达式的含义就是每一次取得的数据的均值的平方的平均值(指望),那么就有 E [ μ M L 2 ] = σ μ M L 2 + ( E [ μ M L ] ) 2 \mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma_{\mu_{\mathrm{ML}}}^2+(\mathbb{E}[\mu_{\mathrm{ML}}])^2 ,根据公式(1.57),咱们进一步获得 E [ μ M L 2 ] = σ μ M L 2 + μ 2 \mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma_{\mu_{\mathrm{ML}}}^2+\mu^2 ,因此 E [ σ M L 2 ] = μ 2 + σ 2 E [ μ M L 2 ] = σ 2 σ μ M L 2 \mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma^2-\sigma_{\mu_{\mathrm{ML}}}^2 ,因此任务又进一步变为求这个 σ μ M L 2 = var [ μ M L ] \sigma_{\mu_{\mathrm{ML}}}^2=\operatorname{var}[\mu_{\mathrm{ML}}] ,而 var [ μ M L ] = var [ 1 N n = 1 N x n ] = 1 N 2 n = 1 N var [ x n ] = 1 N 2 n = 1 N σ 2 = σ 2 N \operatorname{var}[\mu_{\mathrm{ML}}]=\operatorname{var}[\frac{1}{N}\sum_{n=1}^N x_n]=\frac{1}{N^2}\sum_{n=1}^N \operatorname{var}[x_n]=\frac{1}{N^2}\sum_{n=1}^N \sigma^2=\frac{\sigma^2}{N}

因此就有 E [ σ M L 2 ] = μ 2 + σ 2 E [ μ M L 2 ] = σ 2 σ 2 N = N 1 N σ 2 \mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma^2-\frac{\sigma^2}{N}=\frac{N-1}{N}\sigma^2

PS:我用MATLAB作了一下实验,与理论彻底相符,式(1.57)和式(1.58)实际上也能够从直观上进行理解,这里就不详细说了。

1.13

根据题目(1.12)的推导,这题就很简单了,将 E [ μ M L 2 ] \mathbb{E}[\mu_{\mathrm{ML}}^2] 代换为 E [ μ 2 ] = μ 2 \mathbb{E}[\mu^2]=\mu^2 便可,那很显然 E [ σ M L 2 ] = μ 2 + σ 2 μ 2 = σ 2 \mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mu^2=\sigma^2 。此时,方差的指望也就是无偏的了。

1.14

若是能够写成题目要求的形式(设原矩阵为 W \mathrm{W} ,要写成 W = S + A \mathrm{W}=\mathrm{S}+\mathrm{A} ),那首先能够很容易推断出 A \mathrm{A} 的对角线上的元素都是 0 0 ,因此 S \mathrm{S} 对角线上的元素就是 W \mathrm{W} 对角线上的元素。接着就是要证实 S \mathrm{S} A \mathrm{A} 的其他元素也是可解出来的,由于 w i j = w i j S + w i j A w_{ij}=w_{ij}^{\mathrm{S}}+w_{ij}^{\mathrm{A}} ,同时 w j i = w j i S + w j i A = w i j S w i j A w_{ji}=w_{ji}^{\mathrm{S}}+w_{ji}^{\mathrm{A}}=w_{ij}^{\mathrm{S}}-w_{ij}^{\mathrm{A}} ,这就能够获得构成一个二元一次方程组,因为参数对应的矩阵的秩为 2 2 ,所以方程组必然有解,因此能够写成题目要求的形式。

i = 1 D j = 1 D x i w i j x j = x T W x = x T ( S + A ) x = x T S x + x T A x \sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}x_j=\mathrm{x^T W x}=\mathrm{x^T (S+A) x}=\mathrm{x^T S x +x^T A x} ,如今重点关注一下 x T A x \mathrm{x^T A x} 这一项,由于 x T A x = i = 1 D j = 1 D x i w i j A x j \mathrm{x^T A x}=\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}^{\mathrm{A}}x_j ,那么 A \mathrm{A} 的对角线元素皆为 0 0 ,同时对称元素互为相反数,(注意, A \mathrm{A} 和另外两个矩阵都是方阵,这是前提条件),至关于 x i w i j A x j + x j w j i A x i = 0 x_i w_{ij}^{\mathrm{A}}x_j+x_j w_{ji}^{\mathrm{A}}x_i=0 ,因此 x T A x = 0 \mathrm{x^T A x}=0 ,因此 i = 1 D j = 1 D x i w i j x j = x T W x = x T S x + x T A x = x T S x = i = 1 D j = 1 D x i w i j S x j \sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}x_j=\mathrm{x^T W x}=\mathrm{x^T S x +x^T A x}=\mathrm{x^T S x}=\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}^{\mathrm{S}}x_j

最后一小问就至关于问咱们矩阵 S \mathrm{S} 的对角线以及上(或下)三角部分一共有几个元素,使用数列求和的方式,咱们获得 1 + 2 + 3 + + D = D ( D + 1 ) / 2 1+2+3+\dots+D=D(D+1)/2 ,所以独立的元素数量就是这么多。

1.15

根据题目1.14可知,由全部 w i 1 i 2 i M w_{i_{1}i_{2}\dots i _{M}} 构成的高维张量也是一个高维对称张量,其中的独立元素使用 w ~ i 1 i 2 i M \tilde{w}_{i_{1}i_{2}\dots i _{M}} 表示,此时要证实的式子就比较好理解了,因为张量的对称性质,其他元素都是非独立的,所以都可不作考虑,在根据 i 1 i_{1} i M i_{M} 肯定了张量的维度顺序后,假设 i 1 = 1 i_1 = 1 ,那么因为剩下的维度中非独立元素所处的维度小于等于第一维的维度,所以 i 2 i_2 的上限是 i 1 i_1 ,同理,剩下的和式也是能够推出来的。由此咱们能够获得形式为 i 1 = 1 D i 2 = 1 i 1 i M = 1 i M 1 w ~ i 1 i 2 i M x i 1 x i 2 x i M \sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} \widetilde{w}_{i_{1} i_{2} \cdots i_{M}} x_{i_{1}} x_{i_{2}} \cdots x_{i_{M}}

Tips:实际上我仍是没有想明白对称的高维张量是长啥样的。

接着要证实 n ( D , M ) = i = 1 D n ( i , M 1 ) n(D, M)=\sum_{i=1}^{D} n(i, M-1) ,这个也很简单,就将上面第一问的结果拿来用,最外围的求和就是在 i 1 i_1 1 1 取到 D D 的过程当中后方全部项的求和,而 i 2 i_2 i M i_M 一共有 M 1 M-1 项,因此得证。这个递推式仍是比较直观的。

第三小问概括法也很直接, D = 1 D=1 的状况下, i = 1 D ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! = ( M 1 ) ! ( M 1 ) ! = 1 = ( D + M 1 ) ! ( D 1 ) ! M ! = ( 1 + M 1 ) ! ( 1 1 ) ! M ! = M ! M ! \sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(M-1)!}{(M-1)!}=1=\frac{(D+M-1) !}{(D-1) ! M !}=\frac{(1+M-1) !}{(1-1) ! M !}=\frac{M!}{M!} ,此时等式成立,假设取数字 D D 时,等式成立,则 i = 1 D ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! = ( D + M 1 ) ! ( D 1 ) ! M ! \sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !} ,则取数字 D + 1 D+1 时, i = 1 D + 1 ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! = i = 1 D [ ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! ] + ( D + M 1 ) ! D ! ( M 1 ) ! = ( D + M 1 ) ! ( D 1 ) ! M ! + ( D + M 1 ) ! D ! ( M 1 ) ! = ( D + M ) ( D + M 1 ) ! D ! M ! \sum_{i=1}^{D+1} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\sum_{i=1}^{D} [\frac{(i+M-2) !}{(i-1) !(M-1) !}]+\frac{(D+M-1) !}{D ! (M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !}+\frac{(D+M-1) !}{D ! (M-1) !}=\frac{(D+M)(D+M-1)!}{D!M!} ,因此 i = 1 D + 1 ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! = ( D + M ) ! D ! M ! = ( D + 1 + M 1 ) ! ( D + 1 1 ) ! M ! \sum_{i=1}^{D+1} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M)!}{D!M!}=\frac{(D+1+M-1)!}{(D+1-1)!M!} ,说明该式在 D + 1 D+1 时仍旧成立,从而概括得证。

对于任意 D 1 D \ge 1 ,取 M = 2 M=2 ,则有 n ( D , M ) = ( D + M 1 ) ! ( D 1 ) ! M ! = ( D + 1 ) ! ( D 1 ) ! 2 ! = D ( D + 1 ) 2 n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !}=\frac{(D+1) !}{(D-1) !2 !}=\frac{D(D+1)}{2} ,正如咱们在题目1.14中获得结果同样。如今假设 M 1 M-1 时,该式成立,即 n ( D , M 1 ) = ( D + M 2 ) ! ( D 1 ) ! ( M 1 ) ! n(D, M-1)=\frac{(D+M-2) !}{(D-1) ! (M-1) !} ,而 n ( D , M ) = i = 1 D n ( i , M 1 ) = i = 1 D ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! n(D, M)=\sum_{i=1}^{D} n(i, M-1)=\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) ! (M-1) !} ,又由于 i = 1 D ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! = ( D + M 1 ) ! ( D 1 ) ! M ! \sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !} ,因此 n ( D , M ) = ( D + M 1 ) ! ( D 1 ) ! M ! n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !} ,因此在 M M 时,该式依旧成立,从而概括得证。

1.16

第一小问很直观,根据式(1.74)可知, n ( D , M ) n(D,M) 仅表征了第 M M 阶参数的独立元素个数,如今的 N ( D , M ) N(D,M) 至关于求取全部阶( 0 0 阶到 M M 阶)的独立参数数量,所以 N ( D , M ) = m = 0 M n ( D , m ) N(D, M)=\sum_{m=0}^{M} n(D, m)

第二小问,当 M = 0 M=0 时, N ( D , M ) = ( D + M ) ! D ! M ! = 1 N(D, M)=\frac{(D+M) !}{D ! M !}=1 ,这与实际相符,当仅含有 0 0 阶时,因为 x x 无关,因此实际上就一个常数项,所以参数的数量就是 1 1 。如今假设 M M 时成立,即 N ( D , M ) = ( D + M ) ! D ! M ! N(D, M)=\frac{(D+M) !}{D ! M !} ,则取 M + 1 M+1 时, N ( D , M + 1 ) = ( D + M ) ! D ! M ! + n ( D , M + 1 ) = ( D + M ) ! D ! M ! + ( D + M ) ! ( D 1 ) ! ( M + 1 ) ! = ( M + 1 ) ( D + M ) ! + D ( D + M ) ! D ! ( M + 1 ) ! = ( D + M + 1 ) ! D ! ( M + 1 ) ! N(D, M+1)=\frac{(D+M) !}{D ! M !}+n(D,M+1)=\frac{(D+M) !}{D ! M !}+\frac{(D+M) !}{(D-1) ! (M+1) !}=\frac{(M+1)(D+M)!+D(D+M)!}{D!(M+1)!}=\frac{(D+M+1)!}{D!(M+1)!} ,这里使用了式(1.137)的结论,从而概括得证。

第三小问使用了斯特林公式 n ! n n e n n ! \simeq n^{n} e^{-n} ,若 D M D \gg M ,则 N ( D , M ) = ( D + M ) ! D ! M ! ( D + M ) ! D ! ( D + M ) D + M e ( D + M ) D D e D ( D + M ) D + M D D D D + M D D = D M N(D, M)=\frac{(D+M) !}{D ! M !} \simeq \frac{(D+M)!}{D!} \simeq \frac{(D+M)^{D+M}e^{-(D+M)}}{D^De^{-D}} \simeq \frac{(D+M)^{D+M}}{D^D} \simeq \frac{D^{D+M}}{D^D}=D^M ,同理,若 M D M \gg D ,则有 N ( D , M ) = ( D + M ) ! D ! M ! ( D + M ) ! M ! ( D + M ) D + M e ( D + M ) M M e M ( D + M ) D + M M M M D + M M M = M D N(D, M)=\frac{(D+M) !}{D ! M !} \simeq \frac{(D+M)!}{M!} \simeq \frac{(D+M)^{D+M}e^{-(D+M)}}{M^Me^{-M}} \simeq \frac{(D+M)^{D+M}}{M^M} \simeq \frac{M^{D+M}}{M^M}=M^D ,从而得证。

N ( 10 , 3 ) = ( 10 + 3 ) ! 10 ! 3 ! = 286 N(10, 3)=\frac{(10+3) !}{10 ! 3 !}=286 N ( 100 , 3 ) = ( 100 + 3 ) ! 100 ! 3 ! = 176851 N(100, 3)=\frac{(100+3) !}{100 ! 3 !}=176851

1.17

已知 Γ ( x ) 0 u x 1 e u d u \Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} \mathrm{d} u ,根据分部积分法,能够获得 Γ ( x ) = 0 u x 1 d e u = u x 1 e u 0 + 0 e u d u x 1 = 0 e u d u x 1 \Gamma(x)=\int_{0}^{\infty}-u^{x-1}\mathrm{d}e^{-u}=-u^{x-1}e^{-u}|_0^{\infty}+\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x-1}=\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x-1} ,前半部分的积分为 0 0 不作赘述,简单说明一下就是 x x 是有限项,而 u u 取无限大项时,无限大的有限次方除以 e e 的无限大次方时趋近于 0 0 ,你也能够用MATLAB测试一下。而 Γ ( x + 1 ) = 0 e u d u x = 0 x e u d u x 1 = x Γ ( x ) \Gamma(x+1)=\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}=\int_{0}^{\infty}xe^{-u}\mathrm{d}u^{x-1}=x\Gamma(x) ,得证。

Γ ( 1 ) = 0 e u d u = e u 0 = 1 \Gamma(1)=\int_{0}^{\infty}e^{-u}\mathrm{d}u=-e^{-u}|_0^{\infty}=1 ,得证。

x x 为整数,那么 Γ ( x + 1 ) = 0 e u d u x \Gamma(x+1) = \int_{0}^{\infty}e^{-u}\mathrm{d}u^{x} ,式子中,微分项 u x u^{x} 的次幂就能够一直取下来,获得 Γ ( x + 1 ) = 0 e u d u x = x ! 0 e u d u = x ! \Gamma(x+1) = \int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}=x!\int_{0}^{\infty}e^{-u}\mathrm{d}u=x!

1.18

有一个疑问,式(1.142)中,为什么就称那一项为 S D S_D 的呢?凭什么那一项所表明的的含义就是 D D 维空间中单位球体的表面积呢?我本身想了一下,可是也只是一个头绪,咱们看一下题目1.7中的计算过程,其中有一步是算到了 I 2 = o 2 π 0 exp ( 1 2 σ 2 r 2 ) r d r d θ I^{2}=\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}r^2)r\mathrm{d}r\mathrm{d}\theta ,为了和本题结合,咱们取 σ 2 = 1 / 2 \sigma^2=1/2 ,则有 I 2 = o 2 π 0 exp ( r 2 ) r d r d θ I^{2}=\int_o^{2 \pi}\int_0^{\infty}\exp(-r^2)r\mathrm{d}r\mathrm{d}\theta ,将这个公式对照题目1.18里面的式(1.142),就能够看到, S D S_D 就是咱们算出来的这个双重积分项 o 2 π 0 exp ( r 2 ) r d r d θ \int_o^{2 \pi}\int_0^{\infty}\exp(-r^2)r\mathrm{d}r\mathrm{d}\theta 除以这个积分项内层的积分,简单来讲,经过这么一个除法,本来对于整个平面的积分( r r 0 0 取到 \infty ),变成了单位长度,同时又消除了 exp ( r 2 ) \exp (-r^2) 这一项的积分影响,至关于算了一个在极小角度下的单位半径的扇形的面积,那么再对这个扇形进行角度上的积分,转一圈就获得了单位圆的面积。因此式(1.142)就是这个过程在更高维空间的一个推广。这是个人理解。

首先,根据式(1.126),能够推知, i = 1 D e x i 2 d x i = π D / 2 \prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} \mathrm{d} x_{i}=\pi^{D/2}