# Pattern Recognition and Machine Learning: Chapter 01习题详解

2020年08月08日 阅读数：219

# PRML_Exercises

## 关于排版，实话说我也想把公式排得舒服好看一些，奈何着实费力，这着实不太讨喜，见谅。

### Chapter 1

#### 1.1

$\sum_{j=0}^{M}w_jx_n^j=t_n$

$T_i=\sum_{n=1}^{N}(x_n)^it_n$

$T_i=\sum_{n=1}^N[(x_n)^i\sum_{j=0}^{M}w_j(x_n)^j]$

$T_i=\sum_{n=1}^N\sum_{j=0}^{M}(x_n)^iw_j(x_n)^j$

$T_i=\sum_{j=0}^{M}\sum_{n=1}^N(x_n)^iw_jx_n^j=\sum_{j=0}^{M}\sum_{n=1}^N(x_n)^{i+j}w_j$

#### 1.2

$\widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2}$

$\frac{\mathrm{d}\widetilde{E}(\mathbf{w})}{\mathrm{d}w_i}=\frac{1}{2}\sum_{n=1}^{N}\{2[\sum_{j=0}^{M}w_j(x_n)^j-t_n](x_n)^i\}+\lambda w_i=0$

$\sum_{n=1}^{N}\{\sum_{j=0}^{M}[(x_n)^{i+j}w_j]-(x_n)^it_n]\}+\lambda w_i=\sum_{n=1}^{N}\sum_{j=0}^{M}\{(x_n)^{i+j}w_j\}-\sum_{n=1}^{N}\{(x_n)^{i}t_n+\frac{\lambda w_i}{N}\}=0$

Tips：上面求导的过程使用了复合函数的求导。app

#### 1.3

$p(a)=p(a,r)+p(a,b)+p(a,g)=p(a|r)p(r)+p(a|b)p(b)+p(a|g)p(g)=0.34$

#### 1.7

$x=r \cos \theta$ $y=r\sin \theta$，知足 $x^2+y^2=r^2$ $r\ge 0$，则原来的积分式能够写成 $I^{2}=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} x^{2}-\frac{1}{2 \sigma^{2}} y^{2}\right) \mathrm{d} x \mathrm{d} y=\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}r^2)r\mathrm{d}r\mathrm{d}\theta$，使用 $u=r^2$代换，ui

#### 1.10

$\mathbb{E}[x+z]=\iint (x+z)p(x,z)\mathrm{d}x\mathrm{d}z=\iint (x+z)p(x)p(z)\mathrm{d}x\mathrm{d}z=\iint xp(x)p(z)\mathrm{d}x\mathrm{d}z+\iint zp(z)p(x)\mathrm{d}x\mathrm{d}z$

$\operatorname{var}[x+z]=\mathbb{E}[(x+z)^2]-(\mathbb{E}[x+z])^2$，代入第一小问的结果，获得所求方差为 $\mathbb{E}[x^2+z^2+2xz]-(\mathbb{E}[x]+\mathbb{E}[x])^2=\mathbb{E}[x^2]+\mathbb{E}[z^2]+2\mathbb{E}[xz]-(\mathbb{E}[x])^2-(\mathbb{E}[z])^2-2\mathbb{E}[x]\mathbb{E}[z]$

#### 1.11

$y=\ln p\left(\mathbf{x} | \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi)$，能够获得 $\frac{\partial y}{\partial \mu}=-\frac{1}{\sigma^2}\sum_{n=1}^{N}(\mu-x_n)=0$，因此 $\sum_{n=1}^{N}(\mu-x_n)=0$，因此 $\sum_{n=1}^{N}\mu-\sum_{n=1}^{N}x_n=N\mu-\sum_{n=1}^{N}x_n=0$，因此 $\mu_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} x_{n}$

$\frac{\partial y}{\partial \sigma^2}=-\frac{2}{(2\sigma^2)^2}\sum_{n=1}^{N}(x_n-\mu_{\mathrm{ML}})^2-\frac{N}{2\sigma^2}=0$，很容易获得 $\sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2}$

#### 1.12

PS：我用MATLAB作了一下实验，与理论彻底相符，式(1.57)和式(1.58)实际上也能够从直观上进行理解，这里就不详细说了。

#### 1.14

$\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}x_j=\mathrm{x^T W x}=\mathrm{x^T (S+A) x}=\mathrm{x^T S x +x^T A x}$，如今重点关注一下 $\mathrm{x^T A x}$这一项，由于 $\mathrm{x^T A x}=\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}^{\mathrm{A}}x_j$，那么 $\mathrm{A}$的对角线元素皆为 $0$，同时对称元素互为相反数，（注意， $\mathrm{A}$和另外两个矩阵都是方阵，这是前提条件），至关于 $x_i w_{ij}^{\mathrm{A}}x_j+x_j w_{ji}^{\mathrm{A}}x_i=0$，因此 $\mathrm{x^T A x}=0$，因此 $\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}x_j=\mathrm{x^T W x}=\mathrm{x^T S x +x^T A x}=\mathrm{x^T S x}=\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}^{\mathrm{S}}x_j$

#### 1.15

Tips：实际上我仍是没有想明白对称的高维张量是长啥样的。

#### 1.16

$N(10, 3)=\frac{(10+3) !}{10 ! 3 !}=286$ $N(100, 3)=\frac{(100+3) !}{100 ! 3 !}=176851$

#### 1.17

$\Gamma(1)=\int_{0}^{\infty}e^{-u}\mathrm{d}u=-e^{-u}|_0^{\infty}=1$，得证。

$x$为整数，那么 $\Gamma(x+1) = \int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}$，式子中，微分项 $u^{x}$的次幂就能够一直取下来，获得 $\Gamma(x+1) = \int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}=x!\int_{0}^{\infty}e^{-u}\mathrm{d}u=x!$