第十三届全国大学生数学竞赛决赛(数学类高年级组)第九题赏析

本题目是于2023年3月在中国上海华东师范大学举办的第十三届全国大学生数学竞赛决赛(数学类高年级组)中的第九题,题目考察范围广泛,需要应用灵活运用矩阵求导、概率论、高维高斯随机向量的性质、条件期望与重期望公式以及Fubini定理等少量积分技巧来解决该问题。问题本身实际为机器学习的背景,稍作修改可以变形为更为真实的应用场景,是难得值得该领域研究者品鉴的好题目。

官方给出的答案太过于简略,这里给出一个详细解答。

题目

记$p\geq 2$是整数,$\beta$是$p$维末知参数,$\boldsymbol{X}$是$p$维随机向量服从正态分布$\mathcal{N}(\boldsymbol{0}, \boldsymbol{\Sigma})$。其中$\boldsymbol{\Sigma}$是$p$阶对称正定矩阵,随机误差$\varepsilon$是1维随机变量,服从正态分布$\mathcal{N}(0, \sigma^2)$,且与$\boldsymbol{X}$独立,其中$\sigma^2>0$。记$\text{sgn}(\cdot)$为符号函数,$Y = \text{sgn}(\boldsymbol{X}^{T}\beta_0+\varepsilon)$是1维随机变量。定义:
\begin{equation}
\beta^* = \text{argmin}_{\beta\in\mathbb{R}^p}\mathbb{E}\left[(Y-\boldsymbol{X}^T\beta)^2\right].
\end{equation}

  1. 请给出$\beta^*$的显式表达式。
  2. 若$F(\cdot)$为$\varepsilon$的分布函数,证明:
    \begin{equation}
    \text{Cov}(\boldsymbol{X}, Y) = -2\text{Cov}(\boldsymbol{X}, F(-\boldsymbol{X}^T\beta_0)).
    \end{equation}
  3. $\forall \alpha,\beta\in \mathbb{R}^p$,证明:
    \begin{equation}
    \mathbb{E}\left[\alpha^T\boldsymbol{X}|\beta^T\boldsymbol{X}\right] = (\alpha^T\boldsymbol{\Sigma}\beta)\left((\beta^T\boldsymbol{\Sigma}\beta)^{-1}\beta^T\boldsymbol{X}\right).
    \end{equation}
  4. 证明$\beta^*$与$\beta_0$成比例,且要求找到比例因子的显式表达式。

证明

  • 首先计算:

\begin{aligned}
\mathbb{E}\left[(Y-\boldsymbol{X}^T\beta)^2\right] & = \mathbb{E}\left[1 - 2Y\boldsymbol{X}^T\beta + \beta^T\boldsymbol{X}\boldsymbol{X}^T\beta\right]\\
& = 1- 2\mathbb{E}\left[Y\boldsymbol{X}^T\right]\beta + \beta^T\mathbb{E}\left[\boldsymbol{X}\boldsymbol{X}^T\right]\beta\\
& \overset{\mathbb{E}\left[\boldsymbol{X}\right]=\boldsymbol{0}}{=} 1 - 2\text{Cov}(\boldsymbol{X},Y)\beta + \beta^T\boldsymbol{\Sigma}\beta.
\end{aligned}

再对$\beta$求导,直接得到:

\begin{aligned}
\boldsymbol{0} = \frac{\partial \left[1 - 2\text{Cov}(\boldsymbol{X},Y)\beta + \beta^T\boldsymbol{\Sigma}\beta\right]}{\partial \beta} & = -2\text{Cov}(\boldsymbol{X},Y) + (\boldsymbol{\Sigma}+\boldsymbol{\Sigma}^T)\beta\\
\beta^* &= \boldsymbol{\Sigma}^{-1}\text{Cov}(\boldsymbol{X},Y).
\end{aligned}

  • 其次注意到:

\begin{aligned}
\text{Cov}(\boldsymbol{X},Y) & \overset{\text{重期望公式}}{=} \mathbb{E}_{\varepsilon}\left[\mathbb{E}_{\boldsymbol{X}}\left[\boldsymbol{X}\text{sgn}(\boldsymbol{X}^{T}\beta_0+\varepsilon)|\varepsilon\right]\right]\\
& \overset{\text{Fubini定理}}{=} \mathbb{E}_{\boldsymbol{X}}\left[\mathbb{E}_{\varepsilon}\left[\boldsymbol{X}\text{sgn}(\boldsymbol{X}^{T}\beta_0+\varepsilon)|\varepsilon\right]\right]\\
& = \mathbb{E}_{\boldsymbol{X}}\left[F(-\boldsymbol{X}^T\beta_0)\cdot -\boldsymbol{X} + (1-F(-\boldsymbol{X}^T\beta_0))\boldsymbol{X}\right]\\
& = \mathbb{E}_{\boldsymbol{X}}\left[-2F(-\boldsymbol{X}^T\beta_0)\boldsymbol{X} +\boldsymbol{X}\right]\\
& = -2\text{Cov}(F(-\boldsymbol{X}^T\beta_0), \boldsymbol{X}).
\end{aligned}

  • 注意到两个高斯随机变量组成的二维随机向量,依旧服从高斯分布:

\begin{equation}
\begin{pmatrix}
\alpha^T\boldsymbol{X} \\
\beta^T\boldsymbol{X}
\end{pmatrix}
\sim\mathcal{N}
\left(
\begin{pmatrix}
0 \\
0
\end{pmatrix},
\begin{pmatrix}
\alpha^T\boldsymbol{\Sigma}\alpha & \alpha^T\boldsymbol{\Sigma}\beta\\
\beta^T\boldsymbol{\Sigma}\alpha & \beta^T\boldsymbol{\Sigma}\beta
\end{pmatrix}
\right).
\end{equation}
那么其条件期望可以直接计算1得到:
\begin{equation}\label{equ:condexpexe9}
\mathbb{E}\left[\alpha^T\boldsymbol{X}|\beta^T\boldsymbol{X}\right] = (\alpha^T\boldsymbol{\Sigma}\beta)\left((\beta^T\boldsymbol{\Sigma}\beta)^{-1}\beta^T\boldsymbol{X}\right). \tag{1}
\end{equation}

  • 根据\ref{equ:condexpexe9}式,令$\alpha=\text{diag}(1,\cdots,1) = \boldsymbol{E}$为单位阵有:

\begin{aligned}
\mathbb{E}\left[\boldsymbol{X} F(-\boldsymbol{X}^T\beta_0)\right] &\overset{\text{重期望公式}}{=} \mathbb{E}\left[\mathbb{E}\left[\boldsymbol{X} F(-\boldsymbol{X}^T\beta_0)|\boldsymbol{X}^T\beta_0\right]\right]\\
& = \boldsymbol{\Sigma}\beta_0(\beta_0^T\boldsymbol{\Sigma}\beta_0)^{-1}\text{Cov}(\boldsymbol{X}^T \beta_0, F(-\boldsymbol{X}^T\beta_0)).
\end{aligned}

综上几问的结果我们有:

\begin{aligned}
\beta^* & = \boldsymbol{\Sigma}^{-1}\text{Cov}(\boldsymbol{X},Y) \\
& = -2\boldsymbol{\Sigma}^{-1}\text{Cov}(F(-\boldsymbol{X}^T\beta_0), \boldsymbol{X})\\
& = -2\boldsymbol{\Sigma}^{-1}\boldsymbol{\Sigma}\beta_0(\beta_0^T\boldsymbol{\Sigma}\beta_0)^{-1}\text{Cov}(\boldsymbol{X}^T \beta_0, F(-\boldsymbol{X}^T\beta_0))\\
& = -2\left[ (\beta_0^T\boldsymbol{\Sigma}\beta_0)^{-1}\text{Cov}(\boldsymbol{X}^T \beta_0, F(-\boldsymbol{X}^T\beta_0)) \right]\beta_0\\
& = c\beta_0.
\end{aligned}

其中,记$f$为$\varepsilon$的密度函数,令$\boldsymbol{X}^T\beta_0 = Z\sim\mathcal{N}(0,\sigma’^2)$,$\sigma’^2 = \beta_0^T\boldsymbol{\Sigma}\beta_0$有密度函数$\rho(x)$。注意到$x\rho(x) = -\sigma’^2\rho’(x)$:

\begin{aligned}
\mathbb{E}\left[ZF(-Z)\right] & = \int_{\mathbb{R}}xF(-x)\rho(x)\text{d} x = -\sigma’^2\int_{\mathbb{R}}F(-x)\text{d} \rho(x)\\
& \overset{\text{分部积分}}{=} -\sigma’^2\underbrace{\left.F(-x)\rho(x)\right|_{-\infty}^{+\infty}}_{=0} - \sigma’^2\int_{\mathbb{R}}f(-x)\rho(x)\text{d} x = - \sigma’^2\mathbb{E}\left[f(-Z)\right]\\
& = -\int_{\mathbb{R}}\frac{\sigma’^2}{2\pi\sigma\sigma’}\exp\left(-\frac{x^2}{2}(1/\sigma^2+1/\sigma’^2)\right)\text{d} x\\
& = -\frac{\sigma’^2}{\sqrt{2\pi(\sigma^2+\sigma’^2)}}.
\end{aligned}

因此根据上式,得到比例常数$c$:
\begin{aligned}
c &= -2(\beta_0^T\boldsymbol{\Sigma}\beta_0)^{-1}\text{Cov}(\boldsymbol{X}^T \beta_0, F(-\boldsymbol{X}^T\beta_0)) = -2(\beta_0^T\boldsymbol{\Sigma}\beta_0)^{-1}\mathbb{E}\left[\boldsymbol{X}^T \beta_0F(-\boldsymbol{X}^T\beta_0)\right]\\
& = 2(\beta_0^T\boldsymbol{\Sigma}\beta_0)^{-1}\frac{(\beta_0^T\boldsymbol{\Sigma}\beta_0)}{\sqrt{2\pi(\sigma^2+\beta_0^T\boldsymbol{\Sigma}\beta_0)}}\\
& = \sqrt{\frac{2}{\pi(\sigma^2+\beta_0^T\boldsymbol{\Sigma}\beta_0)}}.
\end{aligned}

1. 该公式的证明过程可以参考这里.