虽为小禽,尚能解艺道之奥妙,汝等生而为人竟不及鸟类。

Cramér-Chernoff 方法

Pr[Xa]minλ>0eλaE[eλx]\text{Pr}[X\geq a]\leq\min_{\lambda > 0}e^{-\lambda a}\mathbb{E}[e^{\lambda x}]

证明:根据 Markov Inequality,Pr[Xa]=Pr[eλxeλa]eλaE[eλa]\text{Pr}[X\geq a]=\text{Pr}[e^{\lambda x}\geq e^{\lambda a}]\leq e^{-\lambda a}\mathbb{E}[e^{\lambda a}] 对任意λ>0\lambda>0 都成立。指数变化就是因为要求随机变量是非负的,就可以使用 Markov Inequality。

\square

单位模引理:设uRnu\in\mathbb{R}^n 是独立重复采样自N(0,1n)\mathcal{N}(0,\frac{1}{n}) 的向量,那么对于给定常数ε>0\varepsilon>0,我们有:

Pr[u21ε]2eε2n/8\text{Pr}[|\|u\|^2-1|\geq\varepsilon]\leq 2e^{-\varepsilon^2n/8}

证明:根据 Cramér-Chernoff 方法:

Pr[u21ε]minλ>0eλεE[eλ(u21)]=minλ>0eλ(ε+1)E[eλu2]=minλ>0eλ(ε+1)E[eλi=1nui2]=minλ>0eλ(ε+1)E[i=1neλui2]\begin{aligned} \text{Pr}[\|u\|^2-1\geq \varepsilon]&\leq\min_{\lambda>0}e^{-\lambda\varepsilon}\mathbb{E}[e^{\lambda(\|u\|^2-1)}]\\ &=\min_{\lambda>0}e^{-\lambda(\varepsilon+1)}\mathbb{E}[e^{\lambda\|u\|^2}]\\ &=\min_{\lambda>0}e^{-\lambda(\varepsilon+1)}\mathbb{E}[e^{\lambda\sum_{i=1}^nu_i^2}]\\ &=\min_{\lambda>0}e^{-\lambda(\varepsilon+1)}\mathbb{E}[\prod_{i=1}^ne^{\lambda u_i^2}]\\ \end{aligned}

因为uu 的每个分量都是独立选取,所以:

Pr[u21ε]minλ>0eλ(ε+1)E[i=1neλui2]=minλ>0eλ(ε+1)i=1nE[eλui2]\begin{aligned} \text{Pr}[\|u\|^2-1\geq \varepsilon]&\leq\min_{\lambda>0}e^{-\lambda(\varepsilon+1)}\mathbb{E}[\prod_{i=1}^ne^{\lambda u_i^2}]\\ &=\min_{\lambda>0}e^{-\lambda(\varepsilon+1)}\prod_{i=1}^n\mathbb{E}[e^{\lambda u_i^2}] \end{aligned}

其中

E[eλui2]=n2πenui2/2eλui2dui=nn2λ\begin{aligned} \mathbb{E}[e^{\lambda u_i^2}]&=\int_{-\infty}^\infty\sqrt{\frac{n}{2\pi}}e^{-nu_i^2/2}e^{\lambda u_i^2}du_i\\ &=\sqrt{\frac{n}{n-2\lambda}} \end{aligned}

Pr[u21ε]minλ>0eλ(ε+1)(nn2λ)n/2\begin{aligned} \text{Pr}[\|u\|^2-1\geq \varepsilon] &\leq\min_{\lambda>0}e^{-\lambda(\varepsilon+1)}\left(\frac{n}{n-2\lambda}\right)^{n/2} \end{aligned}

λ=nε2(1+ε)\lambda=\frac{n\varepsilon}{2(1+\varepsilon)} 时右侧取到最小值。此时有:

Pr[u21ε]en(log(1+ε)ε)/2enε2/8\text{Pr}[\|u\|^2-1\geq \varepsilon]\leq e^{n(\log(1+\varepsilon)-\varepsilon)/2}\leq e^{-n\varepsilon^2/8}

另一侧Pr[u21ε]\text{Pr}[\|u\|^2-1\leq-\varepsilon] 也类似可以得到证明。

\square

正交性引理:设u,vRnu,v\in\mathbb{R}^n 是独立重复采样自N(0,1n)\mathcal{N}(0,\frac{1}{n}) 的两个向量,那么给定ε(0,1)\varepsilon\in(0,1),我们有:

Pr[u,vε]4eε2n/8\text{Pr}[|\langle u,v\rangle|\geq\varepsilon]\leq 4e^{-\varepsilon^2n/8}

证明:若u,vN(0,1n)u,v\sim\mathcal{N}(0,\frac{1}{n}),那么u+v2N(0,1n)\frac{u+v}{\sqrt{2}}\sim\mathcal{N}(0,\frac{1}{n})。那么根据单位摸引理,有:

{Pr[u+v221ε]enε2/8Pr[u+v221ε]enε2/8\begin{cases} \text{Pr}\left [\left \|\frac{u+v}{\sqrt{2}}\right \|^2-1\geq\varepsilon\right ]\leq e^{-n\varepsilon^2/8}\\ \text{Pr}\left [\left \|\frac{u+v}{\sqrt{2}}\right \|^2-1\leq-\varepsilon\right ]\leq e^{-n\varepsilon^2/8} \end{cases}

u,vεu+v22uv222ε\langle u,v\rangle\geq \varepsilon\Leftrightarrow \left \|\frac{u+v}{\sqrt{2}}\right\|^2-\left \|\frac{u-v}{\sqrt{2}}\right\|^2\geq 2\varepsilon,故:

Pr[u,vε]=Pr[u+v221+1uv222ε]Pr[u+v221ε1uv22ε]Pr[u+v221ε]+Pr[1uv22ε]2enε2/8\begin{aligned} \text{Pr}[\langle u,v\rangle\geq \varepsilon]&=\text{Pr}\left [\left \|\frac{u+v}{\sqrt{2}}\right\|^2-1+1-\left \|\frac{u-v}{\sqrt{2}}\right\|^2\geq 2\varepsilon\right ]\\ &\leq\text{Pr}\left [\left \|\frac{u+v}{\sqrt{2}}\right\|^2-1\geq\varepsilon\vee1-\left \|\frac{u-v}{\sqrt{2}}\right\|^2\geq \varepsilon\right ]\\ &\leq \text{Pr}\left [\left \|\frac{u+v}{\sqrt{2}}\right\|^2-1\geq\varepsilon\right ]+\text{Pr}\left [1-\left \|\frac{u-v}{\sqrt{2}}\right\|^2\geq \varepsilon\right ]\\ &\leq 2e^{-n\varepsilon^2/8} \end{aligned}

其中,第一个小于等于号是因为:

u+v221+1uv222εu+v221ε1uv22ε\left \|\frac{u+v}{\sqrt{2}}\right\|^2-1+1-\left \|\frac{u-v}{\sqrt{2}}\right\|^2\geq 2\varepsilon\\ \Rightarrow \left \|\frac{u+v}{\sqrt{2}}\right\|^2-1\geq\varepsilon\vee1-\left \|\frac{u-v}{\sqrt{2}}\right\|^2\geq \varepsilon

\square

Johnson-Lindenstrauss Lemma: 给定NN 个向量v1,v2,...,vNRmv_1,v_2,...,v_N\in\mathbb{R}^mn>24logNε2n>\frac{24\log N}{\varepsilon^2},而随机矩阵ARn×mA\in\mathbb{R}^{n\times m} 独立重复采样自N(0,1n)\mathcal{N}(0,\frac{1}{n})。那么对于给定常数ε(0,1)\varepsilon\in(0,1),至少有N1N\frac{N-1}{N} 的概率,使得对于所有的iji\neq j 都有:

(1ε)vivj2AviAvj2(1+ε)vivj2(1-\varepsilon)\|v_i-v_j\|^2\leq\|Av_i-Av_j\|^2\leq(1+\varepsilon)\|v_i-v_j\|^2

这个定理其实是说,不管原来向量是多少维数,只需要24logNε2\frac{24\log N}{\varepsilon^2} 维度,我们就可以容纳下NN 个向量,而且使得变换后的向量直接的距离和原来的距离只有1±ε1\pm \varepsilon 的误差。这个变换也很简单,就是随机采样一个n×mn\times m 的矩阵。

证明:对于单位一个单位向量uu 的话,AuAu 就是每个分量都独立服从于N(0,1n)\mathcal{N}(0,\frac{1}{n}) 的随机变量。那么令u=vivjvivju=\frac{v_i-v_j}{\|v_i-v_j\|},那么A(vivj)vivj\frac{A(v_i-v_j)}{\|v_i-v_j|} 就是一个每个分量都独立服从于N(0,1n)\mathcal{N}(0,\frac{1}{n}) 的向量。利用单位根引理,有:

Pr[A(vivj)vivj21ε]2eε2n/8\text{Pr}\left [\left |\left \|\frac{A(v_i-v_j)}{\|v_i-v_j\|}\right \|^2-1\right |\geq\varepsilon\right ]\leq 2e^{-\varepsilon^2n/8}

故:

Pr[(i,j),A(vivj)vivj21ε]2(N2)eε2n/8\text{Pr}\left [\exists (i,j),\left |\left \|\frac{A(v_i-v_j)}{\|v_i-v_j\|}\right \|^2-1\right |\geq\varepsilon\right ]\leq 2\begin{pmatrix}N\\2\end{pmatrix}e^{-\varepsilon^2n/8}

所以:

Pr[(i,j),A(vivj)vivj21ε]12(N2)eε2n/8\text{Pr}\left [\forall (i,j),\left |\left \|\frac{A(v_i-v_j)}{\|v_i-v_j\|}\right \|^2-1\right |\leq\varepsilon\right ]\geq 1-2\begin{pmatrix}N\\2\end{pmatrix}e^{-\varepsilon^2n/8}

n>24logNε2n>\frac{24\log N}{\varepsilon^2} 时,右侧值为N1N\frac{N-1}{N}

\square

Edited on Views times