\begin{equation*}
\newcommand\innerp[2]{\langle #1, #2 \rangle}
\newcommand\ve[1]{\boldsymbol{#1}}
\newcommand\parfrac[2]{\frac{\partial #1}{\partial #2}}
\newcommand\mean[2]{\mathrm{E}_{#1} \left[ #2 \right]}
\newcommand\KL[2]{\mathrm{KL} \left[ #1 \ \middle| \middle| \ #2 \right]}
\end{equation*}
前日思い立った内容って既に試していて、だめなところまで見えてた。すなわち直接 \(\mathrm{E}[(\ve{x} + \ve{a})(\ve{x} + \ve{a})^{\mathsf{T}}]\) を計算する方針は試行済み。
色々探しているうちに、K-FACという自然勾配学習法の近似手法を見つける。クロネッカ積を使ってフィッシャー情報行列を分解しようというアイデアだ。
- K-FACとは? 大規模深層学習のための二次最適化の実現
- これはすごい。少し前にクロネッカ積で計算できるんじゃないの?とは指摘もらってたけど、普通にメジャーな手法だ。
- 自然勾配近似法を起点としたバッチ正規化の数理的理解 に近似手法が挙げられている。
- THREE MECHANISMS OF WEIGHT DECAY REGULARIZATION でWeight Decayの文脈でL2正則化学習則が示されている。
- Preconditioned Stochastic Gradient Descent Precondition行列で勾配を更新する方法。ちょっと待て、自然勾配とちょっと違う。
- Adaptive Natural Gradient Method for Learning of Stochastic Neural Networks in Mini-Batch Mode ではMatrix cookbookの(191)を使って行列に対する正則化を行っている。
- \((\ve{Q} + \sigma^{2}\ve{M})^{-1} \approx \ve{Q}^{-1} - \sigma^{2}\ve{Q}^{-1}\ve{M}\ve{Q}^{-1}\ (\sigma\text{ is small})\) という近似。
逆写像定理までをおべんきょ中。まだ陰関数定理の途中。