正則化(8)

\begin{equation*} \newcommand\innerp[2]{\langle #1, #2 \rangle} \newcommand\ve[1]{\boldsymbol{#1}} \newcommand\parfrac[2]{\frac{\partial #1}{\partial #2}} \newcommand\mean[2]{\mathrm{E}_{#1} \left[ #2 \right]} \newcommand\KL[2]{\mathrm{KL} \left[ #1 \ \middle| \middle| \ #2 \right]} \end{equation*}

前日思い立った内容って既に試していて、だめなところまで見えてた。すなわち直接 \(\mathrm{E}[(\ve{x} + \ve{a})(\ve{x} + \ve{a})^{\mathsf{T}}]\) を計算する方針は試行済み。

色々探しているうちに、K-FACという自然勾配学習法の近似手法を見つける。クロネッカ積を使ってフィッシャー情報行列を分解しようというアイデアだ。

K-FACとは？大規模深層学習のための二次最適化の実現
- これはすごい。少し前にクロネッカ積で計算できるんじゃないの？とは指摘もらってたけど、普通にメジャーな手法だ。
- 自然勾配近似法を起点としたバッチ正規化の数理的理解に近似手法が挙げられている。
THREE MECHANISMS OF WEIGHT DECAY REGULARIZATION でWeight Decayの文脈でL2正則化学習則が示されている。
- Preconditioned Stochastic Gradient Descent Precondition行列で勾配を更新する方法。ちょっと待て、自然勾配とちょっと違う。
Adaptive Natural Gradient Method for Learning of Stochastic Neural Networks in Mini-Batch Mode ではMatrix cookbookの(191)を使って行列に対する正則化を行っている。
- \((\ve{Q} + \sigma^{2}\ve{M})^{-1} \approx \ve{Q}^{-1} - \sigma^{2}\ve{Q}^{-1}\ve{M}\ve{Q}^{-1}\ (\sigma\text{ is small})\) という近似。

逆写像定理までをおべんきょ中。まだ陰関数定理の途中。

Related Posts: