正則化(3) - Aiki's Blog

実装の整理できて、正則化込で動かしているけど芳しくない。

正則化入れたらRMSが悪化。しかも、正則化係数を十分小さく取らないと誤差が大きくなる。
タップ数が多い場合は多少の効果あり。
- タップ数が少ない（〜16個）のときは旨味が無いように思える。係数がスパースじゃないのでは。
- 試しに128個とかにしたら少しの改善が見られた。けど適応が遅くて正則化なしでもRMSが悪い。
フィッシャー情報行列固定で、勾配だけ正則化かける方は発散していく。
ついでにLMSでも自然勾配法試してみたけど、SignedLMSの自然勾配よりもRMSが悪い。
もう一度適応的自然勾配学習法を試したけど、十分に係数を小さく取らないと発散するし、小さくとっても性能が悪い。フィッシャー情報行列はちゃんと更新するべし。

なんで正則化したら性能落ちるのか？をもっと考えていたら、パラメータの事前分布を入れた瞬間に計量がさらに歪んでいそう（単純な残差の分散ではダメそう）。

Noisy Natural Gradient as Variational Inference の式(5)。
Robust Estimation of Natural Gradient in Optimization by Regularized Linear Regression 線形回帰における正則化に触れている。
Rprop Using the Natural Gradient パラメータの正則化ではない。フィッシャー情報行列に正則化パラメータを乗じた単位行列を足して逆行列を求めている。なんでも、正則化パラメータが大きければ普通の勾配法に近づくとのこと。そのとおりだが、一体どういう発想なんだろう。
Online Natural Gradient as a Kalman Filter ドンピシャであった（Proposition 4）けどだいぶ複雑。しかも、自然勾配法とカルマンフィルタの関係性を示している。カルマンフィルタのノイズの事前分布を取り入れている。

あがいてたら適応的自然勾配の近似計算があった。計算負荷削減に有益そう。

Topmoumoute online natural gradient algorithm