実装の整理できて、正則化込で動かしているけど芳しくない。
- 正則化入れたらRMSが悪化。しかも、正則化係数を十分小さく取らないと誤差が大きくなる。
- タップ数が多い場合は多少の効果あり。
- タップ数が少ない(〜16個)のときは旨味が無いように思える。係数がスパースじゃないのでは。
- 試しに128個とかにしたら少しの改善が見られた。けど適応が遅くて正則化なしでもRMSが悪い。
- フィッシャー情報行列固定で、勾配だけ正則化かける方は発散していく。
- ついでにLMSでも自然勾配法試してみたけど、SignedLMSの自然勾配よりもRMSが悪い。
- もう一度適応的自然勾配学習法を試したけど、十分に係数を小さく取らないと発散するし、小さくとっても性能が悪い。フィッシャー情報行列はちゃんと更新するべし。
なんで正則化したら性能落ちるのか?をもっと考えていたら、パラメータの事前分布を入れた瞬間に計量がさらに歪んでいそう(単純な残差の分散ではダメそう)。
- Noisy Natural Gradient as Variational Inference の式(5)。
- Robust Estimation of Natural Gradient in Optimization by Regularized Linear Regression 線形回帰における正則化に触れている。
- Rprop Using the Natural Gradient パラメータの正則化ではない。フィッシャー情報行列に正則化パラメータを乗じた単位行列を足して逆行列を求めている。なんでも、正則化パラメータが大きければ普通の勾配法に近づくとのこと。そのとおりだが、一体どういう発想なんだろう。
- Online Natural Gradient as a Kalman Filter ドンピシャであった(Proposition 4)けどだいぶ複雑。しかも、自然勾配法とカルマンフィルタの関係性を示している。カルマンフィルタのノイズの事前分布を取り入れている。
あがいてたら適応的自然勾配の近似計算があった。計算負荷削減に有益そう。