早速既存研究が無いか見ている。二乗誤差最小化のLMSでもヘッセ行列の逆行列の計算負荷が高いから使わん、という論調がほとんど。Signed-LMSについては今の所、微分してるところも見てない。
- NEURAL NETWORK Widrow-Hoff Learning Adaline Hagan LMS 観測分散行列がヘッセ行列に一致することが書いてあった。
- Stochastic error whitening algorithm for linear filter estimation with noisy data 評価関数として絶対値が入ったものを使っている。
- The Least Mean Squares Algorithm 分かりやすめな解説。そうか、ウィーナーフィルタか。
行列 \(\ve{X}\ve{X}^{\mathsf{T}}\) が正則にならない件について、これ正則化すればいいんじゃねと思い立つ。要は \(\lambda\) を正則化パラメータとして \(\ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I}\) に対して逆行列を求めていく。
- 多分、係数側に正則項を追加することになるはず。\(\min \mathrm{E}[|\varepsilon(n)|] + \lambda ||\ve{h}||_{2}\) のような定式化か?
- それでも逆行列 \((\ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I})^{-1}\) を求めるのは骨が折れそう。そこで、自然勾配学習で使っていた適応的自然勾配学習法( Singularities Affect Dynamics of Learning in Neuromanifolds より)が使えそう。具体的には、次の式で自然勾配を適応的に求めていく。
ここで \(\varepsilon_{t}\) は小さな定数。『情報幾何の新展開』では、カルマンフィルタ由来らしい。うーん、もう試してみたいな。
(念の為) \(\ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I}\) が正則行列になる理由
すぐに思い出せなくてヒヤッとしたのでここで示しておく。\(\ve{X}\ve{X}^{\mathsf{T}}\) は対称行列だから、直交行列 \(\ve{P}\) (\(\ve{P}^{-1} = \ve{P}^{\mathsf{T}}\) )と固有値を並べた対角行列 \(\ve{\Lambda}\) を用いて、\(\ve{X}\ve{X}^{\mathsf{T}} = \ve{P}^{\mathsf{T}} \ve{\Lambda} \ve{P}\) と対角化できる。よって、\(\lambda > 0\) なる定数を用いた時、
また、任意のベクトル \(\ve{v}\) を使った時、
の関係式が成り立つ。最後の不等式が成り立つには、全ての \(i\) に対して \(\ve{\Lambda}_{ii} \geq 0\) でなければならない。よって \(\ve{XX}^{\mathsf{T}}\) の固有値は全て非負。
ここで \(\ve{P}^{\mathsf{T}} (\ve{\Lambda} + \lambda \ve{I}) \ve{P}\) に注目すると、全ての固有値に \(\lambda\) が足されていることが分かる。\(\lambda\) は正だから、 \(\ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I}\) の固有値は全て正になり正定値行列となる。正定値行列は正則だから、 \(\ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I}\) は正則行列。
フィッシャー情報行列とヘッセ行列と分散行列の絡みについて
以下の記事が非常にわかりやすい。
結論、ラプラス分布に従う残差を仮定した最尤推定において、観測分散行列はフィッシャー情報行列に一致し、その逆行列は自然勾配に該当するはず。つうかニュートン法の特殊ケースに見えるがどうなんでしょ。フィッシャー情報行列がヘッセ行列に見えるんだが、定義通り(対数尤度のヘッセ行列)そうだよな。指数族の最尤推定をニュートン法で解こうとしたら全部自然勾配学習法にならね?
TODO
評価のことを考えて行きたい。固定した信号(答えが分かっている信号。乱数固定。)を使ったときに、誤差平面と勾配はどうなっている?フィルタの次元は2ぐらいにして、フィルタを固定して各統計量がどうなっているかプロットする。まずは絶対値残差と勾配の観察が重要に思える(もちろん、2次の最小化ケースも重要)。
- 評価がまとまったら結果共有に入りたい。
- OMPを使う。
- メッセージパッシング使えない?
- 何らかの確率モデル化をせよ、というふうに受け取った。
- AMP, Survay-Propagation(三村さん、樺島さん)がありえる。
- → AMP, Survay-Propagationについて調査すべし。
- いろんな論文で自然勾配をどうやって定義しているか要観察。