\begin{equation*}
\newcommand\ve[1]{\boldsymbol{#1}}
\newcommand\mean[2]{\mathrm{E}_{#1} \left[ #2 \right]}
\end{equation*}
前日見ていた \(\ve{R}^{-1}\) のAR(1)仮定による近似を実験しているが、渋いな〜渋い。
真の(共分散行列を計算してから逆行列を計算した) \(\ve{R}^{-1}\) とはかなり類似。
- 当然3重対角成分以外は0にしているので誤差がある。しかし真の \(\ve{R}^{-1}\) も小さい値を取るので全体的な誤差は小さい。
- 真値とのRMSを見たら減少してることを確認。
i.i.d.雑音ではSAとほぼ変わらんくらいの性能。
- 頷ける。 \(\ve{R}^{-1}\) が単位行列の定数倍に近くなるから。
相関付き雑音ならちょっと改善。NGSAとSAの中間くらいか?
以下の条件下ではSharman-Morrison式NGSAの性能と近い。
- 入力雑音のパワー(分散)を大きくする(0dBとか)
- フィルタ係数の次元を落とす(2とか)
NGSAで求まってる \(\ve{R}^{-1}\) は何なの…
実験で見たとき、Sharman-Morrisonによる \(\ve{R}^{-1}\) もほぼ多重対角行列だったのを見ている
i.i.d.雑音でSharman-Morrison式NGSAがよくなる現象、一体何なんだ。
スケールを揃えて見てみた。
- 10サンプル後, 対角優位ではあるが、対角要素以外がおおきい。
- 1000サンプル, 2000サンプル後もほぼ同様。対角要素以外は小さくなるものの小さくなりきっていない。
なんかモーメンタムみたいになってる?慣性が残って加速しているのか?まさか…
- 曲率以外の概念が無いと、この収束加速は説明できない。
- モーメンタムありえる。 更新式の横から勾配 \(\ve{v}\) を乗じると、
\begin{align*} \ve{R}^{-1}[n+1] &= \frac{1}{\lambda} \left[ \ve{R}^{-1}[n] - \frac{\ve{R}^{-1}[n]\ve{x}[n]\left\{\ve{R}^{-1}\ve{x}[n]\right\}^{\mathsf{T}}}{\lambda + \ve{x}[n]^{\mathsf{T}} \ve{R}^{-1}[n] \ve{x}[n]} \right] \\ \implies \ve{R}^{-1}[n+1]\ve{v} &= \frac{1}{\lambda} \left[ \ve{R}^{-1}[n]\ve{v} - \frac{\ve{R}^{-1}[n]\ve{x}[n]\left\{\ve{R}^{-1}\ve{x}[n]\right\}^{\mathsf{T}}}{\lambda + \ve{x}[n]^{\mathsf{T}} \ve{R}^{-1}[n] \ve{x}[n]} \ve{v} \right] \end{align*}- だから、直前ステップの自然勾配 \(\ve{R}^{-1}[n]\ve{v}\) に対して修正を掛けながら更新している事がわかる。
- 前に進捗報告でglasso版がほぼ同じような結果を出していたのは、共分散行列を \(\ve{R}[n+1] \leftarrow \lambda \ve{R}[n] + \ve{x}[n] \ve{x}[n]^{\mathsf{T}}\) と指数移動平均的に更新したからと思われる。両辺の逆を取ると、(1次)近似的には \(\ve{R}^{-1}[n]\) の成分と \((\ve{x}[n]\ve{x}[n]^{\mathsf{T}})^{-1}\) (擬似逆行列) の和に分けることができて、右から勾配を乗じると直前ステップの勾配成分が発生し、モーメンタムになる。
やはりモーメンタムの線が濃い。事前にSherman-Morrisonで \(\ve{R}^{-1}\) を求めて固定して自然勾配学習を行うと、NGSAの収束性能が悪化した。
- しかし、固定した \(\ve{R}^{-1}\) を使ってモーメンタムを使っても性能が良くない。SAと同程度。何が違うんだ…?
アイデアとしては、行列を指数移動平均的に更新するやり方を採用することだろうか。