\(R^{-1}\) の計算(22)

\begin{equation*} \newcommand\ve[1]{\boldsymbol{#1}} \newcommand\mean[2]{\mathrm{E}_{#1} \left[ #2 \right]} \end{equation*}

前日見ていた \(\ve{R}^{-1}\) のAR(1)仮定による近似を実験しているが、渋いな〜渋い。

真の（共分散行列を計算してから逆行列を計算した） \(\ve{R}^{-1}\) とはかなり類似。
- 当然3重対角成分以外は0にしているので誤差がある。しかし真の \(\ve{R}^{-1}\) も小さい値を取るので全体的な誤差は小さい。
- 真値とのRMSを見たら減少してることを確認。
i.i.d.雑音ではSAとほぼ変わらんくらいの性能。
- 頷ける。 \(\ve{R}^{-1}\) が単位行列の定数倍に近くなるから。
相関付き雑音ならちょっと改善。NGSAとSAの中間くらいか？
以下の条件下ではSharman-Morrison式NGSAの性能と近い。
- 入力雑音のパワー（分散）を大きくする（0dBとか）
- フィルタ係数の次元を落とす（2とか）
NGSAで求まってる \(\ve{R}^{-1}\) は何なの…
- 実験で見たとき、Sharman-Morrisonによる \(\ve{R}^{-1}\) もほぼ多重対角行列だったのを見ている
- i.i.d.雑音でSharman-Morrison式NGSAがよくなる現象、一体何なんだ。
  - スケールを揃えて見てみた。
    - 10サンプル後, 対角優位ではあるが、対角要素以外がおおきい。
    - 1000サンプル, 2000サンプル後もほぼ同様。対角要素以外は小さくなるものの小さくなりきっていない。
  - なんかモーメンタムみたいになってる？慣性が残って加速しているのか？まさか…
    - 曲率以外の概念が無いと、この収束加速は説明できない。
    - モーメンタムありえる。 更新式の横から勾配 \(\ve{v}\) を乗じると、
    \begin{align*} \ve{R}^{-1}[n+1] &= \frac{1}{\lambda} \left[ \ve{R}^{-1}[n] - \frac{\ve{R}^{-1}[n]\ve{x}[n]\left\{\ve{R}^{-1}\ve{x}[n]\right\}^{\mathsf{T}}}{\lambda + \ve{x}[n]^{\mathsf{T}} \ve{R}^{-1}[n] \ve{x}[n]} \right] \\ \implies \ve{R}^{-1}[n+1]\ve{v} &= \frac{1}{\lambda} \left[ \ve{R}^{-1}[n]\ve{v} - \frac{\ve{R}^{-1}[n]\ve{x}[n]\left\{\ve{R}^{-1}\ve{x}[n]\right\}^{\mathsf{T}}}{\lambda + \ve{x}[n]^{\mathsf{T}} \ve{R}^{-1}[n] \ve{x}[n]} \ve{v} \right] \end{align*}
    - だから、直前ステップの自然勾配 \(\ve{R}^{-1}[n]\ve{v}\) に対して修正を掛けながら更新している事がわかる。
    - 前に進捗報告でglasso版がほぼ同じような結果を出していたのは、共分散行列を \(\ve{R}[n+1] \leftarrow \lambda \ve{R}[n] + \ve{x}[n] \ve{x}[n]^{\mathsf{T}}\) と指数移動平均的に更新したからと思われる。両辺の逆を取ると、（1次）近似的には \(\ve{R}^{-1}[n]\) の成分と \((\ve{x}[n]\ve{x}[n]^{\mathsf{T}})^{-1}\) (擬似逆行列) の和に分けることができて、右から勾配を乗じると直前ステップの勾配成分が発生し、モーメンタムになる。
  - やはりモーメンタムの線が濃い。事前にSherman-Morrisonで \(\ve{R}^{-1}\) を求めて固定して自然勾配学習を行うと、NGSAの収束性能が悪化した。
    - しかし、固定した \(\ve{R}^{-1}\) を使ってモーメンタムを使っても性能が良くない。SAと同程度。何が違うんだ…？
  - アイデアとしては、行列を指数移動平均的に更新するやり方を採用することだろうか。

Related Posts: