\begin{equation*} \newcommand\ve[1]{\boldsymbol{#1}} \newcommand\mean[2]{\mathrm{E}_{#1} \left[ #2 \right]} \end{equation*}

前日見ていた \(\ve{R}^{-1}\) のAR(1)仮定による近似を実験しているが、渋いな〜渋い。

  • 真の(共分散行列を計算してから逆行列を計算した) \(\ve{R}^{-1}\) とはかなり類似。

    • 当然3重対角成分以外は0にしているので誤差がある。しかし真の \(\ve{R}^{-1}\) も小さい値を取るので全体的な誤差は小さい。
    • 真値とのRMSを見たら減少してることを確認。
  • i.i.d.雑音ではSAとほぼ変わらんくらいの性能。

    • 頷ける。 \(\ve{R}^{-1}\) が単位行列の定数倍に近くなるから。
  • 相関付き雑音ならちょっと改善。NGSAとSAの中間くらいか?

  • 以下の条件下ではSharman-Morrison式NGSAの性能と近い。

    • 入力雑音のパワー(分散)を大きくする(0dBとか)
    • フィルタ係数の次元を落とす(2とか)
  • NGSAで求まってる \(\ve{R}^{-1}\) は何なの…

    • 実験で見たとき、Sharman-Morrisonによる \(\ve{R}^{-1}\) もほぼ多重対角行列だったのを見ている

    • i.i.d.雑音でSharman-Morrison式NGSAがよくなる現象、一体何なんだ。

      • スケールを揃えて見てみた。

        • 10サンプル後, 対角優位ではあるが、対角要素以外がおおきい。
        • 1000サンプル, 2000サンプル後もほぼ同様。対角要素以外は小さくなるものの小さくなりきっていない。
      • なんかモーメンタムみたいになってる?慣性が残って加速しているのか?まさか…

        • 曲率以外の概念が無いと、この収束加速は説明できない。
        • モーメンタムありえる。 更新式の横から勾配 \(\ve{v}\) を乗じると、
        \begin{align*} \ve{R}^{-1}[n+1] &= \frac{1}{\lambda} \left[ \ve{R}^{-1}[n] - \frac{\ve{R}^{-1}[n]\ve{x}[n]\left\{\ve{R}^{-1}\ve{x}[n]\right\}^{\mathsf{T}}}{\lambda + \ve{x}[n]^{\mathsf{T}} \ve{R}^{-1}[n] \ve{x}[n]} \right] \\ \implies \ve{R}^{-1}[n+1]\ve{v} &= \frac{1}{\lambda} \left[ \ve{R}^{-1}[n]\ve{v} - \frac{\ve{R}^{-1}[n]\ve{x}[n]\left\{\ve{R}^{-1}\ve{x}[n]\right\}^{\mathsf{T}}}{\lambda + \ve{x}[n]^{\mathsf{T}} \ve{R}^{-1}[n] \ve{x}[n]} \ve{v} \right] \end{align*}
        • だから、直前ステップの自然勾配 \(\ve{R}^{-1}[n]\ve{v}\) に対して修正を掛けながら更新している事がわかる。
        • 前に進捗報告でglasso版がほぼ同じような結果を出していたのは、共分散行列を \(\ve{R}[n+1] \leftarrow \lambda \ve{R}[n] + \ve{x}[n] \ve{x}[n]^{\mathsf{T}}\) と指数移動平均的に更新したからと思われる。両辺の逆を取ると、(1次)近似的には \(\ve{R}^{-1}[n]\) の成分と \((\ve{x}[n]\ve{x}[n]^{\mathsf{T}})^{-1}\) (擬似逆行列) の和に分けることができて、右から勾配を乗じると直前ステップの勾配成分が発生し、モーメンタムになる。
      • やはりモーメンタムの線が濃い。事前にSherman-Morrisonで \(\ve{R}^{-1}\) を求めて固定して自然勾配学習を行うと、NGSAの収束性能が悪化した。

        • しかし、固定した \(\ve{R}^{-1}\) を使ってモーメンタムを使っても性能が良くない。SAと同程度。何が違うんだ…?
      • アイデアとしては、行列を指数移動平均的に更新するやり方を採用することだろうか。