\begin{equation*} \newcommand\innerp[2]{\langle #1, #2 \rangle} \newcommand\ve[1]{\boldsymbol{#1}} \newcommand\parfrac[2]{\frac{\partial #1}{\partial #2}} \end{equation*}

早速既存研究が無いか見ている。二乗誤差最小化のLMSでもヘッセ行列の逆行列の計算負荷が高いから使わん、という論調がほとんど。Signed-LMSについては今の所、微分してるところも見てない。

行列 \(\ve{X}\ve{X}^{\mathsf{T}}\) が正則にならない件について、これ正則化すればいいんじゃねと思い立つ。要は \(\lambda\) を正則化パラメータとして \(\ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I}\) に対して逆行列を求めていく。

  • 多分、係数側に正則項を追加することになるはず。\(\min \mathrm{E}[|\varepsilon(n)|] + \lambda ||\ve{h}||_{2}\) のような定式化か?
  • それでも逆行列 \((\ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I})^{-1}\) を求めるのは骨が折れそう。そこで、自然勾配学習で使っていた適応的自然勾配学習法( Singularities Affect Dynamics of Learning in Neuromanifolds より)が使えそう。具体的には、次の式で自然勾配を適応的に求めていく。
\begin{equation*} \ve{G}_{t+1}^{-1} = (1 + \varepsilon_{t}) \ve{G}_{t}^{-1} - \varepsilon_{t} \ve{G}_{t}^{-1} \parfrac{J(\ve{h})}{\ve{h}} \left( \ve{G}_{t}^{-1} \parfrac{J(\ve{h})}{\ve{h}} \right)^{\mathsf{T}} \end{equation*}

ここで \(\varepsilon_{t}\) は小さな定数。『情報幾何の新展開』では、カルマンフィルタ由来らしい。うーん、もう試してみたいな。

(念の為) \(\ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I}\) が正則行列になる理由

すぐに思い出せなくてヒヤッとしたのでここで示しておく。\(\ve{X}\ve{X}^{\mathsf{T}}\) は対称行列だから、直交行列 \(\ve{P}\)\(\ve{P}^{-1} = \ve{P}^{\mathsf{T}}\) )と固有値を並べた対角行列 \(\ve{\Lambda}\) を用いて、\(\ve{X}\ve{X}^{\mathsf{T}} = \ve{P}^{\mathsf{T}} \ve{\Lambda} \ve{P}\) と対角化できる。よって、\(\lambda > 0\) なる定数を用いた時、

\begin{align*} \ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I} &= \ve{P}^{\mathsf{T}} \ve{\Lambda} \ve{P} + \lambda \ve{P}^{\mathsf{T}} \ve{P} \\ &= \ve{P}^{\mathsf{T}} \ve{\Lambda} \ve{P} + \ve{P}^{\mathsf{T}} \lambda \ve{I} \ve{P} \\ &= \ve{P}^{\mathsf{T}} (\ve{\Lambda} + \lambda \ve{I}) \ve{P} \end{align*}

また、任意のベクトル \(\ve{v}\) を使った時、

\begin{align*} \ve{v}^{\mathsf{T}} \ve{X} \ve{X}^{\mathsf{T}} \ve{v} &= (\ve{X}^{\mathsf{T}} \ve{v})^{\mathsf{T}} \ve{X}^{\mathsf{T}} \ve{v} = ||\ve{X}^{\mathsf{T}} \ve{v} ||_{2}^{2} \\ \ve{v}^{\mathsf{T}} \ve{X} \ve{X}^{\mathsf{T}} \ve{v} &= \ve{v}^{\mathsf{T}} \ve{P}^{\mathsf{T}} \ve{\Lambda} \ve{P} \ve{v} = \sum_{i}^{N} \ve{\Lambda}_{ii} (\ve{Pv})_{i}^{2} \\ \Rightarrow ||\ve{X}^{\mathsf{T}} \ve{v} ||_{2}^{2} &= \sum_{i}^{N} \ve{\Lambda}_{ii} (\ve{Pv})_{i}^{2} \geq 0 \end{align*}

の関係式が成り立つ。最後の不等式が成り立つには、全ての \(i\) に対して \(\ve{\Lambda}_{ii} \geq 0\) でなければならない。よって \(\ve{XX}^{\mathsf{T}}\) の固有値は全て非負。

ここで \(\ve{P}^{\mathsf{T}} (\ve{\Lambda} + \lambda \ve{I}) \ve{P}\) に注目すると、全ての固有値に \(\lambda\) が足されていることが分かる。\(\lambda\) は正だから、 \(\ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I}\) の固有値は全て正になり正定値行列となる。正定値行列は正則だから、 \(\ve{X}\ve{X}^{\mathsf{T}} + \lambda \ve{I}\) は正則行列。

フィッシャー情報行列とヘッセ行列と分散行列の絡みについて

以下の記事が非常にわかりやすい。

結論、ラプラス分布に従う残差を仮定した最尤推定において、観測分散行列はフィッシャー情報行列に一致し、その逆行列は自然勾配に該当するはず。つうかニュートン法の特殊ケースに見えるがどうなんでしょ。フィッシャー情報行列がヘッセ行列に見えるんだが、定義通り(対数尤度のヘッセ行列)そうだよな。指数族の最尤推定をニュートン法で解こうとしたら全部自然勾配学習法にならね?

TODO

評価のことを考えて行きたい。固定した信号(答えが分かっている信号。乱数固定。)を使ったときに、誤差平面と勾配はどうなっている?フィルタの次元は2ぐらいにして、フィルタを固定して各統計量がどうなっているかプロットする。まずは絶対値残差と勾配の観察が重要に思える(もちろん、2次の最小化ケースも重要)。

  • 評価がまとまったら結果共有に入りたい。
  • OMPを使う。
  • メッセージパッシング使えない?
    • 何らかの確率モデル化をせよ、というふうに受け取った。
    • AMP, Survay-Propagation(三村さん、樺島さん)がありえる。
    • → AMP, Survay-Propagationについて調査すべし。
  • いろんな論文で自然勾配をどうやって定義しているか要観察。