SGD(確率的最急勾配法)の収束レートが少し気になったのちょっと観察。

もっと初等的な説明があると良いなあ。確率1で極値に収束したような気がしている…。

\begin{equation*} \newcommand\innerp[2]{\langle #1, #2 \rangle} \newcommand\ve[1]{\boldsymbol{#1}} \newcommand\parfrac[2]{\frac{\partial #1}{\partial #2}} \end{equation*}

適応ステップサイズの分母の \(\ve{x}(n)^{\mathsf{T}}\ve{R}^{-1}\ve{x}(n)\) がめちゃくちゃ気になって止まる。学習理論に「例えばパラメタ空間上のベクトル \(x(\theta)\) の内積 \(\innerp{x}{x}\) は、座標変換により不変な量として定義するならば \(x^{\prime}(g_{ij}(\theta))^{-1}x\) となる。」(なるべく原文ママ)と言ってて、まさにこの不変な量を指していると思っている。

これどういうこと?と思って探し始めたら沼。相対性理論にぶつかる。わかりやすかったのは下くらいか?

情報幾何の観点からすると、幾何的に微小線素は座標変換によって値を全く変えないことが重要らしい。\(\ve{x}(n)\) をパラメタ空間上のベクトルと捉えると、\(\ve{R}^{-1}\) はパラメタ空間上の計量(元の空間の計量は:math:ve{R} )を定め、\(\ve{x}(n)^{\mathsf{T}}\ve{R}^{-1}\ve{x}(n)\) はパラメタ空間上のノルムを計算していて、ノルムだから不変でしょっていう議論になる?まだピンとこない。

あと、AdaptiveFilterの本見てNLMSの議論を色々見てる。