\begin{equation*} \newcommand\ve[1]{\boldsymbol{#1}} \newcommand\tr[1]{\mathrm{tr}\left[ #1 \right]} \newcommand\det[1]{\mathrm{det}\left[ #1 \right]} \newcommand\dfrac[2]{\frac{\mathrm{d} #1}{\mathrm{d} #2}} \end{equation*}

条件数の理論的考察に突っ込み始めた。『音声の線形予測』で、自己相関関数の固有値の算術平均と幾何平均の比

\begin{equation*} \frac{\det{\ve{R}}^{\frac{1}{L}}}{\frac{1}{L} \tr{\ve{R}}} \end{equation*}

\(L \to \infty\) でspetrum flatnessに収束することが言われていた(Sgezoの定理からいける。証明は省く)。これは条件数を示唆する尺度になっている( 分子の行列式が \(0\) のとき0, 固有値が全て同一で1)。

spectrum flatnessとの同一視から、上式の逆数は予測利得の近似を与えている。正則化パラメータ \(\mu\) との関連を見るため、正則化込みの利得近似を \(G(\mu)\) とおく:

\begin{equation*} G(\mu) := \frac{\frac{1}{L} \tr{\ve{R} + \mu \ve{I}}}{\det{\ve{R} + \mu \ve{I}}^{\frac{1}{L}}} \end{equation*}

\(G(\mu)\) の最大化を考える。対数とその \(\mu\) による微分は、

\begin{align*} \log G(\mu) &= \log\left[ \frac{1}{L} \sum_{i = 1}^{L} (\lambda_{i} + \mu) \right] - \frac{1}{L} \sum_{i = 1}^{L} \log(\lambda_{i} + \mu) \\ \dfrac{\log G(\mu)}{\mu} &= \frac{1}{\frac{1}{L} \sum_{i = 1}^{L} (\lambda_{i} + \mu)} - \frac{1}{L} \sum_{i = 1}^{L} \frac{1}{\lambda_{i} + \mu} \\ &= \left\{ \frac{1}{L} \sum_{i = 1}^{L} (\lambda_{i} + \mu) \right\}^{-1} - \left\{ \frac{L}{\sum_{i = 1}^{L} \frac{1}{\lambda_{i} + \mu}} \right\}^{-1} \\ &\leq 0 \end{align*}

最後の不等式は、\(\text{算術平均} \geq \text{調和平均}\) から出てくる。 同時に \(\dfrac{\log G(\mu)}{\mu} = 0\) となるのは固有値が全て等しいとき、かつそのときに限る。このことから、全ての \(\mu > 0\) で予測利得は単調減少を続ける。

従って、正則化パラメータ \(\mu\) はどの値に設定しても予測による利得は得られない事がわかる。量子化誤差に関する考察も踏まえて、ここまでは残差分散の減少は説明できない。

他のアプローチから、残差分散減少の原因を追うことを考える。