それこそAICやFPE(Final Prediction Error, 最終予測残差)で理論的な議論ができそうな気がしてきた。モデル選択に近い話。

FPEの文献が少ない。

しかしなかなか進まない。FPEやAICでは最尤推定量として分散が出るけど、それは音源依存で大きくなったり小さくなるから一般的な議論ができない。

実験に立ち戻って考えると、分割選択なし(各層1分割)だと層を深くしてもロス, flatnessは良くならない。 構造選択がロスの改善に寄与していることは間違いない。また、論理的にロスが小さくなる構造を選んでいるから良くなるのはわかる。 しかし、それが1層構成よりも良くなる理由がわからない。直感的には構造選択が多い(2層では2回)というのがあるけど、定量的な議論に持っていけない。