量子化誤差の揺り戻しの末、やはり係数L2ノルムは小さいほうがよいのではということで正則化が良さそうだと思っている。が、直後にそれでも量子化誤差は小さいということに気づく。すでに議論済み・実験確認済みのことであった。
そういえば(突飛で申し訳ない)、プリエンファシスを入れたLINNENetowrkの実験をやっていなかったのでやっている。傾向として、
- フレームサイズが小さいと(〜4096)、1層構成の方が性能が良い
- 今まで2層構成の性能が良かったのは、1層目がプリエンファシスなどの条件数を下げる処理が入っているののが大きいという示唆。
- フレームサイズが大きくなると2層以降のほうが高い性能
- 分割がうまく働いている?
- それなら最初から細かくフレームサイズをとればいいだけでは…?
predictive gainの式から見れるように、条件数と予測精度がどこかでトレードオフになっている。たとえばjazzとclassicは解析区間内で単純な正弦波の和になっていることが多い。従って条件数が悪く、正則化もプリエンファシスもしないと予測精度が悪い。しかしプリエンファシスで条件数を下げると予測によって分散を大いに減らせる。
しかしLINNEはプリエンファシスを2段かまして、さらに3段で動かしている。。。何故良いのか、尚更わからない。
非常に怖いのだが、フレームサイズを落として1層構成で勝負したほうが性能が良いかもしれない。フレームサイズを大きく取ることでフレーム数が減ってパラメータ効率が減るのが効いている用に思える。
- 4096フレーム、かつ1層構成で試してみたが、大幅に悪化。謎。