正則化と多段構成の謎を追っている。再度 Ill-Conditioning and Bandwidth Expansion in Linear Prediction of Speech を見ていたら、プリエンファシス(高域強調)も条件数向上に寄与している(音声信号の高域のパワーが0になるのを阻止)のが書いてあった。

多段にすることでプリエンファシスのような操作になっているのだろうか?そこで、以前も試した気がするけど、LINNENetworkではなく単純なLPCの連結でどうなるか見ている。

正則化がない場合は、1層が最も良い傾向。正則化を入れると多層のほうがよい傾向。

  • LINNENetworkと同一の傾向が見られた。しかし、1層構成が落ちただけにも見える
  • jazzとclassicは1層構成のときより高いflatness。これらの音源を見てみると単音で鳴っていた。(特定の周波数に成分が集中。popularやrightは全帯域で鳴っている。)
    • シンプルな正弦波に近い音源では条件数が高くなるから影響を大きく受ける?

窓サイズを変えてみる。窓が小さいと単一の周波数成分が入りやすくなって正則化の効果が大きくなる可能性がある。逆に大きいと多くの周波数成分が入るために正則化の効果が薄れる可能性があり、1層構成で十分、という結論になると予測。

LINNEは分割を行うから、各分割で周波数分解能の高い解析が起こり、そして条件数が悪くなっている。そこで正則化が効いている可能性を推したい。

窓サイズを大きくすると正則化が強く効く(全パワースペクトルが持ち上がるから)ので、1層における解析で大きな性能悪化が出ると考えている。しかし本当だろうか。もしかしたら影響度は変わらないのかもしれない。Ridge正則化を入れたとき、フレームサイズに応じてパワースペクトルがどのように変化するかは見るべき。

  • もしフレームサイズに応じて正則化の効果が変わるなら、フレームサイズに応じて正則化パラメータを変えるべき。