総パラメータ数を横軸、L1損失やspectral flatness(Wiener entropy)を縦軸に計算して、なぜ多層構成がいいのかを見ている。

  • パラメータの割り振りは全ての層で等しくなるようにした。
  • 補助関数法とLevinson-Durbin法でグラフの概形はほぼ変わらなかった。(補助関数法、とても遅い)
  • 音源は聖者の行進先頭4秒Lch, アルファベット読み上げLch, 0hz-2500Hzを2秒かけて線形に変化させるチャープ。

結果の図は以下(結果は補助関数法によるものだが、L-Dでもほぼ変わらず):

L1ロス

聖者の行進に対するロス比較 アルファベット読み上げに対するロス比較 チャープに対するロス比較

spectral flatness

聖者の行進に対するspectral flatness比較 アルファベット読み上げに対するロス比較 チャープに対するロス比較

考察

  • ロスは1層構成が一番よいが、ほぼ2層構成と同等。パラメータ数を増やすと漸近していく。
  • Spectral flatnessはパラメータ数を増やすと2,4,8層構成が良くなる。

Spectral flatnessってそもそも何よ、というところ。今回の場合は、残差がどれくらい白色雑音に近いかを測る尺度以上のことは出てこない・・・

A spectral-flatness measure for studying ...の論文で条件数が改善するという記述を見て、適応フィルタを入れるのがよさそうと思って、Sign-Sign Algotrithm(SSFilter)を突っ込んだら軒並み改善の傾向。しかし、負荷上昇も間違いないのでオプションにするべきかも。

  • RWCで実験してみたら、圧縮率は微悪化かつデコード速度は0.3から0.38くらいまで悪化。
  • 負荷に対するゲインがないのでやめる。

Hacker newsで上がっていたwikipediaのLoudness warの記事が面白い。売れた楽曲の音圧は単調に上がっている。一方で歪みまくっている。 参考文献もパット見面白いこと書いてあるので時間があれば腰を入れて読みたい。