昨日出てきた結果がどういうことなのか考えている。窓サイズが2048など小さいと、局所的に定常とみなせるような解析になり、周波数成分が明確に現れる。結果条件数が悪化してしまう。そこで正則化がうまく効く、というストーリーを考えている。また、窓サイズに応じて適切な正則化定数は変わってきそう。
しかし、多層にしたときに正則化がなぜうまく効くのか(単層と違って性能が落ちていかないのか)、そこがさっぱり。
パワースペクトルを弄っているのが効いているのか?と想像して板倉-斎藤擬距離を探る。
そうしたら『音声の線形予測』が参照されていた。早速読んでみるがあまり有益な示唆は得られず…。
と思ってパラパラめくっていたら、条件数についての記述が目に止まった。spectral flatnessは条件数と関連があることが示されていた(自己相関関数の固有値を使っても論じれる)。0に近い(有声音)だと悪条件になる。
もしかして精度落ちが起きているのだろうか、確かめるには1次のフィルタをかましてやればいい。→やってみたところ、単層が最もよい性能を叩き出すようになった。つまり悪条件であることが効いていたことになる。
- 精度落ち以外で考えられるのは、『音声の線形予測』で言っていた、低いパワーを持つ帯域は小さい重みがついてマッチングする、という記述。低いパワーの帯域は相対的に無視されることを示唆している。
プリエンファシスに加え、正則化を入れたときの単層が最も良い性能を出している。同時に、階層構成にしたときによくなる理由がわからなくなった。。。プリエンファシスを入れたら単層で良いのでは?という気がしている。
プロットグラフが多くなってきた。もう少しグラフに線を増やしてもいいかも(正則化パラメータを変えたときも並べて書いて良さそう。今はページ送りで見ている)。あす(今日)もう一度冷静に考察しよう。