LPCの多段構成執筆(19)

パラメータ調節以外の残りのTODO:

音声データを10秒単位で切り刻む
- Rubyでパパパっとやって、オワリッ！やる気の問題。
- Rubyのwav-fileは波形データが本質的にバイナリだから切り出しを考えるのがだるかった。
- Pythonのに乗り換えた。scipy.io.wavfileが圧倒的に使いやすい。
窓掛けをまだやってない
- サイン窓で試したが、微妙。圧縮率が上がったり下がったり。パラメータ数を増やすと少しマシ
- ハン窓はもっと悪い傾向。
- 納得いってない。バグを疑っているが、単純なので失敗しようがない。。
- End-to-endでやるにあたり解析信号をいじるのは良くないこと？
- 長区間で窓をかけてしまうのは良くない？とおもって分割サンプル数で場合分けしたが、やはり微妙。窓掛けしない場合に漸近しているように見える。
- 窓掛けは取り下げ。
Burg法の性能が悪い原因の調査
- やはり微妙。ピアノだけのような特性がはっきりした音源は少し良い傾向。
- 共分散を使うのをやめて、定義式どおり（Burg Recursion）にやってみる
- 同様の傾向（微妙に上がったり下がったりするだけ）。また、Burg Recursionの方が早い。なぜなら自己共分散の計算無しでやれるから。（前向き残差と後ろ向き残差を持たなければならないのでメモリ効率は悪い）
- 理由がわからない。自分の前向き・後ろ向き絶対値残差も良くないことを踏まえると、ネットワークが前向き残差を伝播していくのが効いている？
逆誤差伝播学習をやるかどうかはエンコードパラメータに入れ、コマンドラインから選ぶようにする
- やった。OK。

Related Posts: