論文をざっと読んだ。まだ腰を落ち着けるべきではなさそう。
- Wavelet Transform Domain Adaptive FIR Filtering 「ウェーブレット変換とその応用」で触れられていたもう一つの論文。
- ウェーブレット変換域でLMS/Newtonを使う。うまいことコレスキー分解して、スパース推定を使って計算効率化を図る。
- 当然単純な変換域でのLMSよりは性能が良い。
- 変換域で自己相関行列を見ており、しかもその逆はスパースであると言っている。
- 自分の発想を突っ込めそうに思える。が、変換域でAR過程になるのだろうか?
- Low Bit Rate Transparent Audio Compression using Adapted Wavelets
- 最大消失モーメントを持つウェーブレットはタップ数に応じて有限個しか無い(ドベシィ。例えばタップ数40なら最大で20次までのモーメントを消せるが、そのウェーブレットの組み合わせは1024通りしか無いとのこと。10bitで送れる。)より、その中から適切なウェーブレットを適応的に選ぶ
- この事実は気になる。ウェーブレット10講に書いてあるかな。
- 選択尺度は等誤差面の議論から割と自然に出てくる。しかしその選択は総当りっぽい。デコード負荷は低いから許されるか…
- ほかにも、LPCは人間の声道管モデルベースだから音楽などでの無声音(ピッチがない音)は厳しいという指摘があった。確かに。
- 最大消失モーメントを持つウェーブレットはタップ数に応じて有限個しか無い(ドベシィ。例えばタップ数40なら最大で20次までのモーメントを消せるが、そのウェーブレットの組み合わせは1024通りしか無いとのこと。10bitで送れる。)より、その中から適切なウェーブレットを適応的に選ぶ
- G.722: a new CCITT coding standard for digital transmission of wideband audio signals
- QMF(20タップ)で高域と低域に分け、それぞれの帯域でG.711のADPCMを使う。高域は低いビットを割り当てる。
- G721.などと比べ音質がよくなったことを報告しとる。そうだよなあという感じ。
予め用意してあるウェーブレットから選ぶというのはどうなんだろう…個人的には適応的リフィティングを検討してみたい。