改めて音声符号化にウェーブレットを使うことの是非を見る意図で、「ウェーブレットとサブバンド符号化」をつまんでいる。 概要を述べているだけなので厳しい。見つかった文献を漁る。高音質と中音質に分けていたので分類に従って列挙。
高音質
- High-Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications AES会員でないと読めないっぽい。
- A MUSICAM source codec for digital audio broadcasting and storage MPEG-Iの基礎になっている考え方。フィルタバンクを使用。知覚符号化そのものか?
- Sum-difference stereo transform coding これもフィルタバンク+量子化の流れ。
- Low Bit Rate Transparent Audio Compression using Adapted Wavelets 適応的(辞書的)にウェーブレットを選んで冗長性を減らす。ウェーブレットパケットの構成も動的に決めている?これってICASSPのやつと同等に見える。腰を入れて読むべきかも。
- High quality audio bit-rate reduction system family for different applications MUSICAMの解説論文。より概要に寄った感じ。
- AC-3: Flexible Perceptual Coding for Audio Transmission and Storage ドルビーが提案しているっぽいコーデック。フィルタバンク+知覚符号化。
- Acoustic Signal Compression with Wavelet Packets コスト関数の最適化に基づいてウェーブレット基底を選択する手法。ちゃんと読めず。そういえばリフィティング使ってないけど、リフィティングが現れる前の話?
中音質
- Digital Coding of Speech in Sub-bands ノキアベルラボの人。だいぶクラシカルだけど、基本が詰まっている。小さめのサブバンドに分割して符号化。
- Application of quadrature mirror filters to split band voice coding schemes これもフィルタバンク(QMF)で分割して、フィルタ出力を量子化して送るというもの。単純極まるけど基本的でわかりやすい。
- 16kbps Real time QMF sub-band coding implementation これもQMF+線形量子化。自分も試してみるか?問題点はQMFの設計だけに思える。
- G.722: a new CCITT coding standard for digital transmission of wideband audio signals QMF出力に対して、低域と高域でそれぞれADPCM。これは素晴らしい。ピンときたし、ウェーブレット変換領域での適応フィルタに一致していると思う。これも読みたい。