戦略会議中2021(7)

改めて音声符号化にウェーブレットを使うことの是非を見る意図で、「ウェーブレットとサブバンド符号化」をつまんでいる。概要を述べているだけなので厳しい。見つかった文献を漁る。高音質と中音質に分けていたので分類に従って列挙。

高音質

High-Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications AES会員でないと読めないっぽい。
A MUSICAM source codec for digital audio broadcasting and storage MPEG-Iの基礎になっている考え方。フィルタバンクを使用。知覚符号化そのものか？
Sum-difference stereo transform coding これもフィルタバンク+量子化の流れ。
Low Bit Rate Transparent Audio Compression using Adapted Wavelets 適応的（辞書的）にウェーブレットを選んで冗長性を減らす。ウェーブレットパケットの構成も動的に決めている？これってICASSPのやつと同等に見える。腰を入れて読むべきかも。
High quality audio bit-rate reduction system family for different applications MUSICAMの解説論文。より概要に寄った感じ。
AC-3: Flexible Perceptual Coding for Audio Transmission and Storage ドルビーが提案しているっぽいコーデック。フィルタバンク+知覚符号化。
Acoustic Signal Compression with Wavelet Packets コスト関数の最適化に基づいてウェーブレット基底を選択する手法。ちゃんと読めず。そういえばリフィティング使ってないけど、リフィティングが現れる前の話？

Digital Coding of Speech in Sub-bands ノキアベルラボの人。だいぶクラシカルだけど、基本が詰まっている。小さめのサブバンドに分割して符号化。
Application of quadrature mirror filters to split band voice coding schemes これもフィルタバンク(QMF)で分割して、フィルタ出力を量子化して送るというもの。単純極まるけど基本的でわかりやすい。
16kbps Real time QMF sub-band coding implementation これもQMF+線形量子化。自分も試してみるか？問題点はQMFの設計だけに思える。
G.722: a new CCITT coding standard for digital transmission of wideband audio signals QMF出力に対して、低域と高域でそれぞれADPCM。これは素晴らしい。ピンときたし、ウェーブレット変換領域での適応フィルタに一致していると思う。これも読みたい。