「音声の高能率符号化」はやはり素晴らしい。今日に通じる基本事項がもれなく列挙されている。 逆に言うと、技術進歩がまったくないと言うことになるが。
今日は2段階適用したときの相関変化をよく見たい。相関はさらに減るだろうというのが大方の予測だが、
- 相関は減っていく傾向
- ただし、周期的な構造は縮んで表れてくる
- 実データ(ピアノ)でCDF(4,2)を2回まで適用すると低域の1次相関が0.5くらいになっている。これはプリエンファシスより優れている。
- 2回適用したとき、高域+低域のエントロピーが底を打っている印象を受ける。
- 高域のエントロピーは増加傾向。低次の高域成分は構造的だが、高次では取り除ききれない成分が出てくるので当然だと思うことに。
実験をやりながら漠然と思っていたが、CDF(4,2)が以下の意味で優れている。
- 高域はもちろん、低域成分の分散減少も多きい。
- 相関除去能力
- 負荷の低さ(シフト演算を多く使える)
- CDF(5,1), CDF(6,2)も同様の効果を与えているが、負荷はより高い印象。
画像ではCDF(2,2)がJPEG2000ロスレスに採用されているが、画像の方が低域成分が多いから有効に作用していると想像する。音声の方が高域周波数成分が多いからより高次のモーメントを必要としているように見受けられる。
上記の意味でCDF(4,2)を超えるフィルタ設計を行いたいな。 同時に、CDF(4,2)を使ったコーデック(ロッシー可)はどれくらい良いのか実装して確かめたい。AAD2とか?
例のBuildingの資料を読んでいる。DDウェーブレットは多項式補間、Donohoウェーブレットは平均値補間でDilation方程式の解になっているところはなんとなく読めた。しかし、具体的に設計するにはどうすればよいか書いてないように見受けられる。集中力が切れたので風呂入って「音声の高能率符号化」を流し読みする。