古いロスレス音声コーデックの調査/スパース適応フィルタ

歴史を雑にまとめると、1994年にShortenの論文が出てから、それよりも圧縮率の良いもの、圧縮速度（展開速度）が早いものが開発されて混沌に突入し上記のコーデックが現れた。その後、Monkey's Audio, WavPack, FLAC, LPAC（MPEG4-ALS）が生き残り、2000年以降はLa（更新停止）, TAK, TTA, ALAC（更新停止）, WMAL(Windows Media Audio Lossless), 2010年以降はOptimFROGが出現しているようだ。

気になるのは比較サイトの Rice Coding, AKA Rice Packing, Elias Gamma codes and other approaches である。Rice符号よりも効率の良いとされるPod符号の紹介がある。要観察。

スパース適応フィルタ

LPCの定式化をスパースにする試みは多くなされている。

Sparse Modeling for Lossless Audio Compression : Ghidoさん（OptimFROGの人）の試み
- 貪欲法によりスパース解を求めている。
スパース表現に基づく音声音響符号化 : NTTの試み
- 最小二乗解を求めるのではなくL1最小化に置き換えた定式化を行う。

でも、TTAがやっているような適応フィルタをスパース解に近づける手法はまだロスレス音声に対してやっていないように見える。スパースな解を目指してフィルタ係数を更新する適応フィルタはスパース適応フィルタ(Sparse Adaptive Filters)というようで、2000年代以降に研究が進んでいるようだ。

最も基本的な適応フィルタであるLMS(Least Mean Square)フィルタは名前の通り二乗誤差最小化に立脚している。スパース適応フィルタの主な用途はエコーキャンセル、ブラインド話者分離、複数話者特定ではあるが、やはり変換後の分布がスパースになるというのは大きい。

スパース適応フィルタの最近のサーベイ論文を流し読みした。スパース適応フィルタは、変数更新のときに1部の変数だけ更新する方法と、スパース最適化に従って更新するやり方の2つがあった。PNLMS(Proportionate NLMS), IPNLMS(Improved PNLMS)が後者の定式化で興味あり。引き続き見ていく。

Regularized Least-Mean-Square Algorithms には正則化を入れたLMSアルゴリズムの解説あり。LASSOにモチベーションを受けた最適化アルゴリズムが ZA-LMS や APWL1 として提案されている。

古めのロスレス音声コーデック

RKAU(RK Audio)

AudioZip

WavArc

WaveZip

LPAC/LTAC

Shorten（魚拓）

所感

スパース適応フィルタ

Related Posts: