いまデコード負荷が一番大きい部分は、再帰的Golomb-Riceの復号部分。これをもっと早くしたい。関数をインライン展開したり、4サンプル単位で処理してバッファセットをSIMD化したり、アルファ符号部分で加減算を減らしたり。

また、ブロックサイズの可変化もあり得ると思っている。4096でも1024, 2048で分割し得る。符号長の推定には次数選択で用いたやり方が通用する。ダイクストラ法で組み合わせが見つかるはず。