マージン幅とL2正則化のグリッドサーチやってた。結論、ぐちゃぐちゃしてわからん。。。

目線を変えて、「符号量が改善したとき、入力や残差はどうなっているか」を調べている。

  • L-D法で初期値設定しないと(全データがマージンに包まれてしまい)係数が0になってしまうケースがある。
  • L-D法で初期値設定して、かつマージンを大きく取ると勾配が消えるので係数がL-D法のままになる。
  • マージンを動かすことで、L-D法と最小二乗解をグラデーションする。0なら最小二乗解、残差最大絶対値ならL-D法
  • エントロピーとRGR符号長、どっちで評価すべきか…
    • エントロピーの方が一般に合意してもらえそうだけど、現実問題なのはRGR符号量。
    • \(\epsilon\) -エントロピーの平均的な曲線を見ると、カテゴリ依存で \(\epsilon=0\) でも悪化する場合があった。
      • 平均的な曲線、滑らかに見える。これで議論できそう
    • 再帰的ゴロムライス符号長の場合は \(\epsilon=0\) で良い傾向。 \(\epsilon\) を増やしていくとL-Dの符号量に一致していく。
      • 最小二乗解とL-Dの解を \(\epsilon\) で調節していると見える。その間はどんな変化をするのか?
        • 係数のインパルス応答を表示したり、freqzとかでフィルタ特性を並べてみるとか。これやってみるか。良い場合のフィルタの癖が見えるかもしれない。
          • やって観察中。インパルス応答に関しては、最小二乗解の方が係数のノルムが小さい印象。
  • L-D法(+ \(\epsilon=0\) )と比べていつ良くなるのかを眺めている。
    • 残差ヒストグラムを見つめると、良い場合は外れ値が少なそうな印象。(残差の外れ値がより0に向かっているように見える)
    • 残差L2ノルムを見てみると低い傾向(傾向であって外れる時もある)。しかし尖度は法則見えず。
    • 残差スペクトルを見ると、高域の情報がよりよく潰せている印象。(数サンプル間の相関をしっかり計算しているからかも。L-Dは弱定常性によりそれが失われる)
  • 外れ値が少ないのが目につく。これでかなり符号長が伸びている。対策するとよさそう。(SLAみたく、商がXX以上ならばガンマ符号とか)
  • 一般の分布に対する再帰的Golomb-Rice符号長、計算しておいた方がいいな(メモ)。凸性の条件とか導けそう。(もし無記憶が条件だとすると、幾何分布に限られるが…)