ソースの整理が済んで、早速周波数解析を始めている

  • 階層ごとにピークを抑えている
    • 飛び出ている帯域を落とす感じ。逆に、既に落ちている帯域は持ち上げるような特性
  • ネットワーク前段で高次フィルタを入れると、後段のフィルタがほぼフラットになる
    • 前段が低次の場合は、後段のフィルタはピークを捉える
    • 前段のフィルタは大まかな包絡、後段は詳細なピークを捉える感じ

という感じで当然の結果は見えるのだが、これ以上が見えてこない。構造を変えても同じような感じ。ロスもほぼおなじに見える。

提案したモデルは、入力音声特徴をフラットにしていく過程だと思うが、それを評価する尺度として、spectral flatness (Wiener entropy) を使おうと思う。

  • 定義に揺れがあるが、 Stack Exchange によると振幅2乗値を使うのが信頼ある定義になる。
    • 音声特徴については こちら も参考になる。純音の場合は0, 白色雑音で1を取る尺度。
    • AR(1), AR(2) のSpectral flatnessは代数計算できるとのこと
  • パワースペクトル密度を使った Spectrum Entropy ( 丁寧な定義 )と何が違うんだろう…
    • 答えはstack exchage
    • Spectral Flatnessは一様分布の仮定が暗に入っている。
    • 信号自体の構造を入れるならば、Spectrum Entropyに軍配が上がる。

そして早速Spectral flatnessとSpectrum entropyを測ってみる

  • 後段になるにつれ次数を上げていく構成のほうがSpectral flatness大、かつSpectrum entropy大
    • これ要考察。パワースペクトル密度が平坦になっているのは等化に成功していると思えるけど、符号化するのにエントロピー高くていいの?
      • "等化に成功"はわかる。次数を上げていく構成の方がフィルタ特性が最後まで生きている(平坦ではない)から。
      • 最初に大雑把なスペクトラム包絡を削って、次第に細かい特徴を削っていく方式になっている。
      • なんかウェーブレット的な考察できん?残差成分に対してスケールを変えたフィルタを適用しているよな。
    • 少なくとも変換符号化では良くない状態。
    • 周波数軸で見ているから、実際の符号化対象とは違うと思っていい?ホワイトノイズが0近傍で揺れていたらそれは良いことになる??