畳み込みの高速化やって終わろうと思う。寝る前に思いついたリングバッファ導入を試したが、遅くなった。 リングバッファは適応フィルタのようなバッファをもう一度使う場合に有利になるのかもしれない。
SSE4.1を入れている。係数乗算を4並列にしたのではインパクト小(それどころか遅い)。AVXも試すが8並列乗算のケースが少ない(係数次数で8以上のケースが少ないと思われる)。サンプル方向への並列化が重要。
畳み込みの高速化やって終わろうと思う。寝る前に思いついたリングバッファ導入を試したが、遅くなった。 リングバッファは適応フィルタのようなバッファをもう一度使う場合に有利になるのかもしれない。
SSE4.1を入れている。係数乗算を4並列にしたのではインパクト小(それどころか遅い)。AVXも試すが8並列乗算のケースが少ない(係数次数で8以上のケースが少ないと思われる)。サンプル方向への並列化が重要。