shithub: libvpx

--- a/vpx_dsp/x86/avg_ssse3_x86_64.asm

+++ b/vpx_dsp/x86/avg_ssse3_x86_64.asm

@@ -12,38 +12,47 @@

 %include "third_party/x86inc/x86inc.asm"

-; This file provides SSSE3 version of the hadamard transformation. Part

-; of the macro definitions are originally derived from the ffmpeg project.

-; The current version applies to x86 64-bit only.

 SECTION .text

 %if ARCH_X86_64

 ; matrix transpose

-%macro INTERLEAVE_2X 4

-  punpckh%1          m%4, m%2, m%3

-  punpckl%1          m%2, m%3

-  SWAP               %3,  %4

-%endmacro

+%macro TRANSPOSE8X8 10

+  ; stage 1

+  punpcklwd  m%9, m%1, m%2

+  punpcklwd  m%10, m%3, m%4

+  punpckhwd  m%1, m%2

+  punpckhwd  m%3, m%4

-%macro TRANSPOSE8X8 9

-  INTERLEAVE_2X  wd, %1, %2, %9

-  INTERLEAVE_2X  wd, %3, %4, %9

-  INTERLEAVE_2X  wd, %5, %6, %9

-  INTERLEAVE_2X  wd, %7, %8, %9

+  punpcklwd  m%2, m%5, m%6

+  punpcklwd  m%4, m%7, m%8

+  punpckhwd  m%5, m%6

+  punpckhwd  m%7, m%8

-  INTERLEAVE_2X  dq, %1, %3, %9

-  INTERLEAVE_2X  dq, %2, %4, %9

-  INTERLEAVE_2X  dq, %5, %7, %9

-  INTERLEAVE_2X  dq, %6, %8, %9

+  ; stage 2

+  punpckldq  m%6, m%9, m%10

+  punpckldq  m%8, m%1, m%3

+  punpckhdq  m%9, m%10

+  punpckhdq  m%1, m%3

-  INTERLEAVE_2X  qdq, %1, %5, %9

-  INTERLEAVE_2X  qdq, %3, %7, %9

-  INTERLEAVE_2X  qdq, %2, %6, %9

-  INTERLEAVE_2X  qdq, %4, %8, %9

+  punpckldq  m%10, m%2, m%4

+  punpckldq  m%3, m%5, m%7

+  punpckhdq  m%2, m%4

+  punpckhdq  m%5, m%7

-  SWAP  %2, %5

-  SWAP  %4, %7

+  ; stage 3

+  punpckhqdq  m%4, m%9, m%2  ; out3

+  punpcklqdq  m%9, m%2       ; out2

+  punpcklqdq  m%7, m%1, m%5  ; out6

+  punpckhqdq  m%1, m%5       ; out7

+  punpckhqdq  m%2, m%6, m%10 ; out1

+  punpcklqdq  m%6, m%10      ; out0

+  punpcklqdq  m%5, m%8, m%3  ; out4

+  punpckhqdq  m%8, m%3       ; out5

+  SWAP %6, %1

+  SWAP %3, %9

+  SWAP %8, %6

 %endmacro

 %macro HMD8_1D 0

@@ -88,7 +97,7 @@

 %endmacro

 INIT_XMM ssse3

-cglobal hadamard_8x8, 3, 5, 10, input, stride, output

+cglobal hadamard_8x8, 3, 5, 11, input, stride, output

   lea                r3, [2 * strideq]

   lea                r4, [4 * strideq]

@@ -105,7 +114,7 @@

   mova               m7, [inputq + r3]

   HMD8_1D

-  TRANSPOSE8X8 0, 1, 2, 3, 4, 5, 6, 7, 9

+  TRANSPOSE8X8 0, 1, 2, 3, 4, 5, 6, 7, 9, 10

   HMD8_1D

   mova              [outputq +   0], m0