shithub: libvpx

--- a/test/lpf_8_test.cc

+++ b/test/lpf_8_test.cc

@@ -19,7 +19,7 @@

 #include "test/util.h"

 #include "./vpx_config.h"

-#include "./vp9_rtcd.h"

+#include "./vpx_dsp_rtcd.h"

 #include "vp9/common/vp9_entropy.h"

 #include "vp9/common/vp9_loopfilter.h"

 #include "vpx/vpx_integer.h"

@@ -665,11 +665,11 @@

                    &wrapper_vertical_16_c, 8, 1),

         make_tuple(&wrapper_vertical_16_dual_neon,

                    &wrapper_vertical_16_dual_c, 8, 1),

+#endif  // HAVE_NEON_ASM

         make_tuple(&vp9_lpf_horizontal_8_neon,

                    &vp9_lpf_horizontal_8_c, 8, 1),

         make_tuple(&vp9_lpf_vertical_8_neon,

                    &vp9_lpf_vertical_8_c, 8, 1),

-#endif  // HAVE_NEON_ASM

         make_tuple(&vp9_lpf_horizontal_4_neon,

                    &vp9_lpf_horizontal_4_c, 8, 1),

         make_tuple(&vp9_lpf_vertical_4_neon,

--- a/vp9/common/arm/neon/vp9_loopfilter_16_neon.c

+++ /dev/null

@@ -1,179 +1,0 @@

-/*

- *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include <arm_neon.h>

-#include "./vp9_rtcd.h"

-#include "./vpx_config.h"

-#include "vpx/vpx_integer.h"

-static INLINE void vp9_loop_filter_neon_16(

-        uint8x16_t qblimit,  // blimit

-        uint8x16_t qlimit,   // limit

-        uint8x16_t qthresh,  // thresh

-        uint8x16_t q3,       // p3

-        uint8x16_t q4,       // p2

-        uint8x16_t q5,       // p1

-        uint8x16_t q6,       // p0

-        uint8x16_t q7,       // q0

-        uint8x16_t q8,       // q1

-        uint8x16_t q9,       // q2

-        uint8x16_t q10,      // q3

-        uint8x16_t *q5r,     // p1

-        uint8x16_t *q6r,     // p0

-        uint8x16_t *q7r,     // q0

-        uint8x16_t *q8r) {   // q1

-    uint8x16_t q1u8, q2u8, q11u8, q12u8, q13u8, q14u8, q15u8;

-    int16x8_t q2s16, q11s16;

-    uint16x8_t q4u16;

-    int8x16_t q0s8, q1s8, q2s8, q11s8, q12s8, q13s8;

-    int8x8_t d2s8, d3s8;

-    q11u8 = vabdq_u8(q3, q4);

-    q12u8 = vabdq_u8(q4, q5);

-    q13u8 = vabdq_u8(q5, q6);

-    q14u8 = vabdq_u8(q8, q7);

-    q3 = vabdq_u8(q9, q8);

-    q4 = vabdq_u8(q10, q9);

-    q11u8 = vmaxq_u8(q11u8, q12u8);

-    q12u8 = vmaxq_u8(q13u8, q14u8);

-    q3 = vmaxq_u8(q3, q4);

-    q15u8 = vmaxq_u8(q11u8, q12u8);

-    q9 = vabdq_u8(q6, q7);

-    // vp8_hevmask

-    q13u8 = vcgtq_u8(q13u8, qthresh);

-    q14u8 = vcgtq_u8(q14u8, qthresh);

-    q15u8 = vmaxq_u8(q15u8, q3);

-    q2u8 = vabdq_u8(q5, q8);

-    q9 = vqaddq_u8(q9, q9);

-    q15u8 = vcgeq_u8(qlimit, q15u8);

-    // vp8_filter() function

-    // convert to signed

-    q10 = vdupq_n_u8(0x80);

-    q8 = veorq_u8(q8, q10);

-    q7 = veorq_u8(q7, q10);

-    q6 = veorq_u8(q6, q10);

-    q5 = veorq_u8(q5, q10);

-    q2u8 = vshrq_n_u8(q2u8, 1);

-    q9 = vqaddq_u8(q9, q2u8);

-    q2s16 = vsubl_s8(vget_low_s8(vreinterpretq_s8_u8(q7)),

-                     vget_low_s8(vreinterpretq_s8_u8(q6)));

-    q11s16 = vsubl_s8(vget_high_s8(vreinterpretq_s8_u8(q7)),

-                      vget_high_s8(vreinterpretq_s8_u8(q6)));

-    q9 = vcgeq_u8(qblimit, q9);

-    q1s8 = vqsubq_s8(vreinterpretq_s8_u8(q5),

-                    vreinterpretq_s8_u8(q8));

-    q14u8 = vorrq_u8(q13u8, q14u8);

-    q4u16 = vdupq_n_u16(3);

-    q2s16 = vmulq_s16(q2s16, vreinterpretq_s16_u16(q4u16));

-    q11s16 = vmulq_s16(q11s16, vreinterpretq_s16_u16(q4u16));

-    q1u8 = vandq_u8(vreinterpretq_u8_s8(q1s8), q14u8);

-    q15u8 = vandq_u8(q15u8, q9);

-    q1s8 = vreinterpretq_s8_u8(q1u8);

-    q2s16 = vaddw_s8(q2s16, vget_low_s8(q1s8));

-    q11s16 = vaddw_s8(q11s16, vget_high_s8(q1s8));

-    q4 = vdupq_n_u8(3);

-    q9 = vdupq_n_u8(4);

-    // vp8_filter = clamp(vp8_filter + 3 * ( qs0 - ps0))

-    d2s8 = vqmovn_s16(q2s16);

-    d3s8 = vqmovn_s16(q11s16);

-    q1s8 = vcombine_s8(d2s8, d3s8);

-    q1u8 = vandq_u8(vreinterpretq_u8_s8(q1s8), q15u8);

-    q1s8 = vreinterpretq_s8_u8(q1u8);

-    q2s8 = vqaddq_s8(q1s8, vreinterpretq_s8_u8(q4));

-    q1s8 = vqaddq_s8(q1s8, vreinterpretq_s8_u8(q9));

-    q2s8 = vshrq_n_s8(q2s8, 3);

-    q1s8 = vshrq_n_s8(q1s8, 3);

-    q11s8 = vqaddq_s8(vreinterpretq_s8_u8(q6), q2s8);

-    q0s8 = vqsubq_s8(vreinterpretq_s8_u8(q7), q1s8);

-    q1s8 = vrshrq_n_s8(q1s8, 1);

-    q1s8 = vbicq_s8(q1s8, vreinterpretq_s8_u8(q14u8));

-    q13s8 = vqaddq_s8(vreinterpretq_s8_u8(q5), q1s8);

-    q12s8 = vqsubq_s8(vreinterpretq_s8_u8(q8), q1s8);

-    *q8r = veorq_u8(vreinterpretq_u8_s8(q12s8), q10);

-    *q7r = veorq_u8(vreinterpretq_u8_s8(q0s8),  q10);

-    *q6r = veorq_u8(vreinterpretq_u8_s8(q11s8), q10);

-    *q5r = veorq_u8(vreinterpretq_u8_s8(q13s8), q10);

-    return;

-}

-void vp9_lpf_horizontal_4_dual_neon(uint8_t *s, int p /* pitch */,

-                                    const uint8_t *blimit0,

-                                    const uint8_t *limit0,

-                                    const uint8_t *thresh0,

-                                    const uint8_t *blimit1,

-                                    const uint8_t *limit1,

-                                    const uint8_t *thresh1) {

-    uint8x8_t dblimit0, dlimit0, dthresh0, dblimit1, dlimit1, dthresh1;

-    uint8x16_t qblimit, qlimit, qthresh;

-    uint8x16_t q3u8, q4u8, q5u8, q6u8, q7u8, q8u8, q9u8, q10u8;

-    dblimit0 = vld1_u8(blimit0);

-    dlimit0 = vld1_u8(limit0);

-    dthresh0 = vld1_u8(thresh0);

-    dblimit1 = vld1_u8(blimit1);

-    dlimit1 = vld1_u8(limit1);

-    dthresh1 = vld1_u8(thresh1);

-    qblimit = vcombine_u8(dblimit0, dblimit1);

-    qlimit = vcombine_u8(dlimit0, dlimit1);

-    qthresh = vcombine_u8(dthresh0, dthresh1);

-    s -= (p << 2);

-    q3u8 = vld1q_u8(s);

-    s += p;

-    q4u8 = vld1q_u8(s);

-    s += p;

-    q5u8 = vld1q_u8(s);

-    s += p;

-    q6u8 = vld1q_u8(s);

-    s += p;

-    q7u8 = vld1q_u8(s);

-    s += p;

-    q8u8 = vld1q_u8(s);

-    s += p;

-    q9u8 = vld1q_u8(s);

-    s += p;

-    q10u8 = vld1q_u8(s);

-    vp9_loop_filter_neon_16(qblimit, qlimit, qthresh,

-                            q3u8, q4u8, q5u8, q6u8, q7u8, q8u8, q9u8, q10u8,

-                            &q5u8, &q6u8, &q7u8, &q8u8);

-    s -= (p * 5);

-    vst1q_u8(s, q5u8);

-    s += p;

-    vst1q_u8(s, q6u8);

-    s += p;

-    vst1q_u8(s, q7u8);

-    s += p;

-    vst1q_u8(s, q8u8);

-    return;

-}

--- a/vp9/common/arm/neon/vp9_loopfilter_16_neon_asm.asm

+++ /dev/null

@@ -1,199 +1,0 @@

-;

-;  Copyright (c) 2013 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp9_lpf_horizontal_4_dual_neon|

-    ARM

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-;void vp9_lpf_horizontal_4_dual_neon(uint8_t *s, int p,

-;                                    const uint8_t *blimit0,

-;                                    const uint8_t *limit0,

-;                                    const uint8_t *thresh0,

-;                                    const uint8_t *blimit1,

-;                                    const uint8_t *limit1,

-;                                    const uint8_t *thresh1)

-; r0    uint8_t *s,

-; r1    int p,

-; r2    const uint8_t *blimit0,

-; r3    const uint8_t *limit0,

-; sp    const uint8_t *thresh0,

-; sp+4  const uint8_t *blimit1,

-; sp+8  const uint8_t *limit1,

-; sp+12 const uint8_t *thresh1,

-|vp9_lpf_horizontal_4_dual_neon| PROC

-    push        {lr}

-    ldr         r12, [sp, #4]              ; load thresh0

-    vld1.8      {d0}, [r2]                 ; load blimit0 to first half q

-    vld1.8      {d2}, [r3]                 ; load limit0 to first half q

-    add         r1, r1, r1                 ; double pitch

-    ldr         r2, [sp, #8]               ; load blimit1

-    vld1.8      {d4}, [r12]                ; load thresh0 to first half q

-    ldr         r3, [sp, #12]              ; load limit1

-    ldr         r12, [sp, #16]             ; load thresh1

-    vld1.8      {d1}, [r2]                 ; load blimit1 to 2nd half q

-    sub         r2, r0, r1, lsl #1         ; s[-4 * p]

-    vld1.8      {d3}, [r3]                 ; load limit1 to 2nd half q

-    vld1.8      {d5}, [r12]                ; load thresh1 to 2nd half q

-    vpush       {d8-d15}                   ; save neon registers

-    add         r3, r2, r1, lsr #1         ; s[-3 * p]

-    vld1.u8     {q3}, [r2@64], r1          ; p3

-    vld1.u8     {q4}, [r3@64], r1          ; p2

-    vld1.u8     {q5}, [r2@64], r1          ; p1

-    vld1.u8     {q6}, [r3@64], r1          ; p0

-    vld1.u8     {q7}, [r2@64], r1          ; q0

-    vld1.u8     {q8}, [r3@64], r1          ; q1

-    vld1.u8     {q9}, [r2@64]              ; q2

-    vld1.u8     {q10}, [r3@64]             ; q3

-    sub         r2, r2, r1, lsl #1

-    sub         r3, r3, r1, lsl #1

-    bl          vp9_loop_filter_neon_16

-    vst1.u8     {q5}, [r2@64], r1          ; store op1

-    vst1.u8     {q6}, [r3@64], r1          ; store op0

-    vst1.u8     {q7}, [r2@64], r1          ; store oq0

-    vst1.u8     {q8}, [r3@64], r1          ; store oq1

-    vpop        {d8-d15}                   ; restore neon registers

-    pop         {pc}

-    ENDP        ; |vp9_lpf_horizontal_4_dual_neon|

-; void vp9_loop_filter_neon_16();

-; This is a helper function for the loopfilters. The invidual functions do the

-; necessary load, transpose (if necessary) and store. This function uses

-; registers d8-d15, so the calling function must save those registers.

-;

-; r0-r3, r12 PRESERVE

-; q0    blimit

-; q1    limit

-; q2    thresh

-; q3    p3

-; q4    p2

-; q5    p1

-; q6    p0

-; q7    q0

-; q8    q1

-; q9    q2

-; q10   q3

-;

-; Outputs:

-; q5    op1

-; q6    op0

-; q7    oq0

-; q8    oq1

-|vp9_loop_filter_neon_16| PROC

-    ; filter_mask

-    vabd.u8     q11, q3, q4                 ; m1 = abs(p3 - p2)

-    vabd.u8     q12, q4, q5                 ; m2 = abs(p2 - p1)

-    vabd.u8     q13, q5, q6                 ; m3 = abs(p1 - p0)

-    vabd.u8     q14, q8, q7                 ; m4 = abs(q1 - q0)

-    vabd.u8     q3, q9, q8                  ; m5 = abs(q2 - q1)

-    vabd.u8     q4, q10, q9                 ; m6 = abs(q3 - q2)

-    ; only compare the largest value to limit

-    vmax.u8     q11, q11, q12               ; m7 = max(m1, m2)

-    vmax.u8     q12, q13, q14               ; m8 = max(m3, m4)

-    vabd.u8     q9, q6, q7                  ; abs(p0 - q0)

-    vmax.u8     q3, q3, q4                  ; m9 = max(m5, m6)

-    vmov.u8     q10, #0x80

-    vmax.u8     q15, q11, q12               ; m10 = max(m7, m8)

-    vcgt.u8     q13, q13, q2                ; (abs(p1 - p0) > thresh)*-1

-    vcgt.u8     q14, q14, q2                ; (abs(q1 - q0) > thresh)*-1

-    vmax.u8     q15, q15, q3                ; m11 = max(m10, m9)

-    vabd.u8     q2, q5, q8                  ; a = abs(p1 - q1)

-    vqadd.u8    q9, q9, q9                  ; b = abs(p0 - q0) * 2

-    veor        q7, q7, q10                 ; qs0

-    vcge.u8     q15, q1, q15                ; abs(m11) > limit

-    vshr.u8     q2, q2, #1                  ; a = a / 2

-    veor        q6, q6, q10                 ; ps0

-    veor        q5, q5, q10                 ; ps1

-    vqadd.u8    q9, q9, q2                  ; a = b + a

-    veor        q8, q8, q10                 ; qs1

-    vmov.u16    q4, #3

-    vsubl.s8    q2, d14, d12                ; ( qs0 - ps0)

-    vsubl.s8    q11, d15, d13

-    vcge.u8     q9, q0, q9                  ; a > blimit

-    vqsub.s8    q1, q5, q8                  ; filter = clamp(ps1-qs1)

-    vorr        q14, q13, q14               ; hev

-    vmul.i16    q2, q2, q4                  ; 3 * ( qs0 - ps0)

-    vmul.i16    q11, q11, q4

-    vand        q1, q1, q14                 ; filter &= hev

-    vand        q15, q15, q9                ; mask

-    vmov.u8     q4, #3

-    vaddw.s8    q2, q2, d2                  ; filter + 3 * (qs0 - ps0)

-    vaddw.s8    q11, q11, d3

-    vmov.u8     q9, #4

-    ; filter = clamp(filter + 3 * ( qs0 - ps0))

-    vqmovn.s16  d2, q2

-    vqmovn.s16  d3, q11

-    vand        q1, q1, q15                 ; filter &= mask

-    vqadd.s8    q2, q1, q4                  ; filter2 = clamp(filter+3)

-    vqadd.s8    q1, q1, q9                  ; filter1 = clamp(filter+4)

-    vshr.s8     q2, q2, #3                  ; filter2 >>= 3

-    vshr.s8     q1, q1, #3                  ; filter1 >>= 3

-    vqadd.s8    q11, q6, q2                 ; u = clamp(ps0 + filter2)

-    vqsub.s8    q0, q7, q1                  ; u = clamp(qs0 - filter1)

-    ; outer tap adjustments

-    vrshr.s8    q1, q1, #1                  ; filter = ++filter1 >> 1

-    veor        q7, q0,  q10                ; *oq0 = u^0x80

-    vbic        q1, q1, q14                 ; filter &= ~hev

-    vqadd.s8    q13, q5, q1                 ; u = clamp(ps1 + filter)

-    vqsub.s8    q12, q8, q1                 ; u = clamp(qs1 - filter)

-    veor        q6, q11, q10                ; *op0 = u^0x80

-    veor        q5, q13, q10                ; *op1 = u^0x80

-    veor        q8, q12, q10                ; *oq1 = u^0x80

-    bx          lr

-    ENDP        ; |vp9_loop_filter_neon_16|

-    END

--- a/vp9/common/arm/neon/vp9_loopfilter_4_neon.c

+++ /dev/null

@@ -1,274 +1,0 @@

-/*

- *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include <arm_neon.h>

-#include "./vpx_config.h"

-static INLINE void vp9_loop_filter_neon(

-        uint8x8_t dblimit,    // flimit

-        uint8x8_t dlimit,     // limit

-        uint8x8_t dthresh,    // thresh

-        uint8x8_t d3u8,       // p3

-        uint8x8_t d4u8,       // p2

-        uint8x8_t d5u8,       // p1

-        uint8x8_t d6u8,       // p0

-        uint8x8_t d7u8,       // q0

-        uint8x8_t d16u8,      // q1

-        uint8x8_t d17u8,      // q2

-        uint8x8_t d18u8,      // q3

-        uint8x8_t *d4ru8,     // p1

-        uint8x8_t *d5ru8,     // p0

-        uint8x8_t *d6ru8,     // q0

-        uint8x8_t *d7ru8) {   // q1

-    uint8x8_t d19u8, d20u8, d21u8, d22u8, d23u8, d27u8, d28u8;

-    int16x8_t q12s16;

-    int8x8_t d19s8, d20s8, d21s8, d26s8, d27s8, d28s8;

-    d19u8 = vabd_u8(d3u8, d4u8);

-    d20u8 = vabd_u8(d4u8, d5u8);

-    d21u8 = vabd_u8(d5u8, d6u8);

-    d22u8 = vabd_u8(d16u8, d7u8);

-    d3u8  = vabd_u8(d17u8, d16u8);

-    d4u8  = vabd_u8(d18u8, d17u8);

-    d19u8 = vmax_u8(d19u8, d20u8);

-    d20u8 = vmax_u8(d21u8, d22u8);

-    d3u8  = vmax_u8(d3u8,  d4u8);

-    d23u8 = vmax_u8(d19u8, d20u8);

-    d17u8 = vabd_u8(d6u8, d7u8);

-    d21u8 = vcgt_u8(d21u8, dthresh);

-    d22u8 = vcgt_u8(d22u8, dthresh);

-    d23u8 = vmax_u8(d23u8, d3u8);

-    d28u8 = vabd_u8(d5u8, d16u8);

-    d17u8 = vqadd_u8(d17u8, d17u8);

-    d23u8 = vcge_u8(dlimit, d23u8);

-    d18u8 = vdup_n_u8(0x80);

-    d5u8  = veor_u8(d5u8,  d18u8);

-    d6u8  = veor_u8(d6u8,  d18u8);

-    d7u8  = veor_u8(d7u8,  d18u8);

-    d16u8 = veor_u8(d16u8, d18u8);

-    d28u8 = vshr_n_u8(d28u8, 1);

-    d17u8 = vqadd_u8(d17u8, d28u8);

-    d19u8 = vdup_n_u8(3);

-    d28s8 = vsub_s8(vreinterpret_s8_u8(d7u8),

-                    vreinterpret_s8_u8(d6u8));

-    d17u8 = vcge_u8(dblimit, d17u8);

-    d27s8 = vqsub_s8(vreinterpret_s8_u8(d5u8),

-                     vreinterpret_s8_u8(d16u8));

-    d22u8 = vorr_u8(d21u8, d22u8);

-    q12s16 = vmull_s8(d28s8, vreinterpret_s8_u8(d19u8));

-    d27u8 = vand_u8(vreinterpret_u8_s8(d27s8), d22u8);

-    d23u8 = vand_u8(d23u8, d17u8);

-    q12s16 = vaddw_s8(q12s16, vreinterpret_s8_u8(d27u8));

-    d17u8 = vdup_n_u8(4);

-    d27s8 = vqmovn_s16(q12s16);

-    d27u8 = vand_u8(vreinterpret_u8_s8(d27s8), d23u8);

-    d27s8 = vreinterpret_s8_u8(d27u8);

-    d28s8 = vqadd_s8(d27s8, vreinterpret_s8_u8(d19u8));

-    d27s8 = vqadd_s8(d27s8, vreinterpret_s8_u8(d17u8));

-    d28s8 = vshr_n_s8(d28s8, 3);

-    d27s8 = vshr_n_s8(d27s8, 3);

-    d19s8 = vqadd_s8(vreinterpret_s8_u8(d6u8), d28s8);

-    d26s8 = vqsub_s8(vreinterpret_s8_u8(d7u8), d27s8);

-    d27s8 = vrshr_n_s8(d27s8, 1);

-    d27s8 = vbic_s8(d27s8, vreinterpret_s8_u8(d22u8));

-    d21s8 = vqadd_s8(vreinterpret_s8_u8(d5u8), d27s8);

-    d20s8 = vqsub_s8(vreinterpret_s8_u8(d16u8), d27s8);

-    *d4ru8 = veor_u8(vreinterpret_u8_s8(d21s8), d18u8);

-    *d5ru8 = veor_u8(vreinterpret_u8_s8(d19s8), d18u8);

-    *d6ru8 = veor_u8(vreinterpret_u8_s8(d26s8), d18u8);

-    *d7ru8 = veor_u8(vreinterpret_u8_s8(d20s8), d18u8);

-    return;

-}

-void vp9_lpf_horizontal_4_neon(

-        unsigned char *src,

-        int pitch,

-        unsigned char *blimit,

-        unsigned char *limit,

-        unsigned char *thresh,

-        int count) {

-    int i;

-    uint8_t *s, *psrc;

-    uint8x8_t dblimit, dlimit, dthresh;

-    uint8x8_t d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8;

-    if (count == 0)  // end_vp9_lf_h_edge

-        return;

-    dblimit = vld1_u8(blimit);

-    dlimit = vld1_u8(limit);

-    dthresh = vld1_u8(thresh);

-    psrc = src - (pitch << 2);

-    for (i = 0; i < count; i++) {

-        s = psrc + i * 8;

-        d3u8 = vld1_u8(s);

-        s += pitch;

-        d4u8 = vld1_u8(s);

-        s += pitch;

-        d5u8 = vld1_u8(s);

-        s += pitch;

-        d6u8 = vld1_u8(s);

-        s += pitch;

-        d7u8 = vld1_u8(s);

-        s += pitch;

-        d16u8 = vld1_u8(s);

-        s += pitch;

-        d17u8 = vld1_u8(s);

-        s += pitch;

-        d18u8 = vld1_u8(s);

-        vp9_loop_filter_neon(dblimit, dlimit, dthresh,

-                             d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,

-                             &d4u8, &d5u8, &d6u8, &d7u8);

-        s -= (pitch * 5);

-        vst1_u8(s, d4u8);

-        s += pitch;

-        vst1_u8(s, d5u8);

-        s += pitch;

-        vst1_u8(s, d6u8);

-        s += pitch;

-        vst1_u8(s, d7u8);

-    }

-    return;

-}

-void vp9_lpf_vertical_4_neon(

-        unsigned char *src,

-        int pitch,

-        unsigned char *blimit,

-        unsigned char *limit,

-        unsigned char *thresh,

-        int count) {

-    int i, pitch8;

-    uint8_t *s;

-    uint8x8_t dblimit, dlimit, dthresh;

-    uint8x8_t d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8;

-    uint32x2x2_t d2tmp0, d2tmp1, d2tmp2, d2tmp3;

-    uint16x4x2_t d2tmp4, d2tmp5, d2tmp6, d2tmp7;

-    uint8x8x2_t d2tmp8, d2tmp9, d2tmp10, d2tmp11;

-    uint8x8x4_t d4Result;

-    if (count == 0)  // end_vp9_lf_h_edge

-        return;

-    dblimit = vld1_u8(blimit);

-    dlimit = vld1_u8(limit);

-    dthresh = vld1_u8(thresh);

-    pitch8 = pitch * 8;

-    for (i = 0; i < count; i++, src += pitch8) {

-        s = src - (i + 1) * 4;

-        d3u8 = vld1_u8(s);

-        s += pitch;

-        d4u8 = vld1_u8(s);

-        s += pitch;

-        d5u8 = vld1_u8(s);

-        s += pitch;

-        d6u8 = vld1_u8(s);

-        s += pitch;

-        d7u8 = vld1_u8(s);

-        s += pitch;

-        d16u8 = vld1_u8(s);

-        s += pitch;

-        d17u8 = vld1_u8(s);

-        s += pitch;

-        d18u8 = vld1_u8(s);

-        d2tmp0 = vtrn_u32(vreinterpret_u32_u8(d3u8),

-                      vreinterpret_u32_u8(d7u8));

-        d2tmp1 = vtrn_u32(vreinterpret_u32_u8(d4u8),

-                      vreinterpret_u32_u8(d16u8));

-        d2tmp2 = vtrn_u32(vreinterpret_u32_u8(d5u8),

-                      vreinterpret_u32_u8(d17u8));

-        d2tmp3 = vtrn_u32(vreinterpret_u32_u8(d6u8),

-                      vreinterpret_u32_u8(d18u8));

-        d2tmp4 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[0]),

-                          vreinterpret_u16_u32(d2tmp2.val[0]));

-        d2tmp5 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[0]),

-                          vreinterpret_u16_u32(d2tmp3.val[0]));

-        d2tmp6 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[1]),

-                          vreinterpret_u16_u32(d2tmp2.val[1]));

-        d2tmp7 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[1]),

-                          vreinterpret_u16_u32(d2tmp3.val[1]));

-        d2tmp8 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[0]),

-                         vreinterpret_u8_u16(d2tmp5.val[0]));

-        d2tmp9 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[1]),

-                         vreinterpret_u8_u16(d2tmp5.val[1]));

-        d2tmp10 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[0]),

-                          vreinterpret_u8_u16(d2tmp7.val[0]));

-        d2tmp11 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[1]),

-                          vreinterpret_u8_u16(d2tmp7.val[1]));

-        d3u8 = d2tmp8.val[0];

-        d4u8 = d2tmp8.val[1];

-        d5u8 = d2tmp9.val[0];

-        d6u8 = d2tmp9.val[1];

-        d7u8 = d2tmp10.val[0];

-        d16u8 = d2tmp10.val[1];

-        d17u8 = d2tmp11.val[0];

-        d18u8 = d2tmp11.val[1];

-        vp9_loop_filter_neon(dblimit, dlimit, dthresh,

-                             d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,

-                             &d4u8, &d5u8, &d6u8, &d7u8);

-        d4Result.val[0] = d4u8;

-        d4Result.val[1] = d5u8;

-        d4Result.val[2] = d6u8;

-        d4Result.val[3] = d7u8;

-        src -= 2;

-        vst4_lane_u8(src, d4Result, 0);

-        src += pitch;

-        vst4_lane_u8(src, d4Result, 1);

-        src += pitch;

-        vst4_lane_u8(src, d4Result, 2);

-        src += pitch;

-        vst4_lane_u8(src, d4Result, 3);

-        src += pitch;

-        vst4_lane_u8(src, d4Result, 4);

-        src += pitch;

-        vst4_lane_u8(src, d4Result, 5);

-        src += pitch;

-        vst4_lane_u8(src, d4Result, 6);

-        src += pitch;

-        vst4_lane_u8(src, d4Result, 7);

-    }

-    return;

-}

--- a/vp9/common/arm/neon/vp9_loopfilter_4_neon_asm.asm

+++ /dev/null

@@ -1,277 +1,0 @@

-;

-;  Copyright (c) 2013 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp9_lpf_horizontal_4_neon|

-    EXPORT  |vp9_lpf_vertical_4_neon|

-    ARM

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; Currently vp9 only works on iterations 8 at a time. The vp8 loop filter

-; works on 16 iterations at a time.

-; TODO(fgalligan): See about removing the count code as this function is only

-; called with a count of 1.

-;

-; void vp9_lpf_horizontal_4_neon(uint8_t *s,

-;                                int p /* pitch */,

-;                                const uint8_t *blimit,

-;                                const uint8_t *limit,

-;                                const uint8_t *thresh,

-;                                int count)

-;

-; r0    uint8_t *s,

-; r1    int p, /* pitch */

-; r2    const uint8_t *blimit,

-; r3    const uint8_t *limit,

-; sp    const uint8_t *thresh,

-; sp+4  int count

-|vp9_lpf_horizontal_4_neon| PROC

-    push        {lr}

-    vld1.8      {d0[]}, [r2]               ; duplicate *blimit

-    ldr         r12, [sp, #8]              ; load count

-    ldr         r2, [sp, #4]               ; load thresh

-    add         r1, r1, r1                 ; double pitch

-    cmp         r12, #0

-    beq         end_vp9_lf_h_edge

-    vld1.8      {d1[]}, [r3]               ; duplicate *limit

-    vld1.8      {d2[]}, [r2]               ; duplicate *thresh

-count_lf_h_loop

-    sub         r2, r0, r1, lsl #1         ; move src pointer down by 4 lines

-    add         r3, r2, r1, lsr #1         ; set to 3 lines down

-    vld1.u8     {d3}, [r2@64], r1          ; p3

-    vld1.u8     {d4}, [r3@64], r1          ; p2

-    vld1.u8     {d5}, [r2@64], r1          ; p1

-    vld1.u8     {d6}, [r3@64], r1          ; p0

-    vld1.u8     {d7}, [r2@64], r1          ; q0

-    vld1.u8     {d16}, [r3@64], r1         ; q1

-    vld1.u8     {d17}, [r2@64]             ; q2

-    vld1.u8     {d18}, [r3@64]             ; q3

-    sub         r2, r2, r1, lsl #1

-    sub         r3, r3, r1, lsl #1

-    bl          vp9_loop_filter_neon

-    vst1.u8     {d4}, [r2@64], r1          ; store op1

-    vst1.u8     {d5}, [r3@64], r1          ; store op0

-    vst1.u8     {d6}, [r2@64], r1          ; store oq0

-    vst1.u8     {d7}, [r3@64], r1          ; store oq1

-    add         r0, r0, #8

-    subs        r12, r12, #1

-    bne         count_lf_h_loop

-end_vp9_lf_h_edge

-    pop         {pc}

-    ENDP        ; |vp9_lpf_horizontal_4_neon|

-; Currently vp9 only works on iterations 8 at a time. The vp8 loop filter

-; works on 16 iterations at a time.

-; TODO(fgalligan): See about removing the count code as this function is only

-; called with a count of 1.

-;

-; void vp9_lpf_vertical_4_neon(uint8_t *s,

-;                              int p /* pitch */,

-;                              const uint8_t *blimit,

-;                              const uint8_t *limit,

-;                              const uint8_t *thresh,

-;                              int count)

-;

-; r0    uint8_t *s,

-; r1    int p, /* pitch */

-; r2    const uint8_t *blimit,

-; r3    const uint8_t *limit,

-; sp    const uint8_t *thresh,

-; sp+4  int count

-|vp9_lpf_vertical_4_neon| PROC

-    push        {lr}

-    vld1.8      {d0[]}, [r2]              ; duplicate *blimit

-    ldr         r12, [sp, #8]             ; load count

-    vld1.8      {d1[]}, [r3]              ; duplicate *limit

-    ldr         r3, [sp, #4]              ; load thresh

-    sub         r2, r0, #4                ; move s pointer down by 4 columns

-    cmp         r12, #0

-    beq         end_vp9_lf_v_edge

-    vld1.8      {d2[]}, [r3]              ; duplicate *thresh

-count_lf_v_loop

-    vld1.u8     {d3}, [r2], r1             ; load s data

-    vld1.u8     {d4}, [r2], r1

-    vld1.u8     {d5}, [r2], r1

-    vld1.u8     {d6}, [r2], r1

-    vld1.u8     {d7}, [r2], r1

-    vld1.u8     {d16}, [r2], r1

-    vld1.u8     {d17}, [r2], r1

-    vld1.u8     {d18}, [r2]

-    ;transpose to 8x16 matrix

-    vtrn.32     d3, d7

-    vtrn.32     d4, d16

-    vtrn.32     d5, d17

-    vtrn.32     d6, d18

-    vtrn.16     d3, d5

-    vtrn.16     d4, d6

-    vtrn.16     d7, d17

-    vtrn.16     d16, d18

-    vtrn.8      d3, d4

-    vtrn.8      d5, d6

-    vtrn.8      d7, d16

-    vtrn.8      d17, d18

-    bl          vp9_loop_filter_neon

-    sub         r0, r0, #2

-    ;store op1, op0, oq0, oq1

-    vst4.8      {d4[0], d5[0], d6[0], d7[0]}, [r0], r1

-    vst4.8      {d4[1], d5[1], d6[1], d7[1]}, [r0], r1

-    vst4.8      {d4[2], d5[2], d6[2], d7[2]}, [r0], r1

-    vst4.8      {d4[3], d5[3], d6[3], d7[3]}, [r0], r1

-    vst4.8      {d4[4], d5[4], d6[4], d7[4]}, [r0], r1

-    vst4.8      {d4[5], d5[5], d6[5], d7[5]}, [r0], r1

-    vst4.8      {d4[6], d5[6], d6[6], d7[6]}, [r0], r1

-    vst4.8      {d4[7], d5[7], d6[7], d7[7]}, [r0]

-    add         r0, r0, r1, lsl #3         ; s += pitch * 8

-    subs        r12, r12, #1

-    subne       r2, r0, #4                 ; move s pointer down by 4 columns

-    bne         count_lf_v_loop

-end_vp9_lf_v_edge

-    pop         {pc}

-    ENDP        ; |vp9_lpf_vertical_4_neon|

-; void vp9_loop_filter_neon();

-; This is a helper function for the loopfilters. The invidual functions do the

-; necessary load, transpose (if necessary) and store. The function does not use

-; registers d8-d15.

-;

-; Inputs:

-; r0-r3, r12 PRESERVE

-; d0    blimit

-; d1    limit

-; d2    thresh

-; d3    p3

-; d4    p2

-; d5    p1

-; d6    p0

-; d7    q0

-; d16   q1

-; d17   q2

-; d18   q3

-;

-; Outputs:

-; d4    op1

-; d5    op0

-; d6    oq0

-; d7    oq1

-|vp9_loop_filter_neon| PROC

-    ; filter_mask

-    vabd.u8     d19, d3, d4                 ; m1 = abs(p3 - p2)

-    vabd.u8     d20, d4, d5                 ; m2 = abs(p2 - p1)

-    vabd.u8     d21, d5, d6                 ; m3 = abs(p1 - p0)

-    vabd.u8     d22, d16, d7                ; m4 = abs(q1 - q0)

-    vabd.u8     d3, d17, d16                ; m5 = abs(q2 - q1)

-    vabd.u8     d4, d18, d17                ; m6 = abs(q3 - q2)

-    ; only compare the largest value to limit

-    vmax.u8     d19, d19, d20               ; m1 = max(m1, m2)

-    vmax.u8     d20, d21, d22               ; m2 = max(m3, m4)

-    vabd.u8     d17, d6, d7                 ; abs(p0 - q0)

-    vmax.u8     d3, d3, d4                  ; m3 = max(m5, m6)

-    vmov.u8     d18, #0x80

-    vmax.u8     d23, d19, d20               ; m1 = max(m1, m2)

-    ; hevmask

-    vcgt.u8     d21, d21, d2                ; (abs(p1 - p0) > thresh)*-1

-    vcgt.u8     d22, d22, d2                ; (abs(q1 - q0) > thresh)*-1

-    vmax.u8     d23, d23, d3                ; m1 = max(m1, m3)

-    vabd.u8     d28, d5, d16                ; a = abs(p1 - q1)

-    vqadd.u8    d17, d17, d17               ; b = abs(p0 - q0) * 2

-    veor        d7, d7, d18                 ; qs0

-    vcge.u8     d23, d1, d23                ; abs(m1) > limit

-    ; filter() function

-    ; convert to signed

-    vshr.u8     d28, d28, #1                ; a = a / 2

-    veor        d6, d6, d18                 ; ps0

-    veor        d5, d5, d18                 ; ps1

-    vqadd.u8    d17, d17, d28               ; a = b + a

-    veor        d16, d16, d18               ; qs1

-    vmov.u8     d19, #3

-    vsub.s8     d28, d7, d6                 ; ( qs0 - ps0)

-    vcge.u8     d17, d0, d17                ; a > blimit

-    vqsub.s8    d27, d5, d16                ; filter = clamp(ps1-qs1)

-    vorr        d22, d21, d22               ; hevmask

-    vmull.s8    q12, d28, d19               ; 3 * ( qs0 - ps0)

-    vand        d27, d27, d22               ; filter &= hev

-    vand        d23, d23, d17               ; filter_mask

-    vaddw.s8    q12, q12, d27               ; filter + 3 * (qs0 - ps0)

-    vmov.u8     d17, #4

-    ; filter = clamp(filter + 3 * ( qs0 - ps0))

-    vqmovn.s16  d27, q12

-    vand        d27, d27, d23               ; filter &= mask

-    vqadd.s8    d28, d27, d19               ; filter2 = clamp(filter+3)

-    vqadd.s8    d27, d27, d17               ; filter1 = clamp(filter+4)

-    vshr.s8     d28, d28, #3                ; filter2 >>= 3

-    vshr.s8     d27, d27, #3                ; filter1 >>= 3

-    vqadd.s8    d19, d6, d28                ; u = clamp(ps0 + filter2)

-    vqsub.s8    d26, d7, d27                ; u = clamp(qs0 - filter1)

-    ; outer tap adjustments

-    vrshr.s8    d27, d27, #1                ; filter = ++filter1 >> 1

-    veor        d6, d26, d18                ; *oq0 = u^0x80

-    vbic        d27, d27, d22               ; filter &= ~hev

-    vqadd.s8    d21, d5, d27                ; u = clamp(ps1 + filter)

-    vqsub.s8    d20, d16, d27               ; u = clamp(qs1 - filter)

-    veor        d5, d19, d18                ; *op0 = u^0x80

-    veor        d4, d21, d18                ; *op1 = u^0x80

-    veor        d7, d20, d18                ; *oq1 = u^0x80

-    bx          lr

-    ENDP        ; |vp9_loop_filter_neon|

-    END

--- a/vp9/common/arm/neon/vp9_loopfilter_8_neon.c

+++ /dev/null

@@ -1,453 +1,0 @@

-/*

- *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include <arm_neon.h>

-#include "./vpx_config.h"

-static INLINE void vp9_mbloop_filter_neon(

-        uint8x8_t dblimit,   // mblimit

-        uint8x8_t dlimit,    // limit

-        uint8x8_t dthresh,   // thresh

-        uint8x8_t d3u8,      // p2

-        uint8x8_t d4u8,      // p2

-        uint8x8_t d5u8,      // p1

-        uint8x8_t d6u8,      // p0

-        uint8x8_t d7u8,      // q0

-        uint8x8_t d16u8,     // q1

-        uint8x8_t d17u8,     // q2

-        uint8x8_t d18u8,     // q3

-        uint8x8_t *d0ru8,    // p1

-        uint8x8_t *d1ru8,    // p1

-        uint8x8_t *d2ru8,    // p0

-        uint8x8_t *d3ru8,    // q0

-        uint8x8_t *d4ru8,    // q1

-        uint8x8_t *d5ru8) {  // q1

-    uint32_t flat;

-    uint8x8_t d0u8, d1u8, d2u8, d19u8, d20u8, d21u8, d22u8, d23u8, d24u8;

-    uint8x8_t d25u8, d26u8, d27u8, d28u8, d29u8, d30u8, d31u8;

-    int16x8_t q15s16;

-    uint16x8_t q10u16, q14u16;

-    int8x8_t d21s8, d24s8, d25s8, d26s8, d28s8, d29s8, d30s8;

-    d19u8 = vabd_u8(d3u8, d4u8);

-    d20u8 = vabd_u8(d4u8, d5u8);

-    d21u8 = vabd_u8(d5u8, d6u8);

-    d22u8 = vabd_u8(d16u8, d7u8);

-    d23u8 = vabd_u8(d17u8, d16u8);

-    d24u8 = vabd_u8(d18u8, d17u8);

-    d19u8 = vmax_u8(d19u8, d20u8);

-    d20u8 = vmax_u8(d21u8, d22u8);

-    d25u8 = vabd_u8(d6u8, d4u8);

-    d23u8 = vmax_u8(d23u8, d24u8);

-    d26u8 = vabd_u8(d7u8, d17u8);

-    d19u8 = vmax_u8(d19u8, d20u8);

-    d24u8 = vabd_u8(d6u8, d7u8);

-    d27u8 = vabd_u8(d3u8, d6u8);

-    d28u8 = vabd_u8(d18u8, d7u8);

-    d19u8 = vmax_u8(d19u8, d23u8);

-    d23u8 = vabd_u8(d5u8, d16u8);

-    d24u8 = vqadd_u8(d24u8, d24u8);

-    d19u8 = vcge_u8(dlimit, d19u8);

-    d25u8 = vmax_u8(d25u8, d26u8);

-    d26u8 = vmax_u8(d27u8, d28u8);

-    d23u8 = vshr_n_u8(d23u8, 1);

-    d25u8 = vmax_u8(d25u8, d26u8);

-    d24u8 = vqadd_u8(d24u8, d23u8);

-    d20u8 = vmax_u8(d20u8, d25u8);

-    d23u8 = vdup_n_u8(1);

-    d24u8 = vcge_u8(dblimit, d24u8);

-    d21u8 = vcgt_u8(d21u8, dthresh);

-    d20u8 = vcge_u8(d23u8, d20u8);

-    d19u8 = vand_u8(d19u8, d24u8);

-    d23u8 = vcgt_u8(d22u8, dthresh);

-    d20u8 = vand_u8(d20u8, d19u8);

-    d22u8 = vdup_n_u8(0x80);

-    d23u8 = vorr_u8(d21u8, d23u8);

-    q10u16 = vcombine_u16(vreinterpret_u16_u8(d20u8),

-                          vreinterpret_u16_u8(d21u8));

-    d30u8 = vshrn_n_u16(q10u16, 4);

-    flat = vget_lane_u32(vreinterpret_u32_u8(d30u8), 0);

-    if (flat == 0xffffffff) {  // Check for all 1's, power_branch_only

-        d27u8 = vdup_n_u8(3);

-        d21u8 = vdup_n_u8(2);

-        q14u16 = vaddl_u8(d6u8, d7u8);

-        q14u16 = vmlal_u8(q14u16, d3u8, d27u8);

-        q14u16 = vmlal_u8(q14u16, d4u8, d21u8);

-        q14u16 = vaddw_u8(q14u16, d5u8);

-        *d0ru8 = vqrshrn_n_u16(q14u16, 3);

-        q14u16 = vsubw_u8(q14u16, d3u8);

-        q14u16 = vsubw_u8(q14u16, d4u8);

-        q14u16 = vaddw_u8(q14u16, d5u8);

-        q14u16 = vaddw_u8(q14u16, d16u8);

-        *d1ru8 = vqrshrn_n_u16(q14u16, 3);

-        q14u16 = vsubw_u8(q14u16, d3u8);

-        q14u16 = vsubw_u8(q14u16, d5u8);

-        q14u16 = vaddw_u8(q14u16, d6u8);

-        q14u16 = vaddw_u8(q14u16, d17u8);

-        *d2ru8 = vqrshrn_n_u16(q14u16, 3);

-        q14u16 = vsubw_u8(q14u16, d3u8);

-        q14u16 = vsubw_u8(q14u16, d6u8);

-        q14u16 = vaddw_u8(q14u16, d7u8);

-        q14u16 = vaddw_u8(q14u16, d18u8);

-        *d3ru8 = vqrshrn_n_u16(q14u16, 3);

-        q14u16 = vsubw_u8(q14u16, d4u8);

-        q14u16 = vsubw_u8(q14u16, d7u8);

-        q14u16 = vaddw_u8(q14u16, d16u8);

-        q14u16 = vaddw_u8(q14u16, d18u8);

-        *d4ru8 = vqrshrn_n_u16(q14u16, 3);

-        q14u16 = vsubw_u8(q14u16, d5u8);

-        q14u16 = vsubw_u8(q14u16, d16u8);

-        q14u16 = vaddw_u8(q14u16, d17u8);

-        q14u16 = vaddw_u8(q14u16, d18u8);

-        *d5ru8 = vqrshrn_n_u16(q14u16, 3);

-    } else {

-        d21u8 = veor_u8(d7u8,  d22u8);

-        d24u8 = veor_u8(d6u8,  d22u8);

-        d25u8 = veor_u8(d5u8,  d22u8);

-        d26u8 = veor_u8(d16u8, d22u8);

-        d27u8 = vdup_n_u8(3);

-        d28s8 = vsub_s8(vreinterpret_s8_u8(d21u8), vreinterpret_s8_u8(d24u8));

-        d29s8 = vqsub_s8(vreinterpret_s8_u8(d25u8), vreinterpret_s8_u8(d26u8));

-        q15s16 = vmull_s8(d28s8, vreinterpret_s8_u8(d27u8));

-        d29s8 = vand_s8(d29s8, vreinterpret_s8_u8(d23u8));

-        q15s16 = vaddw_s8(q15s16, d29s8);

-        d29u8 = vdup_n_u8(4);

-        d28s8 = vqmovn_s16(q15s16);

-        d28s8 = vand_s8(d28s8, vreinterpret_s8_u8(d19u8));

-        d30s8 = vqadd_s8(d28s8, vreinterpret_s8_u8(d27u8));

-        d29s8 = vqadd_s8(d28s8, vreinterpret_s8_u8(d29u8));

-        d30s8 = vshr_n_s8(d30s8, 3);

-        d29s8 = vshr_n_s8(d29s8, 3);

-        d24s8 = vqadd_s8(vreinterpret_s8_u8(d24u8), d30s8);

-        d21s8 = vqsub_s8(vreinterpret_s8_u8(d21u8), d29s8);

-        d29s8 = vrshr_n_s8(d29s8, 1);

-        d29s8 = vbic_s8(d29s8, vreinterpret_s8_u8(d23u8));

-        d25s8 = vqadd_s8(vreinterpret_s8_u8(d25u8), d29s8);

-        d26s8 = vqsub_s8(vreinterpret_s8_u8(d26u8), d29s8);

-        if (flat == 0) {  // filter_branch_only

-            *d0ru8 = d4u8;

-            *d1ru8 = veor_u8(vreinterpret_u8_s8(d25s8), d22u8);

-            *d2ru8 = veor_u8(vreinterpret_u8_s8(d24s8), d22u8);

-            *d3ru8 = veor_u8(vreinterpret_u8_s8(d21s8), d22u8);

-            *d4ru8 = veor_u8(vreinterpret_u8_s8(d26s8), d22u8);

-            *d5ru8 = d17u8;

-            return;

-        }

-        d21u8 = veor_u8(vreinterpret_u8_s8(d21s8), d22u8);

-        d24u8 = veor_u8(vreinterpret_u8_s8(d24s8), d22u8);

-        d25u8 = veor_u8(vreinterpret_u8_s8(d25s8), d22u8);

-        d26u8 = veor_u8(vreinterpret_u8_s8(d26s8), d22u8);

-        d23u8 = vdup_n_u8(2);

-        q14u16 = vaddl_u8(d6u8, d7u8);

-        q14u16 = vmlal_u8(q14u16, d3u8, d27u8);

-        q14u16 = vmlal_u8(q14u16, d4u8, d23u8);

-        d0u8 = vbsl_u8(d20u8, dblimit, d4u8);

-        q14u16 = vaddw_u8(q14u16, d5u8);

-        d1u8 = vbsl_u8(d20u8, dlimit, d25u8);

-        d30u8 = vqrshrn_n_u16(q14u16, 3);

-        q14u16 = vsubw_u8(q14u16, d3u8);

-        q14u16 = vsubw_u8(q14u16, d4u8);

-        q14u16 = vaddw_u8(q14u16, d5u8);

-        q14u16 = vaddw_u8(q14u16, d16u8);

-        d2u8 = vbsl_u8(d20u8, dthresh, d24u8);

-        d31u8 = vqrshrn_n_u16(q14u16, 3);

-        q14u16 = vsubw_u8(q14u16, d3u8);

-        q14u16 = vsubw_u8(q14u16, d5u8);

-        q14u16 = vaddw_u8(q14u16, d6u8);

-        q14u16 = vaddw_u8(q14u16, d17u8);

-        *d0ru8 = vbsl_u8(d20u8, d30u8, d0u8);

-        d23u8 = vqrshrn_n_u16(q14u16, 3);

-        q14u16 = vsubw_u8(q14u16, d3u8);

-        q14u16 = vsubw_u8(q14u16, d6u8);

-        q14u16 = vaddw_u8(q14u16, d7u8);

-        *d1ru8 = vbsl_u8(d20u8, d31u8, d1u8);

-        q14u16 = vaddw_u8(q14u16, d18u8);

-        *d2ru8 = vbsl_u8(d20u8, d23u8, d2u8);

-        d22u8 = vqrshrn_n_u16(q14u16, 3);

-        q14u16 = vsubw_u8(q14u16, d4u8);

-        q14u16 = vsubw_u8(q14u16, d7u8);

-        q14u16 = vaddw_u8(q14u16, d16u8);

-        d3u8 = vbsl_u8(d20u8, d3u8, d21u8);

-        q14u16 = vaddw_u8(q14u16, d18u8);

-        d4u8 = vbsl_u8(d20u8, d4u8, d26u8);

-        d6u8 = vqrshrn_n_u16(q14u16, 3);

-        q14u16 = vsubw_u8(q14u16, d5u8);

-        q14u16 = vsubw_u8(q14u16, d16u8);

-        q14u16 = vaddw_u8(q14u16, d17u8);

-        q14u16 = vaddw_u8(q14u16, d18u8);

-        d5u8 = vbsl_u8(d20u8, d5u8, d17u8);

-        d7u8 = vqrshrn_n_u16(q14u16, 3);

-        *d3ru8 = vbsl_u8(d20u8, d22u8, d3u8);

-        *d4ru8 = vbsl_u8(d20u8, d6u8, d4u8);

-        *d5ru8 = vbsl_u8(d20u8, d7u8, d5u8);

-    }

-    return;

-}

-void vp9_lpf_horizontal_8_neon(

-        unsigned char *src,

-        int pitch,

-        unsigned char *blimit,

-        unsigned char *limit,

-        unsigned char *thresh,

-        int count) {

-    int i;

-    uint8_t *s, *psrc;

-    uint8x8_t dblimit, dlimit, dthresh;

-    uint8x8_t d0u8, d1u8, d2u8, d3u8, d4u8, d5u8, d6u8, d7u8;

-    uint8x8_t d16u8, d17u8, d18u8;

-    if (count == 0)  // end_vp9_mblf_h_edge

-        return;

-    dblimit = vld1_u8(blimit);

-    dlimit = vld1_u8(limit);

-    dthresh = vld1_u8(thresh);

-    psrc = src - (pitch << 2);

-    for (i = 0; i < count; i++) {

-        s = psrc + i * 8;

-        d3u8  = vld1_u8(s);

-        s += pitch;

-        d4u8  = vld1_u8(s);

-        s += pitch;

-        d5u8  = vld1_u8(s);

-        s += pitch;

-        d6u8  = vld1_u8(s);

-        s += pitch;

-        d7u8  = vld1_u8(s);

-        s += pitch;

-        d16u8 = vld1_u8(s);

-        s += pitch;

-        d17u8 = vld1_u8(s);

-        s += pitch;

-        d18u8 = vld1_u8(s);

-        vp9_mbloop_filter_neon(dblimit, dlimit, dthresh,

-                             d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,

-                             &d0u8, &d1u8, &d2u8, &d3u8, &d4u8, &d5u8);

-        s -= (pitch * 6);

-        vst1_u8(s, d0u8);

-        s += pitch;

-        vst1_u8(s, d1u8);

-        s += pitch;

-        vst1_u8(s, d2u8);

-        s += pitch;

-        vst1_u8(s, d3u8);

-        s += pitch;

-        vst1_u8(s, d4u8);

-        s += pitch;

-        vst1_u8(s, d5u8);

-    }

-    return;

-}

-void vp9_lpf_vertical_8_neon(

-        unsigned char *src,

-        int pitch,

-        unsigned char *blimit,

-        unsigned char *limit,

-        unsigned char *thresh,

-        int count) {

-    int i;

-    uint8_t *s;

-    uint8x8_t dblimit, dlimit, dthresh;

-    uint8x8_t d0u8, d1u8, d2u8, d3u8, d4u8, d5u8, d6u8, d7u8;

-    uint8x8_t d16u8, d17u8, d18u8;

-    uint32x2x2_t d2tmp0, d2tmp1, d2tmp2, d2tmp3;

-    uint16x4x2_t d2tmp4, d2tmp5, d2tmp6, d2tmp7;

-    uint8x8x2_t d2tmp8, d2tmp9, d2tmp10, d2tmp11;

-    uint8x8x4_t d4Result;

-    uint8x8x2_t d2Result;

-    if (count == 0)

-        return;

-    dblimit = vld1_u8(blimit);

-    dlimit = vld1_u8(limit);

-    dthresh = vld1_u8(thresh);

-    for (i = 0; i < count; i++) {

-        s = src + (i * (pitch << 3)) - 4;

-        d3u8 = vld1_u8(s);

-        s += pitch;

-        d4u8 = vld1_u8(s);

-        s += pitch;

-        d5u8 = vld1_u8(s);

-        s += pitch;

-        d6u8 = vld1_u8(s);

-        s += pitch;

-        d7u8 = vld1_u8(s);

-        s += pitch;

-        d16u8 = vld1_u8(s);

-        s += pitch;

-        d17u8 = vld1_u8(s);

-        s += pitch;

-        d18u8 = vld1_u8(s);

-        d2tmp0 = vtrn_u32(vreinterpret_u32_u8(d3u8),

-                          vreinterpret_u32_u8(d7u8));

-        d2tmp1 = vtrn_u32(vreinterpret_u32_u8(d4u8),

-                          vreinterpret_u32_u8(d16u8));

-        d2tmp2 = vtrn_u32(vreinterpret_u32_u8(d5u8),

-                          vreinterpret_u32_u8(d17u8));

-        d2tmp3 = vtrn_u32(vreinterpret_u32_u8(d6u8),

-                          vreinterpret_u32_u8(d18u8));

-        d2tmp4 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[0]),

-                          vreinterpret_u16_u32(d2tmp2.val[0]));

-        d2tmp5 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[0]),

-                          vreinterpret_u16_u32(d2tmp3.val[0]));

-        d2tmp6 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[1]),

-                          vreinterpret_u16_u32(d2tmp2.val[1]));

-        d2tmp7 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[1]),

-                          vreinterpret_u16_u32(d2tmp3.val[1]));

-        d2tmp8 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[0]),

-                         vreinterpret_u8_u16(d2tmp5.val[0]));

-        d2tmp9 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[1]),

-                         vreinterpret_u8_u16(d2tmp5.val[1]));

-        d2tmp10 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[0]),

-                          vreinterpret_u8_u16(d2tmp7.val[0]));

-        d2tmp11 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[1]),

-                          vreinterpret_u8_u16(d2tmp7.val[1]));

-        d3u8 = d2tmp8.val[0];

-        d4u8 = d2tmp8.val[1];

-        d5u8 = d2tmp9.val[0];

-        d6u8 = d2tmp9.val[1];

-        d7u8 = d2tmp10.val[0];

-        d16u8 = d2tmp10.val[1];

-        d17u8 = d2tmp11.val[0];

-        d18u8 = d2tmp11.val[1];

-        vp9_mbloop_filter_neon(dblimit, dlimit, dthresh,

-                             d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,

-                             &d0u8, &d1u8, &d2u8, &d3u8, &d4u8, &d5u8);

-        d4Result.val[0] = d0u8;

-        d4Result.val[1] = d1u8;

-        d4Result.val[2] = d2u8;

-        d4Result.val[3] = d3u8;

-        d2Result.val[0] = d4u8;

-        d2Result.val[1] = d5u8;

-        s = src - 3;

-        vst4_lane_u8(s, d4Result, 0);

-        s += pitch;

-        vst4_lane_u8(s, d4Result, 1);

-        s += pitch;

-        vst4_lane_u8(s, d4Result, 2);

-        s += pitch;

-        vst4_lane_u8(s, d4Result, 3);

-        s += pitch;

-        vst4_lane_u8(s, d4Result, 4);

-        s += pitch;

-        vst4_lane_u8(s, d4Result, 5);

-        s += pitch;

-        vst4_lane_u8(s, d4Result, 6);

-        s += pitch;

-        vst4_lane_u8(s, d4Result, 7);

-        s = src + 1;

-        vst2_lane_u8(s, d2Result, 0);

-        s += pitch;

-        vst2_lane_u8(s, d2Result, 1);

-        s += pitch;

-        vst2_lane_u8(s, d2Result, 2);

-        s += pitch;

-        vst2_lane_u8(s, d2Result, 3);

-        s += pitch;

-        vst2_lane_u8(s, d2Result, 4);

-        s += pitch;

-        vst2_lane_u8(s, d2Result, 5);

-        s += pitch;

-        vst2_lane_u8(s, d2Result, 6);

-        s += pitch;

-        vst2_lane_u8(s, d2Result, 7);

-    }

-    return;

-}

--- a/vp9/common/arm/neon/vp9_loopfilter_8_neon_asm.asm

+++ /dev/null

@@ -1,451 +1,0 @@

-;

-;  Copyright (c) 2013 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp9_lpf_horizontal_8_neon|

-    EXPORT  |vp9_lpf_vertical_8_neon|

-    ARM

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; Currently vp9 only works on iterations 8 at a time. The vp8 loop filter

-; works on 16 iterations at a time.

-; TODO(fgalligan): See about removing the count code as this function is only

-; called with a count of 1.

-;

-; void vp9_lpf_horizontal_8_neon(uint8_t *s, int p,

-;                                const uint8_t *blimit,

-;                                const uint8_t *limit,

-;                                const uint8_t *thresh,

-;                                int count)

-; r0    uint8_t *s,

-; r1    int p, /* pitch */

-; r2    const uint8_t *blimit,

-; r3    const uint8_t *limit,

-; sp    const uint8_t *thresh,

-; sp+4  int count

-|vp9_lpf_horizontal_8_neon| PROC

-    push        {r4-r5, lr}

-    vld1.8      {d0[]}, [r2]               ; duplicate *blimit

-    ldr         r12, [sp, #16]             ; load count

-    ldr         r2, [sp, #12]              ; load thresh

-    add         r1, r1, r1                 ; double pitch

-    cmp         r12, #0

-    beq         end_vp9_mblf_h_edge

-    vld1.8      {d1[]}, [r3]               ; duplicate *limit

-    vld1.8      {d2[]}, [r2]               ; duplicate *thresh

-count_mblf_h_loop

-    sub         r3, r0, r1, lsl #1         ; move src pointer down by 4 lines

-    add         r2, r3, r1, lsr #1         ; set to 3 lines down

-    vld1.u8     {d3}, [r3@64], r1          ; p3

-    vld1.u8     {d4}, [r2@64], r1          ; p2

-    vld1.u8     {d5}, [r3@64], r1          ; p1

-    vld1.u8     {d6}, [r2@64], r1          ; p0

-    vld1.u8     {d7}, [r3@64], r1          ; q0

-    vld1.u8     {d16}, [r2@64], r1         ; q1

-    vld1.u8     {d17}, [r3@64]             ; q2

-    vld1.u8     {d18}, [r2@64], r1         ; q3

-    sub         r3, r3, r1, lsl #1

-    sub         r2, r2, r1, lsl #2

-    bl          vp9_mbloop_filter_neon

-    vst1.u8     {d0}, [r2@64], r1          ; store op2

-    vst1.u8     {d1}, [r3@64], r1          ; store op1

-    vst1.u8     {d2}, [r2@64], r1          ; store op0

-    vst1.u8     {d3}, [r3@64], r1          ; store oq0

-    vst1.u8     {d4}, [r2@64], r1          ; store oq1

-    vst1.u8     {d5}, [r3@64], r1          ; store oq2

-    add         r0, r0, #8

-    subs        r12, r12, #1

-    bne         count_mblf_h_loop

-end_vp9_mblf_h_edge

-    pop         {r4-r5, pc}

-    ENDP        ; |vp9_lpf_horizontal_8_neon|

-; void vp9_lpf_vertical_8_neon(uint8_t *s,

-;                              int pitch,

-;                              const uint8_t *blimit,

-;                              const uint8_t *limit,

-;                              const uint8_t *thresh,

-;                              int count)

-;

-; r0    uint8_t *s,

-; r1    int pitch,

-; r2    const uint8_t *blimit,

-; r3    const uint8_t *limit,

-; sp    const uint8_t *thresh,

-; sp+4  int count

-|vp9_lpf_vertical_8_neon| PROC

-    push        {r4-r5, lr}

-    vld1.8      {d0[]}, [r2]              ; duplicate *blimit

-    ldr         r12, [sp, #16]            ; load count

-    vld1.8      {d1[]}, [r3]              ; duplicate *limit

-    ldr         r3, [sp, #12]             ; load thresh

-    sub         r2, r0, #4                ; move s pointer down by 4 columns

-    cmp         r12, #0

-    beq         end_vp9_mblf_v_edge

-    vld1.8      {d2[]}, [r3]              ; duplicate *thresh

-count_mblf_v_loop

-    vld1.u8     {d3}, [r2], r1             ; load s data

-    vld1.u8     {d4}, [r2], r1

-    vld1.u8     {d5}, [r2], r1

-    vld1.u8     {d6}, [r2], r1

-    vld1.u8     {d7}, [r2], r1

-    vld1.u8     {d16}, [r2], r1

-    vld1.u8     {d17}, [r2], r1

-    vld1.u8     {d18}, [r2]

-    ;transpose to 8x16 matrix

-    vtrn.32     d3, d7

-    vtrn.32     d4, d16

-    vtrn.32     d5, d17

-    vtrn.32     d6, d18

-    vtrn.16     d3, d5

-    vtrn.16     d4, d6

-    vtrn.16     d7, d17

-    vtrn.16     d16, d18

-    vtrn.8      d3, d4

-    vtrn.8      d5, d6

-    vtrn.8      d7, d16

-    vtrn.8      d17, d18

-    sub         r2, r0, #3

-    add         r3, r0, #1

-    bl          vp9_mbloop_filter_neon

-    ;store op2, op1, op0, oq0

-    vst4.8      {d0[0], d1[0], d2[0], d3[0]}, [r2], r1

-    vst4.8      {d0[1], d1[1], d2[1], d3[1]}, [r2], r1

-    vst4.8      {d0[2], d1[2], d2[2], d3[2]}, [r2], r1

-    vst4.8      {d0[3], d1[3], d2[3], d3[3]}, [r2], r1

-    vst4.8      {d0[4], d1[4], d2[4], d3[4]}, [r2], r1

-    vst4.8      {d0[5], d1[5], d2[5], d3[5]}, [r2], r1

-    vst4.8      {d0[6], d1[6], d2[6], d3[6]}, [r2], r1

-    vst4.8      {d0[7], d1[7], d2[7], d3[7]}, [r2]

-    ;store oq1, oq2

-    vst2.8      {d4[0], d5[0]}, [r3], r1

-    vst2.8      {d4[1], d5[1]}, [r3], r1

-    vst2.8      {d4[2], d5[2]}, [r3], r1

-    vst2.8      {d4[3], d5[3]}, [r3], r1

-    vst2.8      {d4[4], d5[4]}, [r3], r1

-    vst2.8      {d4[5], d5[5]}, [r3], r1

-    vst2.8      {d4[6], d5[6]}, [r3], r1

-    vst2.8      {d4[7], d5[7]}, [r3]

-    add         r0, r0, r1, lsl #3         ; s += pitch * 8

-    subs        r12, r12, #1

-    subne       r2, r0, #4                 ; move s pointer down by 4 columns

-    bne         count_mblf_v_loop

-end_vp9_mblf_v_edge

-    pop         {r4-r5, pc}

-    ENDP        ; |vp9_lpf_vertical_8_neon|

-; void vp9_mbloop_filter_neon();

-; This is a helper function for the loopfilters. The invidual functions do the

-; necessary load, transpose (if necessary) and store. The function does not use

-; registers d8-d15.

-;

-; Inputs:

-; r0-r3, r12 PRESERVE

-; d0    blimit

-; d1    limit

-; d2    thresh

-; d3    p3

-; d4    p2

-; d5    p1

-; d6    p0

-; d7    q0

-; d16   q1

-; d17   q2

-; d18   q3

-;

-; Outputs:

-; d0    op2

-; d1    op1

-; d2    op0

-; d3    oq0

-; d4    oq1

-; d5    oq2

-|vp9_mbloop_filter_neon| PROC

-    ; filter_mask

-    vabd.u8     d19, d3, d4                ; m1 = abs(p3 - p2)

-    vabd.u8     d20, d4, d5                ; m2 = abs(p2 - p1)

-    vabd.u8     d21, d5, d6                ; m3 = abs(p1 - p0)

-    vabd.u8     d22, d16, d7               ; m4 = abs(q1 - q0)

-    vabd.u8     d23, d17, d16              ; m5 = abs(q2 - q1)

-    vabd.u8     d24, d18, d17              ; m6 = abs(q3 - q2)

-    ; only compare the largest value to limit

-    vmax.u8     d19, d19, d20              ; m1 = max(m1, m2)

-    vmax.u8     d20, d21, d22              ; m2 = max(m3, m4)

-    vabd.u8     d25, d6, d4                ; m7 = abs(p0 - p2)

-    vmax.u8     d23, d23, d24              ; m3 = max(m5, m6)

-    vabd.u8     d26, d7, d17               ; m8 = abs(q0 - q2)

-    vmax.u8     d19, d19, d20

-    vabd.u8     d24, d6, d7                ; m9 = abs(p0 - q0)

-    vabd.u8     d27, d3, d6                ; m10 = abs(p3 - p0)

-    vabd.u8     d28, d18, d7               ; m11 = abs(q3 - q0)

-    vmax.u8     d19, d19, d23

-    vabd.u8     d23, d5, d16               ; a = abs(p1 - q1)

-    vqadd.u8    d24, d24, d24              ; b = abs(p0 - q0) * 2

-    ; abs () > limit

-    vcge.u8     d19, d1, d19

-    ; only compare the largest value to thresh

-    vmax.u8     d25, d25, d26              ; m4 = max(m7, m8)

-    vmax.u8     d26, d27, d28              ; m5 = max(m10, m11)

-    vshr.u8     d23, d23, #1               ; a = a / 2

-    vmax.u8     d25, d25, d26              ; m4 = max(m4, m5)

-    vqadd.u8    d24, d24, d23              ; a = b + a

-    vmax.u8     d20, d20, d25              ; m2 = max(m2, m4)

-    vmov.u8     d23, #1

-    vcge.u8     d24, d0, d24               ; a > blimit

-    vcgt.u8     d21, d21, d2               ; (abs(p1 - p0) > thresh)*-1

-    vcge.u8     d20, d23, d20              ; flat

-    vand        d19, d19, d24              ; mask

-    vcgt.u8     d23, d22, d2               ; (abs(q1 - q0) > thresh)*-1

-    vand        d20, d20, d19              ; flat & mask

-    vmov.u8     d22, #0x80

-    vorr        d23, d21, d23              ; hev

-    ; This instruction will truncate the "flat & mask" masks down to 4 bits

-    ; each to fit into one 32 bit arm register. The values are stored in

-    ; q10.64[0].

-    vshrn.u16   d30, q10, #4

-    vmov.u32    r4, d30[0]                 ; flat & mask 4bits

-    adds        r5, r4, #1                 ; Check for all 1's

-    ; If mask and flat are 1's for all vectors, then we only need to execute

-    ; the power branch for all vectors.

-    beq         power_branch_only

-    cmp         r4, #0                     ; Check for 0, set flag for later

-    ; mbfilter() function

-    ; filter() function

-    ; convert to signed

-    veor        d21, d7, d22               ; qs0

-    veor        d24, d6, d22               ; ps0

-    veor        d25, d5, d22               ; ps1

-    veor        d26, d16, d22              ; qs1

-    vmov.u8     d27, #3

-    vsub.s8     d28, d21, d24              ; ( qs0 - ps0)

-    vqsub.s8    d29, d25, d26              ; filter = clamp(ps1-qs1)

-    vmull.s8    q15, d28, d27              ; 3 * ( qs0 - ps0)

-    vand        d29, d29, d23              ; filter &= hev

-    vaddw.s8    q15, q15, d29              ; filter + 3 * (qs0 - ps0)

-    vmov.u8     d29, #4

-    ; filter = clamp(filter + 3 * ( qs0 - ps0))

-    vqmovn.s16  d28, q15

-    vand        d28, d28, d19              ; filter &= mask

-    vqadd.s8    d30, d28, d27              ; filter2 = clamp(filter+3)

-    vqadd.s8    d29, d28, d29              ; filter1 = clamp(filter+4)

-    vshr.s8     d30, d30, #3               ; filter2 >>= 3

-    vshr.s8     d29, d29, #3               ; filter1 >>= 3

-    vqadd.s8    d24, d24, d30              ; op0 = clamp(ps0 + filter2)

-    vqsub.s8    d21, d21, d29              ; oq0 = clamp(qs0 - filter1)

-    ; outer tap adjustments: ++filter1 >> 1

-    vrshr.s8    d29, d29, #1

-    vbic        d29, d29, d23              ; filter &= ~hev

-    vqadd.s8    d25, d25, d29              ; op1 = clamp(ps1 + filter)

-    vqsub.s8    d26, d26, d29              ; oq1 = clamp(qs1 - filter)

-    ; If mask and flat are 0's for all vectors, then we only need to execute

-    ; the filter branch for all vectors.

-    beq         filter_branch_only

-    ; If mask and flat are mixed then we must perform both branches and

-    ; combine the data.

-    veor        d24, d24, d22              ; *f_op0 = u^0x80

-    veor        d21, d21, d22              ; *f_oq0 = u^0x80

-    veor        d25, d25, d22              ; *f_op1 = u^0x80

-    veor        d26, d26, d22              ; *f_oq1 = u^0x80

-    ; At this point we have already executed the filter branch. The filter

-    ; branch does not set op2 or oq2, so use p2 and q2. Execute the power

-    ; branch and combine the data.

-    vmov.u8     d23, #2

-    vaddl.u8    q14, d6, d7                ; r_op2 = p0 + q0

-    vmlal.u8    q14, d3, d27               ; r_op2 += p3 * 3

-    vmlal.u8    q14, d4, d23               ; r_op2 += p2 * 2

-    vbif        d0, d4, d20                ; op2 |= p2 & ~(flat & mask)

-    vaddw.u8    q14, d5                    ; r_op2 += p1

-    vbif        d1, d25, d20               ; op1 |= f_op1 & ~(flat & mask)

-    vqrshrn.u16 d30, q14, #3               ; r_op2

-    vsubw.u8    q14, d3                    ; r_op1 = r_op2 - p3

-    vsubw.u8    q14, d4                    ; r_op1 -= p2

-    vaddw.u8    q14, d5                    ; r_op1 += p1

-    vaddw.u8    q14, d16                   ; r_op1 += q1

-    vbif        d2, d24, d20               ; op0 |= f_op0 & ~(flat & mask)

-    vqrshrn.u16 d31, q14, #3               ; r_op1

-    vsubw.u8    q14, d3                    ; r_op0 = r_op1 - p3

-    vsubw.u8    q14, d5                    ; r_op0 -= p1

-    vaddw.u8    q14, d6                    ; r_op0 += p0

-    vaddw.u8    q14, d17                   ; r_op0 += q2

-    vbit        d0, d30, d20               ; op2 |= r_op2 & (flat & mask)

-    vqrshrn.u16 d23, q14, #3               ; r_op0

-    vsubw.u8    q14, d3                    ; r_oq0 = r_op0 - p3

-    vsubw.u8    q14, d6                    ; r_oq0 -= p0

-    vaddw.u8    q14, d7                    ; r_oq0 += q0

-    vbit        d1, d31, d20               ; op1 |= r_op1 & (flat & mask)

-    vaddw.u8    q14, d18                   ; oq0 += q3

-    vbit        d2, d23, d20               ; op0 |= r_op0 & (flat & mask)

-    vqrshrn.u16 d22, q14, #3               ; r_oq0

-    vsubw.u8    q14, d4                    ; r_oq1 = r_oq0 - p2

-    vsubw.u8    q14, d7                    ; r_oq1 -= q0

-    vaddw.u8    q14, d16                   ; r_oq1 += q1

-    vbif        d3, d21, d20               ; oq0 |= f_oq0 & ~(flat & mask)

-    vaddw.u8    q14, d18                   ; r_oq1 += q3

-    vbif        d4, d26, d20               ; oq1 |= f_oq1 & ~(flat & mask)

-    vqrshrn.u16 d6, q14, #3                ; r_oq1

-    vsubw.u8    q14, d5                    ; r_oq2 = r_oq1 - p1

-    vsubw.u8    q14, d16                   ; r_oq2 -= q1

-    vaddw.u8    q14, d17                   ; r_oq2 += q2

-    vaddw.u8    q14, d18                   ; r_oq2 += q3

-    vbif        d5, d17, d20               ; oq2 |= q2 & ~(flat & mask)

-    vqrshrn.u16 d7, q14, #3                ; r_oq2

-    vbit        d3, d22, d20               ; oq0 |= r_oq0 & (flat & mask)

-    vbit        d4, d6, d20                ; oq1 |= r_oq1 & (flat & mask)

-    vbit        d5, d7, d20                ; oq2 |= r_oq2 & (flat & mask)

-    bx          lr

-power_branch_only

-    vmov.u8     d27, #3

-    vmov.u8     d21, #2

-    vaddl.u8    q14, d6, d7                ; op2 = p0 + q0

-    vmlal.u8    q14, d3, d27               ; op2 += p3 * 3

-    vmlal.u8    q14, d4, d21               ; op2 += p2 * 2

-    vaddw.u8    q14, d5                    ; op2 += p1

-    vqrshrn.u16 d0, q14, #3                ; op2

-    vsubw.u8    q14, d3                    ; op1 = op2 - p3

-    vsubw.u8    q14, d4                    ; op1 -= p2

-    vaddw.u8    q14, d5                    ; op1 += p1

-    vaddw.u8    q14, d16                   ; op1 += q1

-    vqrshrn.u16 d1, q14, #3                ; op1

-    vsubw.u8    q14, d3                    ; op0 = op1 - p3

-    vsubw.u8    q14, d5                    ; op0 -= p1

-    vaddw.u8    q14, d6                    ; op0 += p0

-    vaddw.u8    q14, d17                   ; op0 += q2

-    vqrshrn.u16 d2, q14, #3                ; op0

-    vsubw.u8    q14, d3                    ; oq0 = op0 - p3

-    vsubw.u8    q14, d6                    ; oq0 -= p0

-    vaddw.u8    q14, d7                    ; oq0 += q0

-    vaddw.u8    q14, d18                   ; oq0 += q3

-    vqrshrn.u16 d3, q14, #3                ; oq0

-    vsubw.u8    q14, d4                    ; oq1 = oq0 - p2

-    vsubw.u8    q14, d7                    ; oq1 -= q0

-    vaddw.u8    q14, d16                   ; oq1 += q1

-    vaddw.u8    q14, d18                   ; oq1 += q3

-    vqrshrn.u16 d4, q14, #3                ; oq1

-    vsubw.u8    q14, d5                    ; oq2 = oq1 - p1

-    vsubw.u8    q14, d16                   ; oq2 -= q1

-    vaddw.u8    q14, d17                   ; oq2 += q2

-    vaddw.u8    q14, d18                   ; oq2 += q3

-    vqrshrn.u16 d5, q14, #3                ; oq2

-    bx          lr

-filter_branch_only

-    ; TODO(fgalligan): See if we can rearange registers so we do not need to

-    ; do the 2 vswp.

-    vswp        d0, d4                      ; op2

-    vswp        d5, d17                     ; oq2

-    veor        d2, d24, d22                ; *op0 = u^0x80

-    veor        d3, d21, d22                ; *oq0 = u^0x80

-    veor        d1, d25, d22                ; *op1 = u^0x80

-    veor        d4, d26, d22                ; *oq1 = u^0x80

-    bx          lr

-    ENDP        ; |vp9_mbloop_filter_neon|

-    END

--- a/vp9/common/arm/neon/vp9_loopfilter_neon.c

+++ /dev/null

@@ -1,58 +1,0 @@

-/*

- *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include <arm_neon.h>

-#include "./vp9_rtcd.h"

-#include "./vpx_config.h"

-#include "vpx/vpx_integer.h"

-void vp9_lpf_vertical_4_dual_neon(uint8_t *s, int p,

-                                  const uint8_t *blimit0,

-                                  const uint8_t *limit0,

-                                  const uint8_t *thresh0,

-                                  const uint8_t *blimit1,

-                                  const uint8_t *limit1,

-                                  const uint8_t *thresh1) {

-  vp9_lpf_vertical_4_neon(s, p, blimit0, limit0, thresh0, 1);

-  vp9_lpf_vertical_4_neon(s + 8 * p, p, blimit1, limit1, thresh1, 1);

-}

-#if HAVE_NEON_ASM

-void vp9_lpf_horizontal_8_dual_neon(uint8_t *s, int p /* pitch */,

-                                    const uint8_t *blimit0,

-                                    const uint8_t *limit0,

-                                    const uint8_t *thresh0,

-                                    const uint8_t *blimit1,

-                                    const uint8_t *limit1,

-                                    const uint8_t *thresh1) {

-  vp9_lpf_horizontal_8_neon(s, p, blimit0, limit0, thresh0, 1);

-  vp9_lpf_horizontal_8_neon(s + 8, p, blimit1, limit1, thresh1, 1);

-}

-void vp9_lpf_vertical_8_dual_neon(uint8_t *s, int p,

-                                  const uint8_t *blimit0,

-                                  const uint8_t *limit0,

-                                  const uint8_t *thresh0,

-                                  const uint8_t *blimit1,

-                                  const uint8_t *limit1,

-                                  const uint8_t *thresh1) {

-  vp9_lpf_vertical_8_neon(s, p, blimit0, limit0, thresh0, 1);

-  vp9_lpf_vertical_8_neon(s + 8 * p, p, blimit1, limit1, thresh1, 1);

-}

-void vp9_lpf_vertical_16_dual_neon(uint8_t *s, int p,

-                                   const uint8_t *blimit,

-                                   const uint8_t *limit,

-                                   const uint8_t *thresh) {

-  vp9_lpf_vertical_16_neon(s, p, blimit, limit, thresh);

-  vp9_lpf_vertical_16_neon(s + 8 * p, p, blimit, limit, thresh);

-}

-#endif  // HAVE_NEON_ASM

--- a/vp9/common/arm/neon/vp9_mb_lpf_neon.asm

+++ /dev/null

@@ -1,606 +1,0 @@

-;

-;  Copyright (c) 2013 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-    EXPORT  |vp9_lpf_horizontal_16_neon|

-    EXPORT  |vp9_lpf_vertical_16_neon|

-    ARM

-    AREA ||.text||, CODE, READONLY, ALIGN=2

-; void vp9_lpf_horizontal_16_neon(uint8_t *s, int p,

-;                                 const uint8_t *blimit,

-;                                 const uint8_t *limit,

-;                                 const uint8_t *thresh

-;                                 int count)

-; r0    uint8_t *s,

-; r1    int p, /* pitch */

-; r2    const uint8_t *blimit,

-; r3    const uint8_t *limit,

-; sp    const uint8_t *thresh,

-|vp9_lpf_horizontal_16_neon| PROC

-    push        {r4-r8, lr}

-    vpush       {d8-d15}

-    ldr         r4, [sp, #88]              ; load thresh

-    ldr         r12, [sp, #92]             ; load count

-h_count

-    vld1.8      {d16[]}, [r2]              ; load *blimit

-    vld1.8      {d17[]}, [r3]              ; load *limit

-    vld1.8      {d18[]}, [r4]              ; load *thresh

-    sub         r8, r0, r1, lsl #3         ; move src pointer down by 8 lines

-    vld1.u8     {d0}, [r8@64], r1          ; p7

-    vld1.u8     {d1}, [r8@64], r1          ; p6

-    vld1.u8     {d2}, [r8@64], r1          ; p5

-    vld1.u8     {d3}, [r8@64], r1          ; p4

-    vld1.u8     {d4}, [r8@64], r1          ; p3

-    vld1.u8     {d5}, [r8@64], r1          ; p2

-    vld1.u8     {d6}, [r8@64], r1          ; p1

-    vld1.u8     {d7}, [r8@64], r1          ; p0

-    vld1.u8     {d8}, [r8@64], r1          ; q0

-    vld1.u8     {d9}, [r8@64], r1          ; q1

-    vld1.u8     {d10}, [r8@64], r1         ; q2

-    vld1.u8     {d11}, [r8@64], r1         ; q3

-    vld1.u8     {d12}, [r8@64], r1         ; q4

-    vld1.u8     {d13}, [r8@64], r1         ; q5

-    vld1.u8     {d14}, [r8@64], r1         ; q6

-    vld1.u8     {d15}, [r8@64], r1         ; q7

-    bl          vp9_wide_mbfilter_neon

-    tst         r7, #1

-    beq         h_mbfilter

-    ; flat && mask were not set for any of the channels. Just store the values

-    ; from filter.

-    sub         r8, r0, r1, lsl #1

-    vst1.u8     {d25}, [r8@64], r1         ; store op1

-    vst1.u8     {d24}, [r8@64], r1         ; store op0

-    vst1.u8     {d23}, [r8@64], r1         ; store oq0

-    vst1.u8     {d26}, [r8@64], r1         ; store oq1

-    b           h_next

-h_mbfilter

-    tst         r7, #2

-    beq         h_wide_mbfilter

-    ; flat2 was not set for any of the channels. Just store the values from

-    ; mbfilter.

-    sub         r8, r0, r1, lsl #1

-    sub         r8, r8, r1

-    vst1.u8     {d18}, [r8@64], r1         ; store op2

-    vst1.u8     {d19}, [r8@64], r1         ; store op1

-    vst1.u8     {d20}, [r8@64], r1         ; store op0

-    vst1.u8     {d21}, [r8@64], r1         ; store oq0

-    vst1.u8     {d22}, [r8@64], r1         ; store oq1

-    vst1.u8     {d23}, [r8@64], r1         ; store oq2

-    b           h_next

-h_wide_mbfilter

-    sub         r8, r0, r1, lsl #3

-    add         r8, r8, r1

-    vst1.u8     {d16}, [r8@64], r1         ; store op6

-    vst1.u8     {d24}, [r8@64], r1         ; store op5

-    vst1.u8     {d25}, [r8@64], r1         ; store op4

-    vst1.u8     {d26}, [r8@64], r1         ; store op3

-    vst1.u8     {d27}, [r8@64], r1         ; store op2

-    vst1.u8     {d18}, [r8@64], r1         ; store op1

-    vst1.u8     {d19}, [r8@64], r1         ; store op0

-    vst1.u8     {d20}, [r8@64], r1         ; store oq0

-    vst1.u8     {d21}, [r8@64], r1         ; store oq1

-    vst1.u8     {d22}, [r8@64], r1         ; store oq2

-    vst1.u8     {d23}, [r8@64], r1         ; store oq3

-    vst1.u8     {d1}, [r8@64], r1          ; store oq4

-    vst1.u8     {d2}, [r8@64], r1          ; store oq5

-    vst1.u8     {d3}, [r8@64], r1          ; store oq6

-h_next

-    add         r0, r0, #8

-    subs        r12, r12, #1

-    bne         h_count

-    vpop        {d8-d15}

-    pop         {r4-r8, pc}

-    ENDP        ; |vp9_lpf_horizontal_16_neon|

-; void vp9_lpf_vertical_16_neon(uint8_t *s, int p,

-;                               const uint8_t *blimit,

-;                               const uint8_t *limit,

-;                               const uint8_t *thresh)

-; r0    uint8_t *s,

-; r1    int p, /* pitch */

-; r2    const uint8_t *blimit,

-; r3    const uint8_t *limit,

-; sp    const uint8_t *thresh,

-|vp9_lpf_vertical_16_neon| PROC

-    push        {r4-r8, lr}

-    vpush       {d8-d15}

-    ldr         r4, [sp, #88]              ; load thresh

-    vld1.8      {d16[]}, [r2]              ; load *blimit

-    vld1.8      {d17[]}, [r3]              ; load *limit

-    vld1.8      {d18[]}, [r4]              ; load *thresh

-    sub         r8, r0, #8

-    vld1.8      {d0}, [r8@64], r1

-    vld1.8      {d8}, [r0@64], r1

-    vld1.8      {d1}, [r8@64], r1

-    vld1.8      {d9}, [r0@64], r1

-    vld1.8      {d2}, [r8@64], r1

-    vld1.8      {d10}, [r0@64], r1

-    vld1.8      {d3}, [r8@64], r1

-    vld1.8      {d11}, [r0@64], r1

-    vld1.8      {d4}, [r8@64], r1

-    vld1.8      {d12}, [r0@64], r1

-    vld1.8      {d5}, [r8@64], r1

-    vld1.8      {d13}, [r0@64], r1

-    vld1.8      {d6}, [r8@64], r1

-    vld1.8      {d14}, [r0@64], r1

-    vld1.8      {d7}, [r8@64], r1

-    vld1.8      {d15}, [r0@64], r1

-    sub         r0, r0, r1, lsl #3

-    vtrn.32     q0, q2

-    vtrn.32     q1, q3

-    vtrn.32     q4, q6

-    vtrn.32     q5, q7

-    vtrn.16     q0, q1

-    vtrn.16     q2, q3

-    vtrn.16     q4, q5

-    vtrn.16     q6, q7

-    vtrn.8      d0, d1

-    vtrn.8      d2, d3

-    vtrn.8      d4, d5

-    vtrn.8      d6, d7

-    vtrn.8      d8, d9

-    vtrn.8      d10, d11

-    vtrn.8      d12, d13

-    vtrn.8      d14, d15

-    bl          vp9_wide_mbfilter_neon

-    tst         r7, #1

-    beq         v_mbfilter

-    ; flat && mask were not set for any of the channels. Just store the values

-    ; from filter.

-    sub         r8, r0, #2

-    vswp        d23, d25

-    vst4.8      {d23[0], d24[0], d25[0], d26[0]}, [r8], r1

-    vst4.8      {d23[1], d24[1], d25[1], d26[1]}, [r8], r1

-    vst4.8      {d23[2], d24[2], d25[2], d26[2]}, [r8], r1

-    vst4.8      {d23[3], d24[3], d25[3], d26[3]}, [r8], r1

-    vst4.8      {d23[4], d24[4], d25[4], d26[4]}, [r8], r1

-    vst4.8      {d23[5], d24[5], d25[5], d26[5]}, [r8], r1

-    vst4.8      {d23[6], d24[6], d25[6], d26[6]}, [r8], r1

-    vst4.8      {d23[7], d24[7], d25[7], d26[7]}, [r8], r1

-    b           v_end

-v_mbfilter

-    tst         r7, #2

-    beq         v_wide_mbfilter

-    ; flat2 was not set for any of the channels. Just store the values from

-    ; mbfilter.

-    sub         r8, r0, #3

-    vst3.8      {d18[0], d19[0], d20[0]}, [r8], r1

-    vst3.8      {d21[0], d22[0], d23[0]}, [r0], r1

-    vst3.8      {d18[1], d19[1], d20[1]}, [r8], r1

-    vst3.8      {d21[1], d22[1], d23[1]}, [r0], r1

-    vst3.8      {d18[2], d19[2], d20[2]}, [r8], r1

-    vst3.8      {d21[2], d22[2], d23[2]}, [r0], r1

-    vst3.8      {d18[3], d19[3], d20[3]}, [r8], r1

-    vst3.8      {d21[3], d22[3], d23[3]}, [r0], r1

-    vst3.8      {d18[4], d19[4], d20[4]}, [r8], r1

-    vst3.8      {d21[4], d22[4], d23[4]}, [r0], r1

-    vst3.8      {d18[5], d19[5], d20[5]}, [r8], r1

-    vst3.8      {d21[5], d22[5], d23[5]}, [r0], r1

-    vst3.8      {d18[6], d19[6], d20[6]}, [r8], r1

-    vst3.8      {d21[6], d22[6], d23[6]}, [r0], r1

-    vst3.8      {d18[7], d19[7], d20[7]}, [r8], r1

-    vst3.8      {d21[7], d22[7], d23[7]}, [r0], r1

-    b           v_end

-v_wide_mbfilter

-    sub         r8, r0, #8

-    vtrn.32     d0,  d26

-    vtrn.32     d16, d27

-    vtrn.32     d24, d18

-    vtrn.32     d25, d19

-    vtrn.16     d0,  d24

-    vtrn.16     d16, d25

-    vtrn.16     d26, d18

-    vtrn.16     d27, d19

-    vtrn.8      d0,  d16

-    vtrn.8      d24, d25

-    vtrn.8      d26, d27

-    vtrn.8      d18, d19

-    vtrn.32     d20, d1

-    vtrn.32     d21, d2

-    vtrn.32     d22, d3

-    vtrn.32     d23, d15

-    vtrn.16     d20, d22

-    vtrn.16     d21, d23

-    vtrn.16     d1,  d3

-    vtrn.16     d2,  d15

-    vtrn.8      d20, d21

-    vtrn.8      d22, d23

-    vtrn.8      d1,  d2

-    vtrn.8      d3,  d15

-    vst1.8      {d0}, [r8@64], r1

-    vst1.8      {d20}, [r0@64], r1

-    vst1.8      {d16}, [r8@64], r1

-    vst1.8      {d21}, [r0@64], r1

-    vst1.8      {d24}, [r8@64], r1

-    vst1.8      {d22}, [r0@64], r1

-    vst1.8      {d25}, [r8@64], r1

-    vst1.8      {d23}, [r0@64], r1

-    vst1.8      {d26}, [r8@64], r1

-    vst1.8      {d1}, [r0@64], r1

-    vst1.8      {d27}, [r8@64], r1

-    vst1.8      {d2}, [r0@64], r1

-    vst1.8      {d18}, [r8@64], r1

-    vst1.8      {d3}, [r0@64], r1

-    vst1.8      {d19}, [r8@64], r1

-    vst1.8      {d15}, [r0@64], r1

-v_end

-    vpop        {d8-d15}

-    pop         {r4-r8, pc}

-    ENDP        ; |vp9_lpf_vertical_16_neon|

-; void vp9_wide_mbfilter_neon();

-; This is a helper function for the loopfilters. The invidual functions do the

-; necessary load, transpose (if necessary) and store.

-;

-; r0-r3 PRESERVE

-; d16    blimit

-; d17    limit

-; d18    thresh

-; d0    p7

-; d1    p6

-; d2    p5

-; d3    p4

-; d4    p3

-; d5    p2

-; d6    p1

-; d7    p0

-; d8    q0

-; d9    q1

-; d10   q2

-; d11   q3

-; d12   q4

-; d13   q5

-; d14   q6

-; d15   q7

-|vp9_wide_mbfilter_neon| PROC

-    mov         r7, #0

-    ; filter_mask

-    vabd.u8     d19, d4, d5                ; abs(p3 - p2)

-    vabd.u8     d20, d5, d6                ; abs(p2 - p1)

-    vabd.u8     d21, d6, d7                ; abs(p1 - p0)

-    vabd.u8     d22, d9, d8                ; abs(q1 - q0)

-    vabd.u8     d23, d10, d9               ; abs(q2 - q1)

-    vabd.u8     d24, d11, d10              ; abs(q3 - q2)

-    ; only compare the largest value to limit

-    vmax.u8     d19, d19, d20              ; max(abs(p3 - p2), abs(p2 - p1))

-    vmax.u8     d20, d21, d22              ; max(abs(p1 - p0), abs(q1 - q0))

-    vmax.u8     d23, d23, d24              ; max(abs(q2 - q1), abs(q3 - q2))

-    vmax.u8     d19, d19, d20

-    vabd.u8     d24, d7, d8                ; abs(p0 - q0)

-    vmax.u8     d19, d19, d23

-    vabd.u8     d23, d6, d9                ; a = abs(p1 - q1)

-    vqadd.u8    d24, d24, d24              ; b = abs(p0 - q0) * 2

-    ; abs () > limit

-    vcge.u8     d19, d17, d19

-    ; flatmask4

-    vabd.u8     d25, d7, d5                ; abs(p0 - p2)

-    vabd.u8     d26, d8, d10               ; abs(q0 - q2)

-    vabd.u8     d27, d4, d7                ; abs(p3 - p0)

-    vabd.u8     d28, d11, d8               ; abs(q3 - q0)

-    ; only compare the largest value to thresh

-    vmax.u8     d25, d25, d26              ; max(abs(p0 - p2), abs(q0 - q2))

-    vmax.u8     d26, d27, d28              ; max(abs(p3 - p0), abs(q3 - q0))

-    vmax.u8     d25, d25, d26

-    vmax.u8     d20, d20, d25

-    vshr.u8     d23, d23, #1               ; a = a / 2

-    vqadd.u8    d24, d24, d23              ; a = b + a

-    vmov.u8     d30, #1

-    vcge.u8     d24, d16, d24              ; (a > blimit * 2 + limit) * -1

-    vcge.u8     d20, d30, d20              ; flat

-    vand        d19, d19, d24              ; mask

-    ; hevmask

-    vcgt.u8     d21, d21, d18              ; (abs(p1 - p0) > thresh)*-1

-    vcgt.u8     d22, d22, d18              ; (abs(q1 - q0) > thresh)*-1

-    vorr        d21, d21, d22              ; hev

-    vand        d16, d20, d19              ; flat && mask

-    vmov        r5, r6, d16

-    ; flatmask5(1, p7, p6, p5, p4, p0, q0, q4, q5, q6, q7)

-    vabd.u8     d22, d3, d7                ; abs(p4 - p0)

-    vabd.u8     d23, d12, d8               ; abs(q4 - q0)

-    vabd.u8     d24, d7, d2                ; abs(p0 - p5)

-    vabd.u8     d25, d8, d13               ; abs(q0 - q5)

-    vabd.u8     d26, d1, d7                ; abs(p6 - p0)

-    vabd.u8     d27, d14, d8               ; abs(q6 - q0)

-    vabd.u8     d28, d0, d7                ; abs(p7 - p0)

-    vabd.u8     d29, d15, d8               ; abs(q7 - q0)

-    ; only compare the largest value to thresh

-    vmax.u8     d22, d22, d23              ; max(abs(p4 - p0), abs(q4 - q0))

-    vmax.u8     d23, d24, d25              ; max(abs(p0 - p5), abs(q0 - q5))

-    vmax.u8     d24, d26, d27              ; max(abs(p6 - p0), abs(q6 - q0))

-    vmax.u8     d25, d28, d29              ; max(abs(p7 - p0), abs(q7 - q0))

-    vmax.u8     d26, d22, d23

-    vmax.u8     d27, d24, d25

-    vmax.u8     d23, d26, d27

-    vcge.u8     d18, d30, d23              ; flat2

-    vmov.u8     d22, #0x80

-    orrs        r5, r5, r6                 ; Check for 0

-    orreq       r7, r7, #1                 ; Only do filter branch

-    vand        d17, d18, d16              ; flat2 && flat && mask

-    vmov        r5, r6, d17

-    ; mbfilter() function

-    ; filter() function

-    ; convert to signed

-    veor        d23, d8, d22               ; qs0

-    veor        d24, d7, d22               ; ps0

-    veor        d25, d6, d22               ; ps1

-    veor        d26, d9, d22               ; qs1

-    vmov.u8     d27, #3

-    vsub.s8     d28, d23, d24              ; ( qs0 - ps0)

-    vqsub.s8    d29, d25, d26              ; filter = clamp(ps1-qs1)

-    vmull.s8    q15, d28, d27              ; 3 * ( qs0 - ps0)

-    vand        d29, d29, d21              ; filter &= hev

-    vaddw.s8    q15, q15, d29              ; filter + 3 * (qs0 - ps0)

-    vmov.u8     d29, #4

-    ; filter = clamp(filter + 3 * ( qs0 - ps0))

-    vqmovn.s16  d28, q15

-    vand        d28, d28, d19              ; filter &= mask

-    vqadd.s8    d30, d28, d27              ; filter2 = clamp(filter+3)

-    vqadd.s8    d29, d28, d29              ; filter1 = clamp(filter+4)

-    vshr.s8     d30, d30, #3               ; filter2 >>= 3

-    vshr.s8     d29, d29, #3               ; filter1 >>= 3

-    vqadd.s8    d24, d24, d30              ; op0 = clamp(ps0 + filter2)

-    vqsub.s8    d23, d23, d29              ; oq0 = clamp(qs0 - filter1)

-    ; outer tap adjustments: ++filter1 >> 1

-    vrshr.s8    d29, d29, #1

-    vbic        d29, d29, d21              ; filter &= ~hev

-    vqadd.s8    d25, d25, d29              ; op1 = clamp(ps1 + filter)

-    vqsub.s8    d26, d26, d29              ; oq1 = clamp(qs1 - filter)

-    veor        d24, d24, d22              ; *f_op0 = u^0x80

-    veor        d23, d23, d22              ; *f_oq0 = u^0x80

-    veor        d25, d25, d22              ; *f_op1 = u^0x80

-    veor        d26, d26, d22              ; *f_oq1 = u^0x80

-    tst         r7, #1

-    bxne        lr

-    orrs        r5, r5, r6                 ; Check for 0

-    orreq       r7, r7, #2                 ; Only do mbfilter branch

-    ; mbfilter flat && mask branch

-    ; TODO(fgalligan): Can I decrease the cycles shifting to consective d's

-    ; and using vibt on the q's?

-    vmov.u8     d29, #2

-    vaddl.u8    q15, d7, d8                ; op2 = p0 + q0

-    vmlal.u8    q15, d4, d27               ; op2 = p0 + q0 + p3 * 3

-    vmlal.u8    q15, d5, d29               ; op2 = p0 + q0 + p3 * 3 + p2 * 2

-    vaddl.u8    q10, d4, d5

-    vaddw.u8    q15, d6                    ; op2=p1 + p0 + q0 + p3 * 3 + p2 *2

-    vaddl.u8    q14, d6, d9

-    vqrshrn.u16 d18, q15, #3               ; r_op2

-    vsub.i16    q15, q10

-    vaddl.u8    q10, d4, d6

-    vadd.i16    q15, q14

-    vaddl.u8    q14, d7, d10

-    vqrshrn.u16 d19, q15, #3               ; r_op1

-    vsub.i16    q15, q10

-    vadd.i16    q15, q14

-    vaddl.u8    q14, d8, d11

-    vqrshrn.u16 d20, q15, #3               ; r_op0

-    vsubw.u8    q15, d4                    ; oq0 = op0 - p3

-    vsubw.u8    q15, d7                    ; oq0 -= p0

-    vadd.i16    q15, q14

-    vaddl.u8    q14, d9, d11

-    vqrshrn.u16 d21, q15, #3               ; r_oq0

-    vsubw.u8    q15, d5                    ; oq1 = oq0 - p2

-    vsubw.u8    q15, d8                    ; oq1 -= q0

-    vadd.i16    q15, q14

-    vaddl.u8    q14, d10, d11

-    vqrshrn.u16 d22, q15, #3               ; r_oq1

-    vsubw.u8    q15, d6                    ; oq2 = oq0 - p1

-    vsubw.u8    q15, d9                    ; oq2 -= q1

-    vadd.i16    q15, q14

-    vqrshrn.u16 d27, q15, #3               ; r_oq2

-    ; Filter does not set op2 or oq2, so use p2 and q2.

-    vbif        d18, d5, d16               ; t_op2 |= p2 & ~(flat & mask)

-    vbif        d19, d25, d16              ; t_op1 |= f_op1 & ~(flat & mask)

-    vbif        d20, d24, d16              ; t_op0 |= f_op0 & ~(flat & mask)

-    vbif        d21, d23, d16              ; t_oq0 |= f_oq0 & ~(flat & mask)

-    vbif        d22, d26, d16              ; t_oq1 |= f_oq1 & ~(flat & mask)

-    vbit        d23, d27, d16              ; t_oq2 |= r_oq2 & (flat & mask)

-    vbif        d23, d10, d16              ; t_oq2 |= q2 & ~(flat & mask)

-    tst         r7, #2

-    bxne        lr

-    ; wide_mbfilter flat2 && flat && mask branch

-    vmov.u8     d16, #7

-    vaddl.u8    q15, d7, d8                ; op6 = p0 + q0

-    vaddl.u8    q12, d2, d3

-    vaddl.u8    q13, d4, d5

-    vaddl.u8    q14, d1, d6

-    vmlal.u8    q15, d0, d16               ; op6 += p7 * 3

-    vadd.i16    q12, q13

-    vadd.i16    q15, q14

-    vaddl.u8    q14, d2, d9

-    vadd.i16    q15, q12

-    vaddl.u8    q12, d0, d1

-    vaddw.u8    q15, d1

-    vaddl.u8    q13, d0, d2

-    vadd.i16    q14, q15, q14

-    vqrshrn.u16 d16, q15, #4               ; w_op6

-    vsub.i16    q15, q14, q12

-    vaddl.u8    q14, d3, d10

-    vqrshrn.u16 d24, q15, #4               ; w_op5

-    vsub.i16    q15, q13

-    vaddl.u8    q13, d0, d3

-    vadd.i16    q15, q14

-    vaddl.u8    q14, d4, d11

-    vqrshrn.u16 d25, q15, #4               ; w_op4

-    vadd.i16    q15, q14

-    vaddl.u8    q14, d0, d4

-    vsub.i16    q15, q13

-    vsub.i16    q14, q15, q14

-    vqrshrn.u16 d26, q15, #4               ; w_op3

-    vaddw.u8    q15, q14, d5               ; op2 += p2

-    vaddl.u8    q14, d0, d5

-    vaddw.u8    q15, d12                   ; op2 += q4

-    vbif        d26, d4, d17               ; op3 |= p3 & ~(f2 & f & m)

-    vqrshrn.u16 d27, q15, #4               ; w_op2

-    vsub.i16    q15, q14

-    vaddl.u8    q14, d0, d6

-    vaddw.u8    q15, d6                    ; op1 += p1

-    vaddw.u8    q15, d13                   ; op1 += q5

-    vbif        d27, d18, d17              ; op2 |= t_op2 & ~(f2 & f & m)

-    vqrshrn.u16 d18, q15, #4               ; w_op1

-    vsub.i16    q15, q14

-    vaddl.u8    q14, d0, d7

-    vaddw.u8    q15, d7                    ; op0 += p0

-    vaddw.u8    q15, d14                   ; op0 += q6

-    vbif        d18, d19, d17              ; op1 |= t_op1 & ~(f2 & f & m)

-    vqrshrn.u16 d19, q15, #4               ; w_op0

-    vsub.i16    q15, q14

-    vaddl.u8    q14, d1, d8

-    vaddw.u8    q15, d8                    ; oq0 += q0

-    vaddw.u8    q15, d15                   ; oq0 += q7

-    vbif        d19, d20, d17              ; op0 |= t_op0 & ~(f2 & f & m)

-    vqrshrn.u16 d20, q15, #4               ; w_oq0

-    vsub.i16    q15, q14

-    vaddl.u8    q14, d2, d9

-    vaddw.u8    q15, d9                    ; oq1 += q1

-    vaddl.u8    q4, d10, d15

-    vaddw.u8    q15, d15                   ; oq1 += q7

-    vbif        d20, d21, d17              ; oq0 |= t_oq0 & ~(f2 & f & m)

-    vqrshrn.u16 d21, q15, #4               ; w_oq1

-    vsub.i16    q15, q14

-    vaddl.u8    q14, d3, d10

-    vadd.i16    q15, q4

-    vaddl.u8    q4, d11, d15

-    vbif        d21, d22, d17              ; oq1 |= t_oq1 & ~(f2 & f & m)

-    vqrshrn.u16 d22, q15, #4               ; w_oq2

-    vsub.i16    q15, q14

-    vaddl.u8    q14, d4, d11

-    vadd.i16    q15, q4

-    vaddl.u8    q4, d12, d15

-    vbif        d22, d23, d17              ; oq2 |= t_oq2 & ~(f2 & f & m)

-    vqrshrn.u16 d23, q15, #4               ; w_oq3

-    vsub.i16    q15, q14

-    vaddl.u8    q14, d5, d12

-    vadd.i16    q15, q4

-    vaddl.u8    q4, d13, d15

-    vbif        d16, d1, d17               ; op6 |= p6 & ~(f2 & f & m)

-    vqrshrn.u16 d1, q15, #4                ; w_oq4

-    vsub.i16    q15, q14

-    vaddl.u8    q14, d6, d13

-    vadd.i16    q15, q4

-    vaddl.u8    q4, d14, d15

-    vbif        d24, d2, d17               ; op5 |= p5 & ~(f2 & f & m)

-    vqrshrn.u16 d2, q15, #4                ; w_oq5

-    vsub.i16    q15, q14

-    vbif        d25, d3, d17               ; op4 |= p4 & ~(f2 & f & m)

-    vadd.i16    q15, q4

-    vbif        d23, d11, d17              ; oq3 |= q3 & ~(f2 & f & m)

-    vqrshrn.u16 d3, q15, #4                ; w_oq6

-    vbif        d1, d12, d17               ; oq4 |= q4 & ~(f2 & f & m)

-    vbif        d2, d13, d17               ; oq5 |= q5 & ~(f2 & f & m)

-    vbif        d3, d14, d17               ; oq6 |= q6 & ~(f2 & f & m)

-    bx          lr

-    ENDP        ; |vp9_wide_mbfilter_neon|

-    END

--- a/vp9/common/mips/msa/vp9_loopfilter_16_msa.c

+++ /dev/null

@@ -1,1480 +1,0 @@

-/*

- *  Copyright (c) 2015 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "vpx_ports/mem.h"

-#include "vp9/common/mips/msa/vp9_loopfilter_msa.h"

-int32_t vp9_hz_lpf_t4_and_t8_16w(uint8_t *src, int32_t pitch,

-                                 uint8_t *filter48,

-                                 const uint8_t *b_limit_ptr,

-                                 const uint8_t *limit_ptr,

-                                 const uint8_t *thresh_ptr) {

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

-  v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

-  v16u8 flat, mask, hev, thresh, b_limit, limit;

-  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

-  v8u16 p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l;

-  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

-  v8i16 p2_filt8_l, p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l;

-  v16u8 zero = { 0 };

-  /* load vector elements */

-  LD_UB8(src - (4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

-  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

-  limit = (v16u8)__msa_fill_b(*limit_ptr);

-  /* mask and hev */

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

-               hev, mask, flat);

-  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

-  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

-  if (__msa_test_bz_v(flat)) {

-    ST_UB4(p1_out, p0_out, q0_out, q1_out, (src - 2 * pitch), pitch);

-    return 1;

-  } else {

-    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

-               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r,

-               q2_r, q3_r);

-    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

-                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

-    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l, p2_l, p1_l, p0_l);

-    ILVL_B4_UH(zero, q0, zero, q1, zero, q2, zero, q3, q0_l, q1_l, q2_l, q3_l);

-    VP9_FILTER8(p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l, p2_filt8_l,

-                p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l);

-    /* convert 16 bit output data into 8 bit */

-    PCKEV_B4_SH(p2_filt8_l, p2_filt8_r, p1_filt8_l, p1_filt8_r, p0_filt8_l,

-                p0_filt8_r, q0_filt8_l, q0_filt8_r, p2_filt8_r, p1_filt8_r,

-                p0_filt8_r, q0_filt8_r);

-    PCKEV_B2_SH(q1_filt8_l, q1_filt8_r, q2_filt8_l, q2_filt8_r, q1_filt8_r,

-                q2_filt8_r);

-    /* store pixel values */

-    p2_out = __msa_bmnz_v(p2, (v16u8)p2_filt8_r, flat);

-    p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_filt8_r, flat);

-    p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_filt8_r, flat);

-    q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_filt8_r, flat);

-    q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_filt8_r, flat);

-    q2_out = __msa_bmnz_v(q2, (v16u8)q2_filt8_r, flat);

-    ST_UB4(p2_out, p1_out, p0_out, q0_out, filter48, 16);

-    filter48 += (4 * 16);

-    ST_UB2(q1_out, q2_out, filter48, 16);

-    filter48 += (2 * 16);

-    ST_UB(flat, filter48);

-    return 0;

-  }

-}

-void vp9_hz_lpf_t16_16w(uint8_t *src, int32_t pitch, uint8_t *filter48) {

-  v16u8 flat, flat2, filter8;

-  v16i8 zero = { 0 };

-  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

-  v8u16 p7_r_in, p6_r_in, p5_r_in, p4_r_in, p3_r_in, p2_r_in, p1_r_in, p0_r_in;

-  v8u16 q7_r_in, q6_r_in, q5_r_in, q4_r_in, q3_r_in, q2_r_in, q1_r_in, q0_r_in;

-  v8u16 p7_l_in, p6_l_in, p5_l_in, p4_l_in, p3_l_in, p2_l_in, p1_l_in, p0_l_in;

-  v8u16 q7_l_in, q6_l_in, q5_l_in, q4_l_in, q3_l_in, q2_l_in, q1_l_in, q0_l_in;

-  v8u16 tmp0_r, tmp1_r, tmp0_l, tmp1_l;

-  v8i16 l_out, r_out;

-  flat = LD_UB(filter48 + 96);

-  LD_UB8((src - 8 * pitch), pitch, p7, p6, p5, p4, p3, p2, p1, p0);

-  LD_UB8(src, pitch, q0, q1, q2, q3, q4, q5, q6, q7);

-  VP9_FLAT5(p7, p6, p5, p4, p0, q0, q4, q5, q6, q7, flat, flat2);

-  if (__msa_test_bz_v(flat2)) {

-    LD_UB4(filter48, 16, p2, p1, p0, q0);

-    LD_UB2(filter48 + 4 * 16, 16, q1, q2);

-    src -= 3 * pitch;

-    ST_UB4(p2, p1, p0, q0, src, pitch);

-    src += (4 * pitch);

-    ST_UB2(q1, q2, src, pitch);

-  } else {

-    src -= 7 * pitch;

-    ILVR_B8_UH(zero, p7, zero, p6, zero, p5, zero, p4, zero, p3, zero, p2,

-               zero, p1, zero, p0, p7_r_in, p6_r_in, p5_r_in, p4_r_in, p3_r_in,

-               p2_r_in, p1_r_in, p0_r_in);

-    q0_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q0);

-    tmp0_r = p7_r_in << 3;

-    tmp0_r -= p7_r_in;

-    tmp0_r += p6_r_in;

-    tmp0_r += q0_r_in;

-    tmp1_r = p6_r_in + p5_r_in;

-    tmp1_r += p4_r_in;

-    tmp1_r += p3_r_in;

-    tmp1_r += p2_r_in;

-    tmp1_r += p1_r_in;

-    tmp1_r += p0_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    ILVL_B4_UH(zero, p7, zero, p6, zero, p5, zero, p4, p7_l_in, p6_l_in,

-               p5_l_in, p4_l_in);

-    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l_in, p2_l_in,

-               p1_l_in, p0_l_in);

-    q0_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q0);

-    tmp0_l = p7_l_in << 3;

-    tmp0_l -= p7_l_in;

-    tmp0_l += p6_l_in;

-    tmp0_l += q0_l_in;

-    tmp1_l = p6_l_in + p5_l_in;

-    tmp1_l += p4_l_in;

-    tmp1_l += p3_l_in;

-    tmp1_l += p2_l_in;

-    tmp1_l += p1_l_in;

-    tmp1_l += p0_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    p6 = __msa_bmnz_v(p6, (v16u8)r_out, flat2);

-    ST_UB(p6, src);

-    src += pitch;

-    /* p5 */

-    q1_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q1);

-    tmp0_r = p5_r_in - p6_r_in;

-    tmp0_r += q1_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q1_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q1);

-    tmp0_l = p5_l_in - p6_l_in;

-    tmp0_l += q1_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    p5 = __msa_bmnz_v(p5, (v16u8)r_out, flat2);

-    ST_UB(p5, src);

-    src += pitch;

-    /* p4 */

-    q2_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q2);

-    tmp0_r = p4_r_in - p5_r_in;

-    tmp0_r += q2_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = (v8i16)__msa_srari_h((v8i16)tmp1_r, 4);

-    q2_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q2);

-    tmp0_l = p4_l_in - p5_l_in;

-    tmp0_l += q2_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    p4 = __msa_bmnz_v(p4, (v16u8)r_out, flat2);

-    ST_UB(p4, src);

-    src += pitch;

-    /* p3 */

-    q3_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q3);

-    tmp0_r = p3_r_in - p4_r_in;

-    tmp0_r += q3_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q3_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q3);

-    tmp0_l = p3_l_in - p4_l_in;

-    tmp0_l += q3_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    p3 = __msa_bmnz_v(p3, (v16u8)r_out, flat2);

-    ST_UB(p3, src);

-    src += pitch;

-    /* p2 */

-    q4_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q4);

-    filter8 = LD_UB(filter48);

-    tmp0_r = p2_r_in - p3_r_in;

-    tmp0_r += q4_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q4_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q4);

-    tmp0_l = p2_l_in - p3_l_in;

-    tmp0_l += q4_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += pitch;

-    /* p1 */

-    q5_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q5);

-    filter8 = LD_UB(filter48 + 16);

-    tmp0_r = p1_r_in - p2_r_in;

-    tmp0_r += q5_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q5_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q5);

-    tmp0_l = p1_l_in - p2_l_in;

-    tmp0_l += q5_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += pitch;

-    /* p0 */

-    q6_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q6);

-    filter8 = LD_UB(filter48 + 32);

-    tmp0_r = p0_r_in - p1_r_in;

-    tmp0_r += q6_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q6_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q6);

-    tmp0_l = p0_l_in - p1_l_in;

-    tmp0_l += q6_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += pitch;

-    /* q0 */

-    q7_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q7);

-    filter8 = LD_UB(filter48 + 48);

-    tmp0_r = q7_r_in - p0_r_in;

-    tmp0_r += q0_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q7_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q7);

-    tmp0_l = q7_l_in - p0_l_in;

-    tmp0_l += q0_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += pitch;

-    /* q1 */

-    filter8 = LD_UB(filter48 + 64);

-    tmp0_r = q7_r_in - q0_r_in;

-    tmp0_r += q1_r_in;

-    tmp0_r -= p6_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q0_l_in;

-    tmp0_l += q1_l_in;

-    tmp0_l -= p6_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += pitch;

-    /* q2 */

-    filter8 = LD_UB(filter48 + 80);

-    tmp0_r = q7_r_in - q1_r_in;

-    tmp0_r += q2_r_in;

-    tmp0_r -= p5_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q1_l_in;

-    tmp0_l += q2_l_in;

-    tmp0_l -= p5_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += pitch;

-    /* q3 */

-    tmp0_r = q7_r_in - q2_r_in;

-    tmp0_r += q3_r_in;

-    tmp0_r -= p4_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q2_l_in;

-    tmp0_l += q3_l_in;

-    tmp0_l -= p4_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    q3 = __msa_bmnz_v(q3, (v16u8)r_out, flat2);

-    ST_UB(q3, src);

-    src += pitch;

-    /* q4 */

-    tmp0_r = q7_r_in - q3_r_in;

-    tmp0_r += q4_r_in;

-    tmp0_r -= p3_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q3_l_in;

-    tmp0_l += q4_l_in;

-    tmp0_l -= p3_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    q4 = __msa_bmnz_v(q4, (v16u8)r_out, flat2);

-    ST_UB(q4, src);

-    src += pitch;

-    /* q5 */

-    tmp0_r = q7_r_in - q4_r_in;

-    tmp0_r += q5_r_in;

-    tmp0_r -= p2_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q4_l_in;

-    tmp0_l += q5_l_in;

-    tmp0_l -= p2_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    q5 = __msa_bmnz_v(q5, (v16u8)r_out, flat2);

-    ST_UB(q5, src);

-    src += pitch;

-    /* q6 */

-    tmp0_r = q7_r_in - q5_r_in;

-    tmp0_r += q6_r_in;

-    tmp0_r -= p1_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q5_l_in;

-    tmp0_l += q6_l_in;

-    tmp0_l -= p1_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    q6 = __msa_bmnz_v(q6, (v16u8)r_out, flat2);

-    ST_UB(q6, src);

-  }

-}

-void vp9_lpf_horizontal_16_dual_msa(uint8_t *src, int32_t pitch,

-                                    const uint8_t *b_limit_ptr,

-                                    const uint8_t *limit_ptr,

-                                    const uint8_t *thresh_ptr,

-                                    int32_t count) {

-  DECLARE_ALIGNED(32, uint8_t, filter48[16 * 8]);

-  uint8_t early_exit = 0;

-  (void)count;

-  early_exit = vp9_hz_lpf_t4_and_t8_16w(src, pitch, &filter48[0], b_limit_ptr,

-                                        limit_ptr, thresh_ptr);

-  if (0 == early_exit) {

-    vp9_hz_lpf_t16_16w(src, pitch, filter48);

-  }

-}

-void vp9_lpf_horizontal_16_msa(uint8_t *src, int32_t pitch,

-                               const uint8_t *b_limit_ptr,

-                               const uint8_t *limit_ptr,

-                               const uint8_t *thresh_ptr,

-                               int32_t count) {

-  if (1 == count) {

-    uint64_t p2_d, p1_d, p0_d, q0_d, q1_d, q2_d;

-    uint64_t dword0, dword1;

-    v16u8 flat2, mask, hev, flat, thresh, b_limit, limit;

-    v16u8 p3, p2, p1, p0, q3, q2, q1, q0, p7, p6, p5, p4, q4, q5, q6, q7;

-    v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

-    v16u8 p0_filter16, p1_filter16;

-    v8i16 p2_filter8, p1_filter8, p0_filter8;

-    v8i16 q0_filter8, q1_filter8, q2_filter8;

-    v8u16 p7_r, p6_r, p5_r, p4_r, q7_r, q6_r, q5_r, q4_r;

-    v8u16 p3_r, p2_r, p1_r, p0_r, q3_r, q2_r, q1_r, q0_r;

-    v16i8 zero = { 0 };

-    v8u16 tmp0, tmp1, tmp2;

-    /* load vector elements */

-    LD_UB8((src - 4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

-    thresh = (v16u8)__msa_fill_b(*thresh_ptr);

-    b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

-    limit = (v16u8)__msa_fill_b(*limit_ptr);

-    LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

-                 hev, mask, flat);

-    VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

-    VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out,

-                       q1_out);

-    flat = (v16u8)__msa_ilvr_d((v2i64)zero, (v2i64)flat);

-    if (__msa_test_bz_v(flat)) {

-      p1_d = __msa_copy_u_d((v2i64)p1_out, 0);

-      p0_d = __msa_copy_u_d((v2i64)p0_out, 0);

-      q0_d = __msa_copy_u_d((v2i64)q0_out, 0);

-      q1_d = __msa_copy_u_d((v2i64)q1_out, 0);

-      SD4(p1_d, p0_d, q0_d, q1_d, src - 2 * pitch, pitch);

-    } else {

-      /* convert 8 bit input data into 16 bit */

-      ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

-                 zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r,

-                 q3_r);

-      VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filter8,

-                  p1_filter8, p0_filter8, q0_filter8, q1_filter8, q2_filter8);

-      /* convert 16 bit output data into 8 bit */

-      PCKEV_B4_SH(zero, p2_filter8, zero, p1_filter8, zero, p0_filter8,

-                  zero, q0_filter8, p2_filter8, p1_filter8, p0_filter8,

-                  q0_filter8);

-      PCKEV_B2_SH(zero, q1_filter8, zero, q2_filter8, q1_filter8, q2_filter8);

-      /* store pixel values */

-      p2_out = __msa_bmnz_v(p2, (v16u8)p2_filter8, flat);

-      p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_filter8, flat);

-      p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_filter8, flat);

-      q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_filter8, flat);

-      q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_filter8, flat);

-      q2_out = __msa_bmnz_v(q2, (v16u8)q2_filter8, flat);

-      /* load 16 vector elements */

-      LD_UB4((src - 8 * pitch), pitch, p7, p6, p5, p4);

-      LD_UB4(src + (4 * pitch), pitch, q4, q5, q6, q7);

-      VP9_FLAT5(p7, p6, p5, p4, p0, q0, q4, q5, q6, q7, flat, flat2);

-      if (__msa_test_bz_v(flat2)) {

-        p2_d = __msa_copy_u_d((v2i64)p2_out, 0);

-        p1_d = __msa_copy_u_d((v2i64)p1_out, 0);

-        p0_d = __msa_copy_u_d((v2i64)p0_out, 0);

-        q0_d = __msa_copy_u_d((v2i64)q0_out, 0);

-        q1_d = __msa_copy_u_d((v2i64)q1_out, 0);

-        q2_d = __msa_copy_u_d((v2i64)q2_out, 0);

-        SD4(p2_d, p1_d, p0_d, q0_d, src - 3 * pitch, pitch);

-        SD(q1_d, src + pitch);

-        SD(q2_d, src + 2 * pitch);

-      } else {

-        /* LSB(right) 8 pixel operation */

-        ILVR_B8_UH(zero, p7, zero, p6, zero, p5, zero, p4, zero, q4, zero, q5,

-                   zero, q6, zero, q7, p7_r, p6_r, p5_r, p4_r, q4_r, q5_r, q6_r,

-                   q7_r);

-        tmp0 = p7_r << 3;

-        tmp0 -= p7_r;

-        tmp0 += p6_r;

-        tmp0 += q0_r;

-        src -= 7 * pitch;

-        /* calculation of p6 and p5 */

-        tmp1 = p6_r + p5_r + p4_r + p3_r;

-        tmp1 += (p2_r + p1_r + p0_r);

-        tmp1 += tmp0;

-        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        tmp0 = p5_r - p6_r + q1_r - p7_r;

-        tmp1 += tmp0;

-        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

-                    p1_filter16);

-        p0_filter16 = __msa_bmnz_v(p6, p0_filter16, flat2);

-        p1_filter16 = __msa_bmnz_v(p5, p1_filter16, flat2);

-        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

-        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

-        SD(dword0, src);

-        src += pitch;

-        SD(dword1, src);

-        src += pitch;

-        /* calculation of p4 and p3 */

-        tmp0 = p4_r - p5_r + q2_r - p7_r;

-        tmp2 = p3_r - p4_r + q3_r - p7_r;

-        tmp1 += tmp0;

-        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        tmp1 += tmp2;

-        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

-                    p1_filter16);

-        p0_filter16 = __msa_bmnz_v(p4, p0_filter16, flat2);

-        p1_filter16 = __msa_bmnz_v(p3, p1_filter16, flat2);

-        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

-        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

-        SD(dword0, src);

-        src += pitch;

-        SD(dword1, src);

-        src += pitch;

-        /* calculation of p2 and p1 */

-        tmp0 = p2_r - p3_r + q4_r - p7_r;

-        tmp2 = p1_r - p2_r + q5_r - p7_r;

-        tmp1 += tmp0;

-        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        tmp1 += tmp2;

-        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

-                    p1_filter16);

-        p0_filter16 = __msa_bmnz_v(p2_out, p0_filter16, flat2);

-        p1_filter16 = __msa_bmnz_v(p1_out, p1_filter16, flat2);

-        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

-        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

-        SD(dword0, src);

-        src += pitch;

-        SD(dword1, src);

-        src += pitch;

-        /* calculation of p0 and q0 */

-        tmp0 = (p0_r - p1_r) + (q6_r - p7_r);

-        tmp2 = (q7_r - p0_r) + (q0_r - p7_r);

-        tmp1 += tmp0;

-        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        tmp1 += tmp2;

-        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

-                    p1_filter16);

-        p0_filter16 = __msa_bmnz_v(p0_out, p0_filter16, flat2);

-        p1_filter16 = __msa_bmnz_v(q0_out, p1_filter16, flat2);

-        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

-        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

-        SD(dword0, src);

-        src += pitch;

-        SD(dword1, src);

-        src += pitch;

-        /* calculation of q1 and q2 */

-        tmp0 = q7_r - q0_r + q1_r - p6_r;

-        tmp2 = q7_r - q1_r + q2_r - p5_r;

-        tmp1 += tmp0;

-        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        tmp1 += tmp2;

-        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

-                    p1_filter16);

-        p0_filter16 = __msa_bmnz_v(q1_out, p0_filter16, flat2);

-        p1_filter16 = __msa_bmnz_v(q2_out, p1_filter16, flat2);

-        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

-        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

-        SD(dword0, src);

-        src += pitch;

-        SD(dword1, src);

-        src += pitch;

-        /* calculation of q3 and q4 */

-        tmp0 = (q7_r - q2_r) + (q3_r - p4_r);

-        tmp2 = (q7_r - q3_r) + (q4_r - p3_r);

-        tmp1 += tmp0;

-        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        tmp1 += tmp2;

-        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

-                    p1_filter16);

-        p0_filter16 = __msa_bmnz_v(q3, p0_filter16, flat2);

-        p1_filter16 = __msa_bmnz_v(q4, p1_filter16, flat2);

-        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

-        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

-        SD(dword0, src);

-        src += pitch;

-        SD(dword1, src);

-        src += pitch;

-        /* calculation of q5 and q6 */

-        tmp0 = (q7_r - q4_r) + (q5_r - p2_r);

-        tmp2 = (q7_r - q5_r) + (q6_r - p1_r);

-        tmp1 += tmp0;

-        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        tmp1 += tmp2;

-        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

-        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

-                    p1_filter16);

-        p0_filter16 = __msa_bmnz_v(q5, p0_filter16, flat2);

-        p1_filter16 = __msa_bmnz_v(q6, p1_filter16, flat2);

-        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

-        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

-        SD(dword0, src);

-        src += pitch;

-        SD(dword1, src);

-      }

-    }

-  } else {

-    vp9_lpf_horizontal_16_dual_msa(src, pitch, b_limit_ptr, limit_ptr,

-                                   thresh_ptr, count);

-  }

-}

-static void vp9_transpose_16x8_to_8x16(uint8_t *input, int32_t in_pitch,

-                                       uint8_t *output, int32_t out_pitch) {

-  v16u8 p7_org, p6_org, p5_org, p4_org, p3_org, p2_org, p1_org, p0_org;

-  v16i8 tmp0, tmp1, tmp2, tmp3, tmp4, tmp5, tmp6, tmp7;

-  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

-  LD_UB8(input, in_pitch,

-         p7_org, p6_org, p5_org, p4_org, p3_org, p2_org, p1_org, p0_org);

-  /* 8x8 transpose */

-  TRANSPOSE8x8_UB_UB(p7_org, p6_org, p5_org, p4_org, p3_org, p2_org, p1_org,

-                     p0_org, p7, p6, p5, p4, p3, p2, p1, p0);

-  /* 8x8 transpose */

-  ILVL_B4_SB(p5_org, p7_org, p4_org, p6_org, p1_org, p3_org, p0_org, p2_org,

-             tmp0, tmp1, tmp2, tmp3);

-  ILVR_B2_SB(tmp1, tmp0, tmp3, tmp2, tmp4, tmp6);

-  ILVL_B2_SB(tmp1, tmp0, tmp3, tmp2, tmp5, tmp7);

-  ILVR_W2_UB(tmp6, tmp4, tmp7, tmp5, q0, q4);

-  ILVL_W2_UB(tmp6, tmp4, tmp7, tmp5, q2, q6);

-  SLDI_B4_0_UB(q0, q2, q4, q6, q1, q3, q5, q7, 8);

-  ST_UB8(p7, p6, p5, p4, p3, p2, p1, p0, output, out_pitch);

-  output += (8 * out_pitch);

-  ST_UB8(q0, q1, q2, q3, q4, q5, q6, q7, output, out_pitch);

-}

-static void vp9_transpose_8x16_to_16x8(uint8_t *input, int32_t in_pitch,

-                                       uint8_t *output, int32_t out_pitch) {

-  v16u8 p7_o, p6_o, p5_o, p4_o, p3_o, p2_o, p1_o, p0_o;

-  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

-  LD_UB8(input, in_pitch, p7, p6, p5, p4, p3, p2, p1, p0);

-  LD_UB8(input + (8 * in_pitch), in_pitch, q0, q1, q2, q3, q4, q5, q6, q7);

-  TRANSPOSE16x8_UB_UB(p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5,

-                      q6, q7, p7_o, p6_o, p5_o, p4_o, p3_o, p2_o, p1_o, p0_o);

-  ST_UB8(p7_o, p6_o, p5_o, p4_o, p3_o, p2_o, p1_o, p0_o, output, out_pitch);

-}

-static void vp9_transpose_16x16(uint8_t *input, int32_t in_pitch,

-                                uint8_t *output, int32_t out_pitch) {

-  v16u8 row0, row1, row2, row3, row4, row5, row6, row7;

-  v16u8 row8, row9, row10, row11, row12, row13, row14, row15;

-  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

-  v8i16 tmp0, tmp1, tmp4, tmp5, tmp6, tmp7;

-  v4i32 tmp2, tmp3;

-  LD_UB8(input, in_pitch, row0, row1, row2, row3, row4, row5, row6, row7);

-  input += (8 * in_pitch);

-  LD_UB8(input, in_pitch,

-         row8, row9, row10, row11, row12, row13, row14, row15);

-  TRANSPOSE16x8_UB_UB(row0, row1, row2, row3, row4, row5, row6, row7,

-                      row8, row9, row10, row11, row12, row13, row14, row15,

-                      p7, p6, p5, p4, p3, p2, p1, p0);

-  /* transpose 16x8 matrix into 8x16 */

-  /* total 8 intermediate register and 32 instructions */

-  q7 = (v16u8)__msa_ilvod_d((v2i64)row8, (v2i64)row0);

-  q6 = (v16u8)__msa_ilvod_d((v2i64)row9, (v2i64)row1);

-  q5 = (v16u8)__msa_ilvod_d((v2i64)row10, (v2i64)row2);

-  q4 = (v16u8)__msa_ilvod_d((v2i64)row11, (v2i64)row3);

-  q3 = (v16u8)__msa_ilvod_d((v2i64)row12, (v2i64)row4);

-  q2 = (v16u8)__msa_ilvod_d((v2i64)row13, (v2i64)row5);

-  q1 = (v16u8)__msa_ilvod_d((v2i64)row14, (v2i64)row6);

-  q0 = (v16u8)__msa_ilvod_d((v2i64)row15, (v2i64)row7);

-  ILVEV_B2_SH(q7, q6, q5, q4, tmp0, tmp1);

-  tmp4 = (v8i16)__msa_ilvod_b((v16i8)q6, (v16i8)q7);

-  tmp5 = (v8i16)__msa_ilvod_b((v16i8)q4, (v16i8)q5);

-  ILVEV_B2_UB(q3, q2, q1, q0, q5, q7);

-  tmp6 = (v8i16)__msa_ilvod_b((v16i8)q2, (v16i8)q3);

-  tmp7 = (v8i16)__msa_ilvod_b((v16i8)q0, (v16i8)q1);

-  ILVEV_H2_SW(tmp0, tmp1, q5, q7, tmp2, tmp3);

-  q0 = (v16u8)__msa_ilvev_w(tmp3, tmp2);

-  q4 = (v16u8)__msa_ilvod_w(tmp3, tmp2);

-  tmp2 = (v4i32)__msa_ilvod_h(tmp1, tmp0);

-  tmp3 = (v4i32)__msa_ilvod_h((v8i16)q7, (v8i16)q5);

-  q2 = (v16u8)__msa_ilvev_w(tmp3, tmp2);

-  q6 = (v16u8)__msa_ilvod_w(tmp3, tmp2);

-  ILVEV_H2_SW(tmp4, tmp5, tmp6, tmp7, tmp2, tmp3);

-  q1 = (v16u8)__msa_ilvev_w(tmp3, tmp2);

-  q5 = (v16u8)__msa_ilvod_w(tmp3, tmp2);

-  tmp2 = (v4i32)__msa_ilvod_h(tmp5, tmp4);

-  tmp3 = (v4i32)__msa_ilvod_h(tmp7, tmp6);

-  q3 = (v16u8)__msa_ilvev_w(tmp3, tmp2);

-  q7 = (v16u8)__msa_ilvod_w(tmp3, tmp2);

-  ST_UB8(p7, p6, p5, p4, p3, p2, p1, p0, output, out_pitch);

-  output += (8 * out_pitch);

-  ST_UB8(q0, q1, q2, q3, q4, q5, q6, q7, output, out_pitch);

-}

-int32_t vp9_vt_lpf_t4_and_t8_8w(uint8_t *src, uint8_t *filter48,

-                                uint8_t *src_org, int32_t pitch_org,

-                                const uint8_t *b_limit_ptr,

-                                const uint8_t *limit_ptr,

-                                const uint8_t *thresh_ptr) {

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

-  v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

-  v16u8 flat, mask, hev, thresh, b_limit, limit;

-  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

-  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

-  v16i8 zero = { 0 };

-  v8i16 vec0, vec1, vec2, vec3;

-  /* load vector elements */

-  LD_UB8(src - (4 * 16), 16, p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

-  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

-  limit = (v16u8)__msa_fill_b(*limit_ptr);

-  /* mask and hev */

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

-               hev, mask, flat);

-  /* flat4 */

-  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

-  /* filter4 */

-  VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

-  flat = (v16u8)__msa_ilvr_d((v2i64)zero, (v2i64)flat);

-  if (__msa_test_bz_v(flat)) {

-    ILVR_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec2, vec3);

-    ST4x8_UB(vec2, vec3, (src_org - 2), pitch_org);

-    return 1;

-  } else {

-    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

-               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r,

-               q3_r);

-    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

-                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

-    /* convert 16 bit output data into 8 bit */

-    p2_r = (v8u16)__msa_pckev_b((v16i8)p2_filt8_r, (v16i8)p2_filt8_r);

-    p1_r = (v8u16)__msa_pckev_b((v16i8)p1_filt8_r, (v16i8)p1_filt8_r);

-    p0_r = (v8u16)__msa_pckev_b((v16i8)p0_filt8_r, (v16i8)p0_filt8_r);

-    q0_r = (v8u16)__msa_pckev_b((v16i8)q0_filt8_r, (v16i8)q0_filt8_r);

-    q1_r = (v8u16)__msa_pckev_b((v16i8)q1_filt8_r, (v16i8)q1_filt8_r);

-    q2_r = (v8u16)__msa_pckev_b((v16i8)q2_filt8_r, (v16i8)q2_filt8_r);

-    /* store pixel values */

-    p2_out = __msa_bmnz_v(p2, (v16u8)p2_r, flat);

-    p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_r, flat);

-    p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_r, flat);

-    q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_r, flat);

-    q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_r, flat);

-    q2_out = __msa_bmnz_v(q2, (v16u8)q2_r, flat);

-    ST_UB4(p2_out, p1_out, p0_out, q0_out, filter48, 16);

-    filter48 += (4 * 16);

-    ST_UB2(q1_out, q2_out, filter48, 16);

-    filter48 += (2 * 16);

-    ST_UB(flat, filter48);

-    return 0;

-  }

-}

-int32_t vp9_vt_lpf_t16_8w(uint8_t *src, uint8_t *src_org, int32_t pitch,

-                          uint8_t *filter48) {

-  v16i8 zero = { 0 };

-  v16u8 filter8, flat, flat2;

-  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

-  v8u16 p7_r_in, p6_r_in, p5_r_in, p4_r_in, p3_r_in, p2_r_in, p1_r_in, p0_r_in;

-  v8u16 q7_r_in, q6_r_in, q5_r_in, q4_r_in, q3_r_in, q2_r_in, q1_r_in, q0_r_in;

-  v8u16 tmp0_r, tmp1_r;

-  v8i16 r_out;

-  flat = LD_UB(filter48 + 6 * 16);

-  LD_UB8((src - 8 * 16), 16, p7, p6, p5, p4, p3, p2, p1, p0);

-  LD_UB8(src, 16, q0, q1, q2, q3, q4, q5, q6, q7);

-  VP9_FLAT5(p7, p6, p5, p4, p0, q0, q4, q5, q6, q7, flat, flat2);

-  if (__msa_test_bz_v(flat2)) {

-    v8i16 vec0, vec1, vec2, vec3, vec4;

-    LD_UB4(filter48, 16, p2, p1, p0, q0);

-    LD_UB2(filter48 + 4 * 16, 16, q1, q2);

-    ILVR_B2_SH(p1, p2, q0, p0, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec3, vec4);

-    vec2 = (v8i16)__msa_ilvr_b((v16i8)q2, (v16i8)q1);

-    src_org -= 3;

-    ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src_org, pitch);

-    ST2x4_UB(vec2, 0, (src_org + 4), pitch);

-    src_org += (4 * pitch);

-    ST4x4_UB(vec4, vec4, 0, 1, 2, 3, src_org, pitch);

-    ST2x4_UB(vec2, 4, (src_org + 4), pitch);

-    return 1;

-  } else {

-    src -= 7 * 16;

-    ILVR_B8_UH(zero, p7, zero, p6, zero, p5, zero, p4, zero, p3, zero, p2,

-               zero, p1, zero, p0, p7_r_in, p6_r_in, p5_r_in, p4_r_in,

-               p3_r_in, p2_r_in, p1_r_in, p0_r_in);

-    q0_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q0);

-    tmp0_r = p7_r_in << 3;

-    tmp0_r -= p7_r_in;

-    tmp0_r += p6_r_in;

-    tmp0_r += q0_r_in;

-    tmp1_r = p6_r_in + p5_r_in;

-    tmp1_r += p4_r_in;

-    tmp1_r += p3_r_in;

-    tmp1_r += p2_r_in;

-    tmp1_r += p1_r_in;

-    tmp1_r += p0_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    p6 = __msa_bmnz_v(p6, (v16u8)r_out, flat2);

-    ST8x1_UB(p6, src);

-    src += 16;

-    /* p5 */

-    q1_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q1);

-    tmp0_r = p5_r_in - p6_r_in;

-    tmp0_r += q1_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    p5 = __msa_bmnz_v(p5, (v16u8)r_out, flat2);

-    ST8x1_UB(p5, src);

-    src += 16;

-    /* p4 */

-    q2_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q2);

-    tmp0_r = p4_r_in - p5_r_in;

-    tmp0_r += q2_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    p4 = __msa_bmnz_v(p4, (v16u8)r_out, flat2);

-    ST8x1_UB(p4, src);

-    src += 16;

-    /* p3 */

-    q3_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q3);

-    tmp0_r = p3_r_in - p4_r_in;

-    tmp0_r += q3_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    p3 = __msa_bmnz_v(p3, (v16u8)r_out, flat2);

-    ST8x1_UB(p3, src);

-    src += 16;

-    /* p2 */

-    q4_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q4);

-    filter8 = LD_UB(filter48);

-    tmp0_r = p2_r_in - p3_r_in;

-    tmp0_r += q4_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST8x1_UB(filter8, src);

-    src += 16;

-    /* p1 */

-    q5_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q5);

-    filter8 = LD_UB(filter48 + 16);

-    tmp0_r = p1_r_in - p2_r_in;

-    tmp0_r += q5_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST8x1_UB(filter8, src);

-    src += 16;

-    /* p0 */

-    q6_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q6);

-    filter8 = LD_UB(filter48 + 32);

-    tmp0_r = p0_r_in - p1_r_in;

-    tmp0_r += q6_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST8x1_UB(filter8, src);

-    src += 16;

-    /* q0 */

-    q7_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q7);

-    filter8 = LD_UB(filter48 + 48);

-    tmp0_r = q7_r_in - p0_r_in;

-    tmp0_r += q0_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST8x1_UB(filter8, src);

-    src += 16;

-    /* q1 */

-    filter8 = LD_UB(filter48 + 64);

-    tmp0_r = q7_r_in - q0_r_in;

-    tmp0_r += q1_r_in;

-    tmp0_r -= p6_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST8x1_UB(filter8, src);

-    src += 16;

-    /* q2 */

-    filter8 = LD_UB(filter48 + 80);

-    tmp0_r = q7_r_in - q1_r_in;

-    tmp0_r += q2_r_in;

-    tmp0_r -= p5_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST8x1_UB(filter8, src);

-    src += 16;

-    /* q3 */

-    tmp0_r = q7_r_in - q2_r_in;

-    tmp0_r += q3_r_in;

-    tmp0_r -= p4_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    q3 = __msa_bmnz_v(q3, (v16u8)r_out, flat2);

-    ST8x1_UB(q3, src);

-    src += 16;

-    /* q4 */

-    tmp0_r = q7_r_in - q3_r_in;

-    tmp0_r += q4_r_in;

-    tmp0_r -= p3_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    q4 = __msa_bmnz_v(q4, (v16u8)r_out, flat2);

-    ST8x1_UB(q4, src);

-    src += 16;

-    /* q5 */

-    tmp0_r = q7_r_in - q4_r_in;

-    tmp0_r += q5_r_in;

-    tmp0_r -= p2_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    q5 = __msa_bmnz_v(q5, (v16u8)r_out, flat2);

-    ST8x1_UB(q5, src);

-    src += 16;

-    /* q6 */

-    tmp0_r = q7_r_in - q5_r_in;

-    tmp0_r += q6_r_in;

-    tmp0_r -= p1_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

-    q6 = __msa_bmnz_v(q6, (v16u8)r_out, flat2);

-    ST8x1_UB(q6, src);

-    return 0;

-  }

-}

-void vp9_lpf_vertical_16_msa(uint8_t *src, int32_t pitch,

-                             const uint8_t *b_limit_ptr,

-                             const uint8_t *limit_ptr,

-                             const uint8_t *thresh_ptr) {

-  uint8_t early_exit = 0;

-  DECLARE_ALIGNED(32, uint8_t, transposed_input[16 * 24]);

-  uint8_t *filter48 = &transposed_input[16 * 16];

-  vp9_transpose_16x8_to_8x16(src - 8, pitch, transposed_input, 16);

-  early_exit = vp9_vt_lpf_t4_and_t8_8w((transposed_input + 16 * 8),

-                                       &filter48[0], src, pitch, b_limit_ptr,

-                                       limit_ptr, thresh_ptr);

-  if (0 == early_exit) {

-    early_exit = vp9_vt_lpf_t16_8w((transposed_input + 16 * 8), src, pitch,

-                                   &filter48[0]);

-    if (0 == early_exit) {

-      vp9_transpose_8x16_to_16x8(transposed_input, 16, src - 8, pitch);

-    }

-  }

-}

-int32_t vp9_vt_lpf_t4_and_t8_16w(uint8_t *src, uint8_t *filter48,

-                                 uint8_t *src_org, int32_t pitch,

-                                 const uint8_t *b_limit_ptr,

-                                 const uint8_t *limit_ptr,

-                                 const uint8_t *thresh_ptr) {

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

-  v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

-  v16u8 flat, mask, hev, thresh, b_limit, limit;

-  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

-  v8u16 p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l;

-  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

-  v8i16 p2_filt8_l, p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l;

-  v16i8 zero = { 0 };

-  v8i16 vec0, vec1, vec2, vec3, vec4, vec5;

-  /* load vector elements */

-  LD_UB8(src - (4 * 16), 16, p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

-  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

-  limit = (v16u8)__msa_fill_b(*limit_ptr);

-  /* mask and hev */

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

-               hev, mask, flat);

-  /* flat4 */

-  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

-  /* filter4 */

-  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

-  if (__msa_test_bz_v(flat)) {

-    ILVR_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec2, vec3);

-    ILVL_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec4, vec5);

-    src_org -= 2;

-    ST4x8_UB(vec2, vec3, src_org, pitch);

-    src_org += 8 * pitch;

-    ST4x8_UB(vec4, vec5, src_org, pitch);

-    return 1;

-  } else {

-    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

-               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r,

-               q3_r);

-    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

-                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

-    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l, p2_l, p1_l, p0_l);

-    ILVL_B4_UH(zero, q0, zero, q1, zero, q2, zero, q3, q0_l, q1_l, q2_l, q3_l);

-    VP9_FILTER8(p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l, p2_filt8_l,

-                p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l);

-    /* convert 16 bit output data into 8 bit */

-    PCKEV_B4_SH(p2_filt8_l, p2_filt8_r, p1_filt8_l, p1_filt8_r, p0_filt8_l,

-                p0_filt8_r, q0_filt8_l, q0_filt8_r, p2_filt8_r, p1_filt8_r,

-                p0_filt8_r, q0_filt8_r);

-    PCKEV_B2_SH(q1_filt8_l, q1_filt8_r, q2_filt8_l, q2_filt8_r, q1_filt8_r,

-                q2_filt8_r);

-    /* store pixel values */

-    p2_out = __msa_bmnz_v(p2, (v16u8)p2_filt8_r, flat);

-    p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_filt8_r, flat);

-    p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_filt8_r, flat);

-    q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_filt8_r, flat);

-    q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_filt8_r, flat);

-    q2_out = __msa_bmnz_v(q2, (v16u8)q2_filt8_r, flat);

-    ST_UB4(p2_out, p1_out, p0_out, q0_out, filter48, 16);

-    filter48 += (4 * 16);

-    ST_UB2(q1_out, q2_out, filter48, 16);

-    filter48 += (2 * 16);

-    ST_UB(flat, filter48);

-    return 0;

-  }

-}

-int32_t vp9_vt_lpf_t16_16w(uint8_t *src, uint8_t *src_org, int32_t pitch,

-                           uint8_t *filter48) {

-  v16u8 flat, flat2, filter8;

-  v16i8 zero = { 0 };

-  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

-  v8u16 p7_r_in, p6_r_in, p5_r_in, p4_r_in, p3_r_in, p2_r_in, p1_r_in, p0_r_in;

-  v8u16 q7_r_in, q6_r_in, q5_r_in, q4_r_in, q3_r_in, q2_r_in, q1_r_in, q0_r_in;

-  v8u16 p7_l_in, p6_l_in, p5_l_in, p4_l_in, p3_l_in, p2_l_in, p1_l_in, p0_l_in;

-  v8u16 q7_l_in, q6_l_in, q5_l_in, q4_l_in, q3_l_in, q2_l_in, q1_l_in, q0_l_in;

-  v8u16 tmp0_r, tmp1_r, tmp0_l, tmp1_l;

-  v8i16 l_out, r_out;

-  flat = LD_UB(filter48 + 6 * 16);

-  LD_UB8((src - 8 * 16), 16, p7, p6, p5, p4, p3, p2, p1, p0);

-  LD_UB8(src, 16, q0, q1, q2, q3, q4, q5, q6, q7);

-  VP9_FLAT5(p7, p6, p5, p4, p0, q0, q4, q5, q6, q7, flat, flat2);

-  if (__msa_test_bz_v(flat2)) {

-    v8i16 vec0, vec1, vec2, vec3, vec4, vec5, vec6, vec7;

-    LD_UB4(filter48, 16, p2, p1, p0, q0);

-    LD_UB2(filter48 + 4 * 16, 16, q1, q2);

-    ILVR_B2_SH(p1, p2, q0, p0, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec3, vec4);

-    ILVL_B2_SH(p1, p2, q0, p0, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec6, vec7);

-    ILVRL_B2_SH(q2, q1, vec2, vec5);

-    src_org -= 3;

-    ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src_org, pitch);

-    ST2x4_UB(vec2, 0, (src_org + 4), pitch);

-    src_org += (4 * pitch);

-    ST4x4_UB(vec4, vec4, 0, 1, 2, 3, src_org, pitch);

-    ST2x4_UB(vec2, 4, (src_org + 4), pitch);

-    src_org += (4 * pitch);

-    ST4x4_UB(vec6, vec6, 0, 1, 2, 3, src_org, pitch);

-    ST2x4_UB(vec5, 0, (src_org + 4), pitch);

-    src_org += (4 * pitch);

-    ST4x4_UB(vec7, vec7, 0, 1, 2, 3, src_org, pitch);

-    ST2x4_UB(vec5, 4, (src_org + 4), pitch);

-    return 1;

-  } else {

-    src -= 7 * 16;

-    ILVR_B8_UH(zero, p7, zero, p6, zero, p5, zero, p4, zero, p3, zero, p2,

-               zero, p1, zero, p0, p7_r_in, p6_r_in, p5_r_in, p4_r_in,

-               p3_r_in, p2_r_in, p1_r_in, p0_r_in);

-    q0_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q0);

-    tmp0_r = p7_r_in << 3;

-    tmp0_r -= p7_r_in;

-    tmp0_r += p6_r_in;

-    tmp0_r += q0_r_in;

-    tmp1_r = p6_r_in + p5_r_in;

-    tmp1_r += p4_r_in;

-    tmp1_r += p3_r_in;

-    tmp1_r += p2_r_in;

-    tmp1_r += p1_r_in;

-    tmp1_r += p0_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    ILVL_B4_UH(zero, p7, zero, p6, zero, p5, zero, p4, p7_l_in, p6_l_in,

-               p5_l_in, p4_l_in);

-    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l_in, p2_l_in,

-               p1_l_in, p0_l_in);

-    q0_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q0);

-    tmp0_l = p7_l_in << 3;

-    tmp0_l -= p7_l_in;

-    tmp0_l += p6_l_in;

-    tmp0_l += q0_l_in;

-    tmp1_l = p6_l_in + p5_l_in;

-    tmp1_l += p4_l_in;

-    tmp1_l += p3_l_in;

-    tmp1_l += p2_l_in;

-    tmp1_l += p1_l_in;

-    tmp1_l += p0_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    p6 = __msa_bmnz_v(p6, (v16u8)r_out, flat2);

-    ST_UB(p6, src);

-    src += 16;

-    /* p5 */

-    q1_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q1);

-    tmp0_r = p5_r_in - p6_r_in;

-    tmp0_r += q1_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q1_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q1);

-    tmp0_l = p5_l_in - p6_l_in;

-    tmp0_l += q1_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    p5 = __msa_bmnz_v(p5, (v16u8)r_out, flat2);

-    ST_UB(p5, src);

-    src += 16;

-    /* p4 */

-    q2_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q2);

-    tmp0_r = p4_r_in - p5_r_in;

-    tmp0_r += q2_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q2_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q2);

-    tmp0_l = p4_l_in - p5_l_in;

-    tmp0_l += q2_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    p4 = __msa_bmnz_v(p4, (v16u8)r_out, flat2);

-    ST_UB(p4, src);

-    src += 16;

-    /* p3 */

-    q3_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q3);

-    tmp0_r = p3_r_in - p4_r_in;

-    tmp0_r += q3_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q3_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q3);

-    tmp0_l = p3_l_in - p4_l_in;

-    tmp0_l += q3_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    p3 = __msa_bmnz_v(p3, (v16u8)r_out, flat2);

-    ST_UB(p3, src);

-    src += 16;

-    /* p2 */

-    q4_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q4);

-    filter8 = LD_UB(filter48);

-    tmp0_r = p2_r_in - p3_r_in;

-    tmp0_r += q4_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q4_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q4);

-    tmp0_l = p2_l_in - p3_l_in;

-    tmp0_l += q4_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += 16;

-    /* p1 */

-    q5_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q5);

-    filter8 = LD_UB(filter48 + 16);

-    tmp0_r = p1_r_in - p2_r_in;

-    tmp0_r += q5_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q5_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q5);

-    tmp0_l = p1_l_in - p2_l_in;

-    tmp0_l += q5_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)(tmp1_l), 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += 16;

-    /* p0 */

-    q6_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q6);

-    filter8 = LD_UB(filter48 + 32);

-    tmp0_r = p0_r_in - p1_r_in;

-    tmp0_r += q6_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q6_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q6);

-    tmp0_l = p0_l_in - p1_l_in;

-    tmp0_l += q6_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += 16;

-    /* q0 */

-    q7_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q7);

-    filter8 = LD_UB(filter48 + 48);

-    tmp0_r = q7_r_in - p0_r_in;

-    tmp0_r += q0_r_in;

-    tmp0_r -= p7_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    q7_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q7);

-    tmp0_l = q7_l_in - p0_l_in;

-    tmp0_l += q0_l_in;

-    tmp0_l -= p7_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += 16;

-    /* q1 */

-    filter8 = LD_UB(filter48 + 64);

-    tmp0_r = q7_r_in - q0_r_in;

-    tmp0_r += q1_r_in;

-    tmp0_r -= p6_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q0_l_in;

-    tmp0_l += q1_l_in;

-    tmp0_l -= p6_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += 16;

-    /* q2 */

-    filter8 = LD_UB(filter48 + 80);

-    tmp0_r = q7_r_in - q1_r_in;

-    tmp0_r += q2_r_in;

-    tmp0_r -= p5_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q1_l_in;

-    tmp0_l += q2_l_in;

-    tmp0_l -= p5_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

-    ST_UB(filter8, src);

-    src += 16;

-    /* q3 */

-    tmp0_r = q7_r_in - q2_r_in;

-    tmp0_r += q3_r_in;

-    tmp0_r -= p4_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q2_l_in;

-    tmp0_l += q3_l_in;

-    tmp0_l -= p4_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    q3 = __msa_bmnz_v(q3, (v16u8)r_out, flat2);

-    ST_UB(q3, src);

-    src += 16;

-    /* q4 */

-    tmp0_r = q7_r_in - q3_r_in;

-    tmp0_r += q4_r_in;

-    tmp0_r -= p3_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q3_l_in;

-    tmp0_l += q4_l_in;

-    tmp0_l -= p3_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    q4 = __msa_bmnz_v(q4, (v16u8)r_out, flat2);

-    ST_UB(q4, src);

-    src += 16;

-    /* q5 */

-    tmp0_r = q7_r_in - q4_r_in;

-    tmp0_r += q5_r_in;

-    tmp0_r -= p2_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q4_l_in;

-    tmp0_l += q5_l_in;

-    tmp0_l -= p2_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    q5 = __msa_bmnz_v(q5, (v16u8)r_out, flat2);

-    ST_UB(q5, src);

-    src += 16;

-    /* q6 */

-    tmp0_r = q7_r_in - q5_r_in;

-    tmp0_r += q6_r_in;

-    tmp0_r -= p1_r_in;

-    tmp1_r += tmp0_r;

-    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

-    tmp0_l = q7_l_in - q5_l_in;

-    tmp0_l += q6_l_in;

-    tmp0_l -= p1_l_in;

-    tmp1_l += tmp0_l;

-    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

-    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

-    q6 = __msa_bmnz_v(q6, (v16u8)r_out, flat2);

-    ST_UB(q6, src);

-    return 0;

-  }

-}

-void vp9_lpf_vertical_16_dual_msa(uint8_t *src, int32_t pitch,

-                                  const uint8_t *b_limit_ptr,

-                                  const uint8_t *limit_ptr,

-                                  const uint8_t *thresh_ptr) {

-  uint8_t early_exit = 0;

-  DECLARE_ALIGNED(32, uint8_t, transposed_input[16 * 24]);

-  uint8_t *filter48 = &transposed_input[16 * 16];

-  vp9_transpose_16x16((src - 8), pitch, &transposed_input[0], 16);

-  early_exit = vp9_vt_lpf_t4_and_t8_16w((transposed_input + 16 * 8),

-                                        &filter48[0], src, pitch, b_limit_ptr,

-                                        limit_ptr, thresh_ptr);

-  if (0 == early_exit) {

-    early_exit = vp9_vt_lpf_t16_16w((transposed_input + 16 * 8), src, pitch,

-                                    &filter48[0]);

-    if (0 == early_exit) {

-      vp9_transpose_16x16(transposed_input, 16, (src - 8), pitch);

-    }

-  }

-}

--- a/vp9/common/mips/msa/vp9_loopfilter_4_msa.c

+++ /dev/null

@@ -1,152 +1,0 @@

-/*

- *  Copyright (c) 2015 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "vp9/common/mips/msa/vp9_loopfilter_msa.h"

-void vp9_lpf_horizontal_4_msa(uint8_t *src, int32_t pitch,

-                              const uint8_t *b_limit_ptr,

-                              const uint8_t *limit_ptr,

-                              const uint8_t *thresh_ptr,

-                              int32_t count) {

-  uint64_t p1_d, p0_d, q0_d, q1_d;

-  v16u8 mask, hev, flat, thresh, b_limit, limit;

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0, p1_out, p0_out, q0_out, q1_out;

-  (void)count;

-  /* load vector elements */

-  LD_UB8((src - 4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

-  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

-  limit = (v16u8)__msa_fill_b(*limit_ptr);

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

-               hev, mask, flat);

-  VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

-  p1_d = __msa_copy_u_d((v2i64)p1_out, 0);

-  p0_d = __msa_copy_u_d((v2i64)p0_out, 0);

-  q0_d = __msa_copy_u_d((v2i64)q0_out, 0);

-  q1_d = __msa_copy_u_d((v2i64)q1_out, 0);

-  SD4(p1_d, p0_d, q0_d, q1_d, (src - 2 * pitch), pitch);

-}

-void vp9_lpf_horizontal_4_dual_msa(uint8_t *src, int32_t pitch,

-                                   const uint8_t *b_limit0_ptr,

-                                   const uint8_t *limit0_ptr,

-                                   const uint8_t *thresh0_ptr,

-                                   const uint8_t *b_limit1_ptr,

-                                   const uint8_t *limit1_ptr,

-                                   const uint8_t *thresh1_ptr) {

-  v16u8 mask, hev, flat, thresh0, b_limit0, limit0, thresh1, b_limit1, limit1;

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

-  /* load vector elements */

-  LD_UB8((src - 4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh0 = (v16u8)__msa_fill_b(*thresh0_ptr);

-  thresh1 = (v16u8)__msa_fill_b(*thresh1_ptr);

-  thresh0 = (v16u8)__msa_ilvr_d((v2i64)thresh1, (v2i64)thresh0);

-  b_limit0 = (v16u8)__msa_fill_b(*b_limit0_ptr);

-  b_limit1 = (v16u8)__msa_fill_b(*b_limit1_ptr);

-  b_limit0 = (v16u8)__msa_ilvr_d((v2i64)b_limit1, (v2i64)b_limit0);

-  limit0 = (v16u8)__msa_fill_b(*limit0_ptr);

-  limit1 = (v16u8)__msa_fill_b(*limit1_ptr);

-  limit0 = (v16u8)__msa_ilvr_d((v2i64)limit1, (v2i64)limit0);

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit0, b_limit0, thresh0,

-               hev, mask, flat);

-  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1, p0, q0, q1);

-  ST_UB4(p1, p0, q0, q1, (src - 2 * pitch), pitch);

-}

-void vp9_lpf_vertical_4_msa(uint8_t *src, int32_t pitch,

-                            const uint8_t *b_limit_ptr,

-                            const uint8_t *limit_ptr,

-                            const uint8_t *thresh_ptr,

-                            int32_t count) {

-  v16u8 mask, hev, flat, limit, thresh, b_limit;

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

-  v8i16 vec0, vec1, vec2, vec3;

-  (void)count;

-  LD_UB8((src - 4), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

-  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

-  limit = (v16u8)__msa_fill_b(*limit_ptr);

-  TRANSPOSE8x8_UB_UB(p3, p2, p1, p0, q0, q1, q2, q3,

-                     p3, p2, p1, p0, q0, q1, q2, q3);

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

-               hev, mask, flat);

-  VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1, p0, q0, q1);

-  ILVR_B2_SH(p0, p1, q1, q0, vec0, vec1);

-  ILVRL_H2_SH(vec1, vec0, vec2, vec3);

-  src -= 2;

-  ST4x4_UB(vec2, vec2, 0, 1, 2, 3, src, pitch);

-  src += 4 * pitch;

-  ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src, pitch);

-}

-void vp9_lpf_vertical_4_dual_msa(uint8_t *src, int32_t pitch,

-                                 const uint8_t *b_limit0_ptr,

-                                 const uint8_t *limit0_ptr,

-                                 const uint8_t *thresh0_ptr,

-                                 const uint8_t *b_limit1_ptr,

-                                 const uint8_t *limit1_ptr,

-                                 const uint8_t *thresh1_ptr) {

-  v16u8 mask, hev, flat;

-  v16u8 thresh0, b_limit0, limit0, thresh1, b_limit1, limit1;

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

-  v16u8 row0, row1, row2, row3, row4, row5, row6, row7;

-  v16u8 row8, row9, row10, row11, row12, row13, row14, row15;

-  v8i16 tmp0, tmp1, tmp2, tmp3, tmp4, tmp5;

-  LD_UB8(src - 4, pitch, row0, row1, row2, row3, row4, row5, row6, row7);

-  LD_UB8(src - 4 + (8 * pitch), pitch,

-         row8, row9, row10, row11, row12, row13, row14, row15);

-  TRANSPOSE16x8_UB_UB(row0, row1, row2, row3, row4, row5, row6, row7,

-                      row8, row9, row10, row11, row12, row13, row14, row15,

-                      p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh0 = (v16u8)__msa_fill_b(*thresh0_ptr);

-  thresh1 = (v16u8)__msa_fill_b(*thresh1_ptr);

-  thresh0 = (v16u8)__msa_ilvr_d((v2i64)thresh1, (v2i64)thresh0);

-  b_limit0 = (v16u8)__msa_fill_b(*b_limit0_ptr);

-  b_limit1 = (v16u8)__msa_fill_b(*b_limit1_ptr);

-  b_limit0 = (v16u8)__msa_ilvr_d((v2i64)b_limit1, (v2i64)b_limit0);

-  limit0 = (v16u8)__msa_fill_b(*limit0_ptr);

-  limit1 = (v16u8)__msa_fill_b(*limit1_ptr);

-  limit0 = (v16u8)__msa_ilvr_d((v2i64)limit1, (v2i64)limit0);

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit0, b_limit0, thresh0,

-               hev, mask, flat);

-  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1, p0, q0, q1);

-  ILVR_B2_SH(p0, p1, q1, q0, tmp0, tmp1);

-  ILVRL_H2_SH(tmp1, tmp0, tmp2, tmp3);

-  ILVL_B2_SH(p0, p1, q1, q0, tmp0, tmp1);

-  ILVRL_H2_SH(tmp1, tmp0, tmp4, tmp5);

-  src -= 2;

-  ST4x8_UB(tmp2, tmp3, src, pitch);

-  src += (8 * pitch);

-  ST4x8_UB(tmp4, tmp5, src, pitch);

-}

--- a/vp9/common/mips/msa/vp9_loopfilter_8_msa.c

+++ /dev/null

@@ -1,348 +1,0 @@

-/*

- *  Copyright (c) 2015 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "vp9/common/mips/msa/vp9_loopfilter_msa.h"

-void vp9_lpf_horizontal_8_msa(uint8_t *src, int32_t pitch,

-                              const uint8_t *b_limit_ptr,

-                              const uint8_t *limit_ptr,

-                              const uint8_t *thresh_ptr,

-                              int32_t count) {

-  uint64_t p2_d, p1_d, p0_d, q0_d, q1_d, q2_d;

-  v16u8 mask, hev, flat, thresh, b_limit, limit;

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

-  v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

-  v8i16 p2_filter8, p1_filter8, p0_filter8, q0_filter8, q1_filter8, q2_filter8;

-  v8u16 p3_r, p2_r, p1_r, p0_r, q3_r, q2_r, q1_r, q0_r;

-  v16i8 zero = { 0 };

-  (void)count;

-  /* load vector elements */

-  LD_UB8((src - 4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

-  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

-  limit = (v16u8)__msa_fill_b(*limit_ptr);

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

-               hev, mask, flat);

-  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

-  VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

-  flat = (v16u8)__msa_ilvr_d((v2i64)zero, (v2i64)flat);

-  if (__msa_test_bz_v(flat)) {

-    p1_d = __msa_copy_u_d((v2i64)p1_out, 0);

-    p0_d = __msa_copy_u_d((v2i64)p0_out, 0);

-    q0_d = __msa_copy_u_d((v2i64)q0_out, 0);

-    q1_d = __msa_copy_u_d((v2i64)q1_out, 0);

-    SD4(p1_d, p0_d, q0_d, q1_d, (src - 2 * pitch), pitch);

-  } else {

-    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

-               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r,

-               q2_r, q3_r);

-    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filter8,

-                p1_filter8, p0_filter8, q0_filter8, q1_filter8, q2_filter8);

-    /* convert 16 bit output data into 8 bit */

-    PCKEV_B4_SH(zero, p2_filter8, zero, p1_filter8, zero, p0_filter8,

-                zero, q0_filter8, p2_filter8, p1_filter8, p0_filter8,

-                q0_filter8);

-    PCKEV_B2_SH(zero, q1_filter8, zero, q2_filter8, q1_filter8, q2_filter8);

-    /* store pixel values */

-    p2_out = __msa_bmnz_v(p2, (v16u8)p2_filter8, flat);

-    p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_filter8, flat);

-    p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_filter8, flat);

-    q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_filter8, flat);

-    q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_filter8, flat);

-    q2_out = __msa_bmnz_v(q2, (v16u8)q2_filter8, flat);

-    p2_d = __msa_copy_u_d((v2i64)p2_out, 0);

-    p1_d = __msa_copy_u_d((v2i64)p1_out, 0);

-    p0_d = __msa_copy_u_d((v2i64)p0_out, 0);

-    q0_d = __msa_copy_u_d((v2i64)q0_out, 0);

-    q1_d = __msa_copy_u_d((v2i64)q1_out, 0);

-    q2_d = __msa_copy_u_d((v2i64)q2_out, 0);

-    src -= 3 * pitch;

-    SD4(p2_d, p1_d, p0_d, q0_d, src, pitch);

-    src += (4 * pitch);

-    SD(q1_d, src);

-    src += pitch;

-    SD(q2_d, src);

-  }

-}

-void vp9_lpf_horizontal_8_dual_msa(uint8_t *src, int32_t pitch,

-                                   const uint8_t *b_limit0,

-                                   const uint8_t *limit0,

-                                   const uint8_t *thresh0,

-                                   const uint8_t *b_limit1,

-                                   const uint8_t *limit1,

-                                   const uint8_t *thresh1) {

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

-  v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

-  v16u8 flat, mask, hev, tmp, thresh, b_limit, limit;

-  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

-  v8u16 p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l;

-  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

-  v8i16 p2_filt8_l, p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l;

-  v16u8 zero = { 0 };

-  /* load vector elements */

-  LD_UB8(src - (4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh = (v16u8)__msa_fill_b(*thresh0);

-  tmp = (v16u8)__msa_fill_b(*thresh1);

-  thresh = (v16u8)__msa_ilvr_d((v2i64)tmp, (v2i64)thresh);

-  b_limit = (v16u8)__msa_fill_b(*b_limit0);

-  tmp = (v16u8)__msa_fill_b(*b_limit1);

-  b_limit = (v16u8)__msa_ilvr_d((v2i64)tmp, (v2i64)b_limit);

-  limit = (v16u8)__msa_fill_b(*limit0);

-  tmp = (v16u8)__msa_fill_b(*limit1);

-  limit = (v16u8)__msa_ilvr_d((v2i64)tmp, (v2i64)limit);

-  /* mask and hev */

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

-               hev, mask, flat);

-  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

-  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

-  if (__msa_test_bz_v(flat)) {

-    ST_UB4(p1_out, p0_out, q0_out, q1_out, (src - 2 * pitch), pitch);

-  } else {

-    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

-               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r,

-               q2_r, q3_r);

-    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

-                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

-    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l, p2_l, p1_l, p0_l);

-    ILVL_B4_UH(zero, q0, zero, q1, zero, q2, zero, q3, q0_l, q1_l, q2_l, q3_l);

-    VP9_FILTER8(p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l, p2_filt8_l,

-                p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l);

-    /* convert 16 bit output data into 8 bit */

-    PCKEV_B4_SH(p2_filt8_l, p2_filt8_r, p1_filt8_l, p1_filt8_r, p0_filt8_l,

-                p0_filt8_r, q0_filt8_l, q0_filt8_r, p2_filt8_r, p1_filt8_r,

-                p0_filt8_r, q0_filt8_r);

-    PCKEV_B2_SH(q1_filt8_l, q1_filt8_r, q2_filt8_l, q2_filt8_r, q1_filt8_r,

-                q2_filt8_r);

-    /* store pixel values */

-    p2_out = __msa_bmnz_v(p2, (v16u8)p2_filt8_r, flat);

-    p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_filt8_r, flat);

-    p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_filt8_r, flat);

-    q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_filt8_r, flat);

-    q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_filt8_r, flat);

-    q2_out = __msa_bmnz_v(q2, (v16u8)q2_filt8_r, flat);

-    src -= 3 * pitch;

-    ST_UB4(p2_out, p1_out, p0_out, q0_out, src, pitch);

-    src += (4 * pitch);

-    ST_UB2(q1_out, q2_out, src, pitch);

-    src += (2 * pitch);

-  }

-}

-void vp9_lpf_vertical_8_msa(uint8_t *src, int32_t pitch,

-                            const uint8_t *b_limit_ptr,

-                            const uint8_t *limit_ptr,

-                            const uint8_t *thresh_ptr,

-                            int32_t count) {

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

-  v16u8 p1_out, p0_out, q0_out, q1_out;

-  v16u8 flat, mask, hev, thresh, b_limit, limit;

-  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

-  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

-  v16u8 zero = { 0 };

-  v8i16 vec0, vec1, vec2, vec3, vec4;

-  (void)count;

-  /* load vector elements */

-  LD_UB8(src - 4, pitch, p3, p2, p1, p0, q0, q1, q2, q3);

-  TRANSPOSE8x8_UB_UB(p3, p2, p1, p0, q0, q1, q2, q3,

-                     p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

-  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

-  limit = (v16u8)__msa_fill_b(*limit_ptr);

-  /* mask and hev */

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

-               hev, mask, flat);

-  /* flat4 */

-  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

-  /* filter4 */

-  VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

-  flat = (v16u8)__msa_ilvr_d((v2i64)zero, (v2i64)flat);

-  if (__msa_test_bz_v(flat)) {

-    /* Store 4 pixels p1-_q1 */

-    ILVR_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec2, vec3);

-    src -= 2;

-    ST4x4_UB(vec2, vec2, 0, 1, 2, 3, src, pitch);

-    src += 4 * pitch;

-    ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src, pitch);

-  } else {

-    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

-               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r,

-               q3_r);

-    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

-                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

-    /* convert 16 bit output data into 8 bit */

-    PCKEV_B4_SH(p2_filt8_r, p2_filt8_r, p1_filt8_r, p1_filt8_r, p0_filt8_r,

-                p0_filt8_r, q0_filt8_r, q0_filt8_r, p2_filt8_r, p1_filt8_r,

-                p0_filt8_r, q0_filt8_r);

-    PCKEV_B2_SH(q1_filt8_r, q1_filt8_r, q2_filt8_r, q2_filt8_r, q1_filt8_r,

-                q2_filt8_r);

-    /* store pixel values */

-    p2 = __msa_bmnz_v(p2, (v16u8)p2_filt8_r, flat);

-    p1 = __msa_bmnz_v(p1_out, (v16u8)p1_filt8_r, flat);

-    p0 = __msa_bmnz_v(p0_out, (v16u8)p0_filt8_r, flat);

-    q0 = __msa_bmnz_v(q0_out, (v16u8)q0_filt8_r, flat);

-    q1 = __msa_bmnz_v(q1_out, (v16u8)q1_filt8_r, flat);

-    q2 = __msa_bmnz_v(q2, (v16u8)q2_filt8_r, flat);

-    /* Store 6 pixels p2-_q2 */

-    ILVR_B2_SH(p1, p2, q0, p0, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec2, vec3);

-    vec4 = (v8i16)__msa_ilvr_b((v16i8)q2, (v16i8)q1);

-    src -= 3;

-    ST4x4_UB(vec2, vec2, 0, 1, 2, 3, src, pitch);

-    ST2x4_UB(vec4, 0, src + 4, pitch);

-    src += (4 * pitch);

-    ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src, pitch);

-    ST2x4_UB(vec4, 4, src + 4, pitch);

-  }

-}

-void vp9_lpf_vertical_8_dual_msa(uint8_t *src, int32_t pitch,

-                                 const uint8_t *b_limit0,

-                                 const uint8_t *limit0,

-                                 const uint8_t *thresh0,

-                                 const uint8_t *b_limit1,

-                                 const uint8_t *limit1,

-                                 const uint8_t *thresh1) {

-  uint8_t *temp_src;

-  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

-  v16u8 p1_out, p0_out, q0_out, q1_out;

-  v16u8 flat, mask, hev, thresh, b_limit, limit;

-  v16u8 row4, row5, row6, row7, row12, row13, row14, row15;

-  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

-  v8u16 p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l;

-  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

-  v8i16 p2_filt8_l, p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l;

-  v16u8 zero = { 0 };

-  v8i16 vec0, vec1, vec2, vec3, vec4, vec5, vec6, vec7;

-  temp_src = src - 4;

-  LD_UB8(temp_src, pitch, p0, p1, p2, p3, row4, row5, row6, row7);

-  temp_src += (8 * pitch);

-  LD_UB8(temp_src, pitch, q3, q2, q1, q0, row12, row13, row14, row15);

-  /* transpose 16x8 matrix into 8x16 */

-  TRANSPOSE16x8_UB_UB(p0, p1, p2, p3, row4, row5, row6, row7,

-                      q3, q2, q1, q0, row12, row13, row14, row15,

-                      p3, p2, p1, p0, q0, q1, q2, q3);

-  thresh = (v16u8)__msa_fill_b(*thresh0);

-  vec0 = (v8i16)__msa_fill_b(*thresh1);

-  thresh = (v16u8)__msa_ilvr_d((v2i64)vec0, (v2i64)thresh);

-  b_limit = (v16u8)__msa_fill_b(*b_limit0);

-  vec0 = (v8i16)__msa_fill_b(*b_limit1);

-  b_limit = (v16u8)__msa_ilvr_d((v2i64)vec0, (v2i64)b_limit);

-  limit = (v16u8)__msa_fill_b(*limit0);

-  vec0 = (v8i16)__msa_fill_b(*limit1);

-  limit = (v16u8)__msa_ilvr_d((v2i64)vec0, (v2i64)limit);

-  /* mask and hev */

-  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

-               hev, mask, flat);

-  /* flat4 */

-  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

-  /* filter4 */

-  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

-  if (__msa_test_bz_v(flat)) {

-    ILVR_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec2, vec3);

-    ILVL_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec4, vec5);

-    src -= 2;

-    ST4x8_UB(vec2, vec3, src, pitch);

-    src += 8 * pitch;

-    ST4x8_UB(vec4, vec5, src, pitch);

-  } else {

-    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

-               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r,

-               q3_r);

-    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

-                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

-    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l, p2_l, p1_l, p0_l);

-    ILVL_B4_UH(zero, q0, zero, q1, zero, q2, zero, q3, q0_l, q1_l, q2_l, q3_l);

-    /* filter8 */

-    VP9_FILTER8(p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l, p2_filt8_l,

-                p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l);

-    /* convert 16 bit output data into 8 bit */

-    PCKEV_B4_SH(p2_filt8_l, p2_filt8_r, p1_filt8_l, p1_filt8_r, p0_filt8_l,

-                p0_filt8_r, q0_filt8_l, q0_filt8_r, p2_filt8_r, p1_filt8_r,

-                p0_filt8_r, q0_filt8_r);

-    PCKEV_B2_SH(q1_filt8_l, q1_filt8_r, q2_filt8_l, q2_filt8_r, q1_filt8_r,

-                q2_filt8_r);

-    /* store pixel values */

-    p2 = __msa_bmnz_v(p2, (v16u8)p2_filt8_r, flat);

-    p1 = __msa_bmnz_v(p1_out, (v16u8)p1_filt8_r, flat);

-    p0 = __msa_bmnz_v(p0_out, (v16u8)p0_filt8_r, flat);

-    q0 = __msa_bmnz_v(q0_out, (v16u8)q0_filt8_r, flat);

-    q1 = __msa_bmnz_v(q1_out, (v16u8)q1_filt8_r, flat);

-    q2 = __msa_bmnz_v(q2, (v16u8)q2_filt8_r, flat);

-    ILVR_B2_SH(p1, p2, q0, p0, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec3, vec4);

-    ILVL_B2_SH(p1, p2, q0, p0, vec0, vec1);

-    ILVRL_H2_SH(vec1, vec0, vec6, vec7);

-    ILVRL_B2_SH(q2, q1, vec2, vec5);

-    src -= 3;

-    ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src, pitch);

-    ST2x4_UB(vec2, 0, src + 4, pitch);

-    src += (4 * pitch);

-    ST4x4_UB(vec4, vec4, 0, 1, 2, 3, src, pitch);

-    ST2x4_UB(vec2, 4, src + 4, pitch);

-    src += (4 * pitch);

-    ST4x4_UB(vec6, vec6, 0, 1, 2, 3, src, pitch);

-    ST2x4_UB(vec5, 0, src + 4, pitch);

-    src += (4 * pitch);

-    ST4x4_UB(vec7, vec7, 0, 1, 2, 3, src, pitch);

-    ST2x4_UB(vec5, 4, src + 4, pitch);

-  }

-}

--- a/vp9/common/mips/msa/vp9_loopfilter_msa.h

+++ /dev/null

@@ -1,246 +1,0 @@

-/*

- *  Copyright (c) 2015 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#ifndef VP9_COMMON_MIPS_MSA_VP9_LOOPFILTER_MSA_H_

-#define VP9_COMMON_MIPS_MSA_VP9_LOOPFILTER_MSA_H_

-#include "vpx_dsp/mips/macros_msa.h"

-#define VP9_LPF_FILTER4_8W(p1_in, p0_in, q0_in, q1_in, mask_in, hev_in,  \

-                           p1_out, p0_out, q0_out, q1_out) {             \

-  v16i8 p1_m, p0_m, q0_m, q1_m, q0_sub_p0, filt_sign;                    \

-  v16i8 filt, filt1, filt2, cnst4b, cnst3b;                              \

-  v8i16 q0_sub_p0_r, filt_r, cnst3h;                                     \

-                                                                         \

-  p1_m = (v16i8)__msa_xori_b(p1_in, 0x80);                               \

-  p0_m = (v16i8)__msa_xori_b(p0_in, 0x80);                               \

-  q0_m = (v16i8)__msa_xori_b(q0_in, 0x80);                               \

-  q1_m = (v16i8)__msa_xori_b(q1_in, 0x80);                               \

-                                                                         \

-  filt = __msa_subs_s_b(p1_m, q1_m);                                     \

-  filt = filt & (v16i8)hev_in;                                           \

-  q0_sub_p0 = q0_m - p0_m;                                               \

-  filt_sign = __msa_clti_s_b(filt, 0);                                   \

-                                                                         \

-  cnst3h = __msa_ldi_h(3);                                               \

-  q0_sub_p0_r = (v8i16)__msa_ilvr_b(q0_sub_p0, q0_sub_p0);               \

-  q0_sub_p0_r = __msa_dotp_s_h((v16i8)q0_sub_p0_r, (v16i8)cnst3h);       \

-  filt_r = (v8i16)__msa_ilvr_b(filt_sign, filt);                         \

-  filt_r += q0_sub_p0_r;                                                 \

-  filt_r = __msa_sat_s_h(filt_r, 7);                                     \

-                                                                         \

-  /* combine left and right part */                                      \

-  filt = __msa_pckev_b((v16i8)filt_r, (v16i8)filt_r);                    \

-                                                                         \

-  filt = filt & (v16i8)mask_in;                                          \

-  cnst4b = __msa_ldi_b(4);                                               \

-  filt1 = __msa_adds_s_b(filt, cnst4b);                                  \

-  filt1 >>= 3;                                                           \

-                                                                         \

-  cnst3b = __msa_ldi_b(3);                                               \

-  filt2 = __msa_adds_s_b(filt, cnst3b);                                  \

-  filt2 >>= 3;                                                           \

-                                                                         \

-  q0_m = __msa_subs_s_b(q0_m, filt1);                                    \

-  q0_out = __msa_xori_b((v16u8)q0_m, 0x80);                              \

-  p0_m = __msa_adds_s_b(p0_m, filt2);                                    \

-  p0_out = __msa_xori_b((v16u8)p0_m, 0x80);                              \

-                                                                         \

-  filt = __msa_srari_b(filt1, 1);                                        \

-  hev_in = __msa_xori_b((v16u8)hev_in, 0xff);                            \

-  filt = filt & (v16i8)hev_in;                                           \

-                                                                         \

-  q1_m = __msa_subs_s_b(q1_m, filt);                                     \

-  q1_out = __msa_xori_b((v16u8)q1_m, 0x80);                              \

-  p1_m = __msa_adds_s_b(p1_m, filt);                                     \

-  p1_out = __msa_xori_b((v16u8)p1_m, 0x80);                              \

-}

-#define VP9_LPF_FILTER4_4W(p1_in, p0_in, q0_in, q1_in, mask_in, hev_in,  \

-                           p1_out, p0_out, q0_out, q1_out) {             \

-  v16i8 p1_m, p0_m, q0_m, q1_m, q0_sub_p0, filt_sign;                    \

-  v16i8 filt, filt1, filt2, cnst4b, cnst3b;                              \

-  v8i16 q0_sub_p0_r, q0_sub_p0_l, filt_l, filt_r, cnst3h;                \

-                                                                         \

-  p1_m = (v16i8)__msa_xori_b(p1_in, 0x80);                               \

-  p0_m = (v16i8)__msa_xori_b(p0_in, 0x80);                               \

-  q0_m = (v16i8)__msa_xori_b(q0_in, 0x80);                               \

-  q1_m = (v16i8)__msa_xori_b(q1_in, 0x80);                               \

-                                                                         \

-  filt = __msa_subs_s_b(p1_m, q1_m);                                     \

-                                                                         \

-  filt = filt & (v16i8)hev_in;                                           \

-                                                                         \

-  q0_sub_p0 = q0_m - p0_m;                                               \

-  filt_sign = __msa_clti_s_b(filt, 0);                                   \

-                                                                         \

-  cnst3h = __msa_ldi_h(3);                                               \

-  q0_sub_p0_r = (v8i16)__msa_ilvr_b(q0_sub_p0, q0_sub_p0);               \

-  q0_sub_p0_r = __msa_dotp_s_h((v16i8)q0_sub_p0_r, (v16i8)cnst3h);       \

-  filt_r = (v8i16)__msa_ilvr_b(filt_sign, filt);                         \

-  filt_r += q0_sub_p0_r;                                                 \

-  filt_r = __msa_sat_s_h(filt_r, 7);                                     \

-                                                                         \

-  q0_sub_p0_l = (v8i16)__msa_ilvl_b(q0_sub_p0, q0_sub_p0);               \

-  q0_sub_p0_l = __msa_dotp_s_h((v16i8)q0_sub_p0_l, (v16i8)cnst3h);       \

-  filt_l = (v8i16)__msa_ilvl_b(filt_sign, filt);                         \

-  filt_l += q0_sub_p0_l;                                                 \

-  filt_l = __msa_sat_s_h(filt_l, 7);                                     \

-                                                                         \

-  filt = __msa_pckev_b((v16i8)filt_l, (v16i8)filt_r);                    \

-  filt = filt & (v16i8)mask_in;                                          \

-                                                                         \

-  cnst4b = __msa_ldi_b(4);                                               \

-  filt1 = __msa_adds_s_b(filt, cnst4b);                                  \

-  filt1 >>= 3;                                                           \

-                                                                         \

-  cnst3b = __msa_ldi_b(3);                                               \

-  filt2 = __msa_adds_s_b(filt, cnst3b);                                  \

-  filt2 >>= 3;                                                           \

-                                                                         \

-  q0_m = __msa_subs_s_b(q0_m, filt1);                                    \

-  q0_out = __msa_xori_b((v16u8)q0_m, 0x80);                              \

-  p0_m = __msa_adds_s_b(p0_m, filt2);                                    \

-  p0_out = __msa_xori_b((v16u8)p0_m, 0x80);                              \

-                                                                         \

-  filt = __msa_srari_b(filt1, 1);                                        \

-  hev_in = __msa_xori_b((v16u8)hev_in, 0xff);                            \

-  filt = filt & (v16i8)hev_in;                                           \

-                                                                         \

-  q1_m = __msa_subs_s_b(q1_m, filt);                                     \

-  q1_out = __msa_xori_b((v16u8)q1_m, 0x80);                              \

-  p1_m = __msa_adds_s_b(p1_m, filt);                                     \

-  p1_out = __msa_xori_b((v16u8)p1_m, 0x80);                              \

-}

-#define VP9_FLAT4(p3_in, p2_in, p0_in, q0_in, q2_in, q3_in, flat_out) {  \

-  v16u8 tmp, p2_a_sub_p0, q2_a_sub_q0, p3_a_sub_p0, q3_a_sub_q0;         \

-  v16u8 zero_in = { 0 };                                                 \

-                                                                         \

-  tmp = __msa_ori_b(zero_in, 1);                                         \

-  p2_a_sub_p0 = __msa_asub_u_b(p2_in, p0_in);                            \

-  q2_a_sub_q0 = __msa_asub_u_b(q2_in, q0_in);                            \

-  p3_a_sub_p0 = __msa_asub_u_b(p3_in, p0_in);                            \

-  q3_a_sub_q0 = __msa_asub_u_b(q3_in, q0_in);                            \

-                                                                         \

-  p2_a_sub_p0 = __msa_max_u_b(p2_a_sub_p0, q2_a_sub_q0);                 \

-  flat_out = __msa_max_u_b(p2_a_sub_p0, flat_out);                       \

-  p3_a_sub_p0 = __msa_max_u_b(p3_a_sub_p0, q3_a_sub_q0);                 \

-  flat_out = __msa_max_u_b(p3_a_sub_p0, flat_out);                       \

-                                                                         \

-  flat_out = (tmp < (v16u8)flat_out);                                    \

-  flat_out = __msa_xori_b(flat_out, 0xff);                               \

-  flat_out = flat_out & (mask);                                          \

-}

-#define VP9_FLAT5(p7_in, p6_in, p5_in, p4_in, p0_in, q0_in, q4_in,  \

-                  q5_in, q6_in, q7_in, flat_in, flat2_out) {        \

-  v16u8 tmp, zero_in = { 0 };                                       \

-  v16u8 p4_a_sub_p0, q4_a_sub_q0, p5_a_sub_p0, q5_a_sub_q0;         \

-  v16u8 p6_a_sub_p0, q6_a_sub_q0, p7_a_sub_p0, q7_a_sub_q0;         \

-                                                                    \

-  tmp = __msa_ori_b(zero_in, 1);                                    \

-  p4_a_sub_p0 = __msa_asub_u_b(p4_in, p0_in);                       \

-  q4_a_sub_q0 = __msa_asub_u_b(q4_in, q0_in);                       \

-  p5_a_sub_p0 = __msa_asub_u_b(p5_in, p0_in);                       \

-  q5_a_sub_q0 = __msa_asub_u_b(q5_in, q0_in);                       \

-  p6_a_sub_p0 = __msa_asub_u_b(p6_in, p0_in);                       \

-  q6_a_sub_q0 = __msa_asub_u_b(q6_in, q0_in);                       \

-  p7_a_sub_p0 = __msa_asub_u_b(p7_in, p0_in);                       \

-  q7_a_sub_q0 = __msa_asub_u_b(q7_in, q0_in);                       \

-                                                                    \

-  p4_a_sub_p0 = __msa_max_u_b(p4_a_sub_p0, q4_a_sub_q0);            \

-  flat2_out = __msa_max_u_b(p5_a_sub_p0, q5_a_sub_q0);              \

-  flat2_out = __msa_max_u_b(p4_a_sub_p0, flat2_out);                \

-  p6_a_sub_p0 = __msa_max_u_b(p6_a_sub_p0, q6_a_sub_q0);            \

-  flat2_out = __msa_max_u_b(p6_a_sub_p0, flat2_out);                \

-  p7_a_sub_p0 = __msa_max_u_b(p7_a_sub_p0, q7_a_sub_q0);            \

-  flat2_out = __msa_max_u_b(p7_a_sub_p0, flat2_out);                \

-                                                                    \

-  flat2_out = (tmp < (v16u8)flat2_out);                             \

-  flat2_out = __msa_xori_b(flat2_out, 0xff);                        \

-  flat2_out = flat2_out & flat_in;                                  \

-}

-#define VP9_FILTER8(p3_in, p2_in, p1_in, p0_in,                  \

-                    q0_in, q1_in, q2_in, q3_in,                  \

-                    p2_filt8_out, p1_filt8_out, p0_filt8_out,    \

-                    q0_filt8_out, q1_filt8_out, q2_filt8_out) {  \

-  v8u16 tmp0, tmp1, tmp2;                                        \

-                                                                 \

-  tmp2 = p2_in + p1_in + p0_in;                                  \

-  tmp0 = p3_in << 1;                                             \

-                                                                 \

-  tmp0 = tmp0 + tmp2 + q0_in;                                    \

-  tmp1 = tmp0 + p3_in + p2_in;                                   \

-  p2_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);           \

-                                                                 \

-  tmp1 = tmp0 + p1_in + q1_in;                                   \

-  p1_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);           \

-                                                                 \

-  tmp1 = q2_in + q1_in + q0_in;                                  \

-  tmp2 = tmp2 + tmp1;                                            \

-  tmp0 = tmp2 + (p0_in);                                         \

-  tmp0 = tmp0 + (p3_in);                                         \

-  p0_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp0, 3);           \

-                                                                 \

-  tmp0 = q2_in + q3_in;                                          \

-  tmp0 = p0_in + tmp1 + tmp0;                                    \

-  tmp1 = q3_in + q3_in;                                          \

-  tmp1 = tmp1 + tmp0;                                            \

-  q2_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);           \

-                                                                 \

-  tmp0 = tmp2 + q3_in;                                           \

-  tmp1 = tmp0 + q0_in;                                           \

-  q0_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);           \

-                                                                 \

-  tmp1 = tmp0 - p2_in;                                           \

-  tmp0 = q1_in + q3_in;                                          \

-  tmp1 = tmp0 + tmp1;                                            \

-  q1_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);           \

-}

-#define LPF_MASK_HEV(p3_in, p2_in, p1_in, p0_in,                 \

-                     q0_in, q1_in, q2_in, q3_in,                 \

-                     limit_in, b_limit_in, thresh_in,            \

-                     hev_out, mask_out, flat_out) {              \

-  v16u8 p3_asub_p2_m, p2_asub_p1_m, p1_asub_p0_m, q1_asub_q0_m;  \

-  v16u8 p1_asub_q1_m, p0_asub_q0_m, q3_asub_q2_m, q2_asub_q1_m;  \

-                                                                 \

-  /* absolute subtraction of pixel values */                     \

-  p3_asub_p2_m = __msa_asub_u_b(p3_in, p2_in);                   \

-  p2_asub_p1_m = __msa_asub_u_b(p2_in, p1_in);                   \

-  p1_asub_p0_m = __msa_asub_u_b(p1_in, p0_in);                   \

-  q1_asub_q0_m = __msa_asub_u_b(q1_in, q0_in);                   \

-  q2_asub_q1_m = __msa_asub_u_b(q2_in, q1_in);                   \

-  q3_asub_q2_m = __msa_asub_u_b(q3_in, q2_in);                   \

-  p0_asub_q0_m = __msa_asub_u_b(p0_in, q0_in);                   \

-  p1_asub_q1_m = __msa_asub_u_b(p1_in, q1_in);                   \

-                                                                 \

-  /* calculation of hev */                                       \

-  flat_out = __msa_max_u_b(p1_asub_p0_m, q1_asub_q0_m);          \

-  hev_out = thresh_in < (v16u8)flat_out;                         \

-                                                                 \

-  /* calculation of mask */                                      \

-  p0_asub_q0_m = __msa_adds_u_b(p0_asub_q0_m, p0_asub_q0_m);     \

-  p1_asub_q1_m >>= 1;                                            \

-  p0_asub_q0_m = __msa_adds_u_b(p0_asub_q0_m, p1_asub_q1_m);     \

-                                                                 \

-  mask_out = b_limit_in < p0_asub_q0_m;                          \

-  mask_out = __msa_max_u_b(flat_out, mask_out);                  \

-  p3_asub_p2_m = __msa_max_u_b(p3_asub_p2_m, p2_asub_p1_m);      \

-  mask_out = __msa_max_u_b(p3_asub_p2_m, mask_out);              \

-  q2_asub_q1_m = __msa_max_u_b(q2_asub_q1_m, q3_asub_q2_m);      \

-  mask_out = __msa_max_u_b(q2_asub_q1_m, mask_out);              \

-                                                                 \

-  mask_out = limit_in < (v16u8)mask_out;                         \

-  mask_out = __msa_xori_b(mask_out, 0xff);                       \

-}

-#endif  /* VP9_COMMON_MIPS_MSA_VP9_LOOPFILTER_MSA_H_ */

--- a/vp9/common/vp9_loopfilter.c

+++ b/vp9/common/vp9_loopfilter.c

@@ -9,6 +9,7 @@

*/

 #include "./vpx_config.h"

+#include "./vpx_dsp_rtcd.h"

 #include "vp9/common/vp9_loopfilter.h"

 #include "vp9/common/vp9_onyxc_int.h"

 #include "vp9/common/vp9_reconinter.h"

--- a/vp9/common/vp9_loopfilter_filters.c

+++ /dev/null

@@ -1,743 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "./vpx_config.h"

-#include "vpx_dsp/vpx_dsp_common.h"

-#include "vpx_ports/mem.h"

-static INLINE int8_t signed_char_clamp(int t) {

-  return (int8_t)clamp(t, -128, 127);

-}

-#if CONFIG_VP9_HIGHBITDEPTH

-static INLINE int16_t signed_char_clamp_high(int t, int bd) {

-  switch (bd) {

-    case 10:

-      return (int16_t)clamp(t, -128*4, 128*4-1);

-    case 12:

-      return (int16_t)clamp(t, -128*16, 128*16-1);

-    case 8:

-    default:

-      return (int16_t)clamp(t, -128, 128-1);

-  }

-}

-#endif

-// should we apply any filter at all: 11111111 yes, 00000000 no

-static INLINE int8_t filter_mask(uint8_t limit, uint8_t blimit,

-                                 uint8_t p3, uint8_t p2,

-                                 uint8_t p1, uint8_t p0,

-                                 uint8_t q0, uint8_t q1,

-                                 uint8_t q2, uint8_t q3) {

-  int8_t mask = 0;

-  mask |= (abs(p3 - p2) > limit) * -1;

-  mask |= (abs(p2 - p1) > limit) * -1;

-  mask |= (abs(p1 - p0) > limit) * -1;

-  mask |= (abs(q1 - q0) > limit) * -1;

-  mask |= (abs(q2 - q1) > limit) * -1;

-  mask |= (abs(q3 - q2) > limit) * -1;

-  mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

-  return ~mask;

-}

-static INLINE int8_t flat_mask4(uint8_t thresh,

-                                uint8_t p3, uint8_t p2,

-                                uint8_t p1, uint8_t p0,

-                                uint8_t q0, uint8_t q1,

-                                uint8_t q2, uint8_t q3) {

-  int8_t mask = 0;

-  mask |= (abs(p1 - p0) > thresh) * -1;

-  mask |= (abs(q1 - q0) > thresh) * -1;

-  mask |= (abs(p2 - p0) > thresh) * -1;

-  mask |= (abs(q2 - q0) > thresh) * -1;

-  mask |= (abs(p3 - p0) > thresh) * -1;

-  mask |= (abs(q3 - q0) > thresh) * -1;

-  return ~mask;

-}

-static INLINE int8_t flat_mask5(uint8_t thresh,

-                                uint8_t p4, uint8_t p3,

-                                uint8_t p2, uint8_t p1,

-                                uint8_t p0, uint8_t q0,

-                                uint8_t q1, uint8_t q2,

-                                uint8_t q3, uint8_t q4) {

-  int8_t mask = ~flat_mask4(thresh, p3, p2, p1, p0, q0, q1, q2, q3);

-  mask |= (abs(p4 - p0) > thresh) * -1;

-  mask |= (abs(q4 - q0) > thresh) * -1;

-  return ~mask;

-}

-// is there high edge variance internal edge: 11111111 yes, 00000000 no

-static INLINE int8_t hev_mask(uint8_t thresh, uint8_t p1, uint8_t p0,

-                              uint8_t q0, uint8_t q1) {

-  int8_t hev = 0;

-  hev  |= (abs(p1 - p0) > thresh) * -1;

-  hev  |= (abs(q1 - q0) > thresh) * -1;

-  return hev;

-}

-static INLINE void filter4(int8_t mask, uint8_t thresh, uint8_t *op1,

-                           uint8_t *op0, uint8_t *oq0, uint8_t *oq1) {

-  int8_t filter1, filter2;

-  const int8_t ps1 = (int8_t) *op1 ^ 0x80;

-  const int8_t ps0 = (int8_t) *op0 ^ 0x80;

-  const int8_t qs0 = (int8_t) *oq0 ^ 0x80;

-  const int8_t qs1 = (int8_t) *oq1 ^ 0x80;

-  const uint8_t hev = hev_mask(thresh, *op1, *op0, *oq0, *oq1);

-  // add outer taps if we have high edge variance

-  int8_t filter = signed_char_clamp(ps1 - qs1) & hev;

-  // inner taps

-  filter = signed_char_clamp(filter + 3 * (qs0 - ps0)) & mask;

-  // save bottom 3 bits so that we round one side +4 and the other +3

-  // if it equals 4 we'll set to adjust by -1 to account for the fact

-  // we'd round 3 the other way

-  filter1 = signed_char_clamp(filter + 4) >> 3;

-  filter2 = signed_char_clamp(filter + 3) >> 3;

-  *oq0 = signed_char_clamp(qs0 - filter1) ^ 0x80;

-  *op0 = signed_char_clamp(ps0 + filter2) ^ 0x80;

-  // outer tap adjustments

-  filter = ROUND_POWER_OF_TWO(filter1, 1) & ~hev;

-  *oq1 = signed_char_clamp(qs1 - filter) ^ 0x80;

-  *op1 = signed_char_clamp(ps1 + filter) ^ 0x80;

-}

-void vp9_lpf_horizontal_4_c(uint8_t *s, int p /* pitch */,

-                            const uint8_t *blimit, const uint8_t *limit,

-                            const uint8_t *thresh, int count) {

-  int i;

-  // loop filter designed to work using chars so that we can make maximum use

-  // of 8 bit simd instructions.

-  for (i = 0; i < 8 * count; ++i) {

-    const uint8_t p3 = s[-4 * p], p2 = s[-3 * p], p1 = s[-2 * p], p0 = s[-p];

-    const uint8_t q0 = s[0 * p],  q1 = s[1 * p],  q2 = s[2 * p],  q3 = s[3 * p];

-    const int8_t mask = filter_mask(*limit, *blimit,

-                                    p3, p2, p1, p0, q0, q1, q2, q3);

-    filter4(mask, *thresh, s - 2 * p, s - 1 * p, s, s + 1 * p);

-    ++s;

-  }

-}

-void vp9_lpf_horizontal_4_dual_c(uint8_t *s, int p, const uint8_t *blimit0,

-                                 const uint8_t *limit0, const uint8_t *thresh0,

-                                 const uint8_t *blimit1, const uint8_t *limit1,

-                                 const uint8_t *thresh1) {

-  vp9_lpf_horizontal_4_c(s, p, blimit0, limit0, thresh0, 1);

-  vp9_lpf_horizontal_4_c(s + 8, p, blimit1, limit1, thresh1, 1);

-}

-void vp9_lpf_vertical_4_c(uint8_t *s, int pitch, const uint8_t *blimit,

-                          const uint8_t *limit, const uint8_t *thresh,

-                          int count) {

-  int i;

-  // loop filter designed to work using chars so that we can make maximum use

-  // of 8 bit simd instructions.

-  for (i = 0; i < 8 * count; ++i) {

-    const uint8_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

-    const uint8_t q0 = s[0],  q1 = s[1],  q2 = s[2],  q3 = s[3];

-    const int8_t mask = filter_mask(*limit, *blimit,

-                                    p3, p2, p1, p0, q0, q1, q2, q3);

-    filter4(mask, *thresh, s - 2, s - 1, s, s + 1);

-    s += pitch;

-  }

-}

-void vp9_lpf_vertical_4_dual_c(uint8_t *s, int pitch, const uint8_t *blimit0,

-                               const uint8_t *limit0, const uint8_t *thresh0,

-                               const uint8_t *blimit1, const uint8_t *limit1,

-                               const uint8_t *thresh1) {

-  vp9_lpf_vertical_4_c(s, pitch, blimit0, limit0, thresh0, 1);

-  vp9_lpf_vertical_4_c(s + 8 * pitch, pitch, blimit1, limit1,

-                                  thresh1, 1);

-}

-static INLINE void filter8(int8_t mask, uint8_t thresh, uint8_t flat,

-                           uint8_t *op3, uint8_t *op2,

-                           uint8_t *op1, uint8_t *op0,

-                           uint8_t *oq0, uint8_t *oq1,

-                           uint8_t *oq2, uint8_t *oq3) {

-  if (flat && mask) {

-    const uint8_t p3 = *op3, p2 = *op2, p1 = *op1, p0 = *op0;

-    const uint8_t q0 = *oq0, q1 = *oq1, q2 = *oq2, q3 = *oq3;

-    // 7-tap filter [1, 1, 1, 2, 1, 1, 1]

-    *op2 = ROUND_POWER_OF_TWO(p3 + p3 + p3 + 2 * p2 + p1 + p0 + q0, 3);

-    *op1 = ROUND_POWER_OF_TWO(p3 + p3 + p2 + 2 * p1 + p0 + q0 + q1, 3);

-    *op0 = ROUND_POWER_OF_TWO(p3 + p2 + p1 + 2 * p0 + q0 + q1 + q2, 3);

-    *oq0 = ROUND_POWER_OF_TWO(p2 + p1 + p0 + 2 * q0 + q1 + q2 + q3, 3);

-    *oq1 = ROUND_POWER_OF_TWO(p1 + p0 + q0 + 2 * q1 + q2 + q3 + q3, 3);

-    *oq2 = ROUND_POWER_OF_TWO(p0 + q0 + q1 + 2 * q2 + q3 + q3 + q3, 3);

-  } else {

-    filter4(mask, thresh, op1,  op0, oq0, oq1);

-  }

-}

-void vp9_lpf_horizontal_8_c(uint8_t *s, int p, const uint8_t *blimit,

-                            const uint8_t *limit, const uint8_t *thresh,

-                            int count) {

-  int i;

-  // loop filter designed to work using chars so that we can make maximum use

-  // of 8 bit simd instructions.

-  for (i = 0; i < 8 * count; ++i) {

-    const uint8_t p3 = s[-4 * p], p2 = s[-3 * p], p1 = s[-2 * p], p0 = s[-p];

-    const uint8_t q0 = s[0 * p], q1 = s[1 * p], q2 = s[2 * p], q3 = s[3 * p];

-    const int8_t mask = filter_mask(*limit, *blimit,

-                                    p3, p2, p1, p0, q0, q1, q2, q3);

-    const int8_t flat = flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3);

-    filter8(mask, *thresh, flat, s - 4 * p, s - 3 * p, s - 2 * p, s - 1 * p,

-                                 s,         s + 1 * p, s + 2 * p, s + 3 * p);

-    ++s;

-  }

-}

-void vp9_lpf_horizontal_8_dual_c(uint8_t *s, int p, const uint8_t *blimit0,

-                                 const uint8_t *limit0, const uint8_t *thresh0,

-                                 const uint8_t *blimit1, const uint8_t *limit1,

-                                 const uint8_t *thresh1) {

-  vp9_lpf_horizontal_8_c(s, p, blimit0, limit0, thresh0, 1);

-  vp9_lpf_horizontal_8_c(s + 8, p, blimit1, limit1, thresh1, 1);

-}

-void vp9_lpf_vertical_8_c(uint8_t *s, int pitch, const uint8_t *blimit,

-                          const uint8_t *limit, const uint8_t *thresh,

-                          int count) {

-  int i;

-  for (i = 0; i < 8 * count; ++i) {

-    const uint8_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

-    const uint8_t q0 = s[0], q1 = s[1], q2 = s[2], q3 = s[3];

-    const int8_t mask = filter_mask(*limit, *blimit,

-                                    p3, p2, p1, p0, q0, q1, q2, q3);

-    const int8_t flat = flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3);

-    filter8(mask, *thresh, flat, s - 4, s - 3, s - 2, s - 1,

-                                 s,     s + 1, s + 2, s + 3);

-    s += pitch;

-  }

-}

-void vp9_lpf_vertical_8_dual_c(uint8_t *s, int pitch, const uint8_t *blimit0,

-                               const uint8_t *limit0, const uint8_t *thresh0,

-                               const uint8_t *blimit1, const uint8_t *limit1,

-                               const uint8_t *thresh1) {

-  vp9_lpf_vertical_8_c(s, pitch, blimit0, limit0, thresh0, 1);

-  vp9_lpf_vertical_8_c(s + 8 * pitch, pitch, blimit1, limit1,

-                                    thresh1, 1);

-}

-static INLINE void filter16(int8_t mask, uint8_t thresh,

-                            uint8_t flat, uint8_t flat2,

-                            uint8_t *op7, uint8_t *op6,

-                            uint8_t *op5, uint8_t *op4,

-                            uint8_t *op3, uint8_t *op2,

-                            uint8_t *op1, uint8_t *op0,

-                            uint8_t *oq0, uint8_t *oq1,

-                            uint8_t *oq2, uint8_t *oq3,

-                            uint8_t *oq4, uint8_t *oq5,

-                            uint8_t *oq6, uint8_t *oq7) {

-  if (flat2 && flat && mask) {

-    const uint8_t p7 = *op7, p6 = *op6, p5 = *op5, p4 = *op4,

-                  p3 = *op3, p2 = *op2, p1 = *op1, p0 = *op0;

-    const uint8_t q0 = *oq0, q1 = *oq1, q2 = *oq2, q3 = *oq3,

-                  q4 = *oq4, q5 = *oq5, q6 = *oq6, q7 = *oq7;

-    // 15-tap filter [1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1]

-    *op6 = ROUND_POWER_OF_TWO(p7 * 7 + p6 * 2 + p5 + p4 + p3 + p2 + p1 + p0 +

-                              q0, 4);

-    *op5 = ROUND_POWER_OF_TWO(p7 * 6 + p6 + p5 * 2 + p4 + p3 + p2 + p1 + p0 +

-                              q0 + q1, 4);

-    *op4 = ROUND_POWER_OF_TWO(p7 * 5 + p6 + p5 + p4 * 2 + p3 + p2 + p1 + p0 +

-                              q0 + q1 + q2, 4);

-    *op3 = ROUND_POWER_OF_TWO(p7 * 4 + p6 + p5 + p4 + p3 * 2 + p2 + p1 + p0 +

-                              q0 + q1 + q2 + q3, 4);

-    *op2 = ROUND_POWER_OF_TWO(p7 * 3 + p6 + p5 + p4 + p3 + p2 * 2 + p1 + p0 +

-                              q0 + q1 + q2 + q3 + q4, 4);

-    *op1 = ROUND_POWER_OF_TWO(p7 * 2 + p6 + p5 + p4 + p3 + p2 + p1 * 2 + p0 +

-                              q0 + q1 + q2 + q3 + q4 + q5, 4);

-    *op0 = ROUND_POWER_OF_TWO(p7 + p6 + p5 + p4 + p3 + p2 + p1 + p0 * 2 +

-                              q0 + q1 + q2 + q3 + q4 + q5 + q6, 4);

-    *oq0 = ROUND_POWER_OF_TWO(p6 + p5 + p4 + p3 + p2 + p1 + p0 +

-                              q0 * 2 + q1 + q2 + q3 + q4 + q5 + q6 + q7, 4);

-    *oq1 = ROUND_POWER_OF_TWO(p5 + p4 + p3 + p2 + p1 + p0 +

-                              q0 + q1 * 2 + q2 + q3 + q4 + q5 + q6 + q7 * 2, 4);

-    *oq2 = ROUND_POWER_OF_TWO(p4 + p3 + p2 + p1 + p0 +

-                              q0 + q1 + q2 * 2 + q3 + q4 + q5 + q6 + q7 * 3, 4);

-    *oq3 = ROUND_POWER_OF_TWO(p3 + p2 + p1 + p0 +

-                              q0 + q1 + q2 + q3 * 2 + q4 + q5 + q6 + q7 * 4, 4);

-    *oq4 = ROUND_POWER_OF_TWO(p2 + p1 + p0 +

-                              q0 + q1 + q2 + q3 + q4 * 2 + q5 + q6 + q7 * 5, 4);

-    *oq5 = ROUND_POWER_OF_TWO(p1 + p0 +

-                              q0 + q1 + q2 + q3 + q4 + q5 * 2 + q6 + q7 * 6, 4);

-    *oq6 = ROUND_POWER_OF_TWO(p0 +

-                              q0 + q1 + q2 + q3 + q4 + q5 + q6 * 2 + q7 * 7, 4);

-  } else {

-    filter8(mask, thresh, flat, op3, op2, op1, op0, oq0, oq1, oq2, oq3);

-  }

-}

-void vp9_lpf_horizontal_16_c(uint8_t *s, int p, const uint8_t *blimit,

-                             const uint8_t *limit, const uint8_t *thresh,

-                             int count) {

-  int i;

-  // loop filter designed to work using chars so that we can make maximum use

-  // of 8 bit simd instructions.

-  for (i = 0; i < 8 * count; ++i) {

-    const uint8_t p3 = s[-4 * p], p2 = s[-3 * p], p1 = s[-2 * p], p0 = s[-p];

-    const uint8_t q0 = s[0 * p], q1 = s[1 * p], q2 = s[2 * p], q3 = s[3 * p];

-    const int8_t mask = filter_mask(*limit, *blimit,

-                                    p3, p2, p1, p0, q0, q1, q2, q3);

-    const int8_t flat = flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3);

-    const int8_t flat2 = flat_mask5(1,

-                             s[-8 * p], s[-7 * p], s[-6 * p], s[-5 * p], p0,

-                             q0, s[4 * p], s[5 * p], s[6 * p], s[7 * p]);

-    filter16(mask, *thresh, flat, flat2,

-             s - 8 * p, s - 7 * p, s - 6 * p, s - 5 * p,

-             s - 4 * p, s - 3 * p, s - 2 * p, s - 1 * p,

-             s,         s + 1 * p, s + 2 * p, s + 3 * p,

-             s + 4 * p, s + 5 * p, s + 6 * p, s + 7 * p);

-    ++s;

-  }

-}

-static void mb_lpf_vertical_edge_w(uint8_t *s, int p,

-                                   const uint8_t *blimit,

-                                   const uint8_t *limit,

-                                   const uint8_t *thresh,

-                                   int count) {

-  int i;

-  for (i = 0; i < count; ++i) {

-    const uint8_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

-    const uint8_t q0 = s[0], q1 = s[1],  q2 = s[2], q3 = s[3];

-    const int8_t mask = filter_mask(*limit, *blimit,

-                                    p3, p2, p1, p0, q0, q1, q2, q3);

-    const int8_t flat = flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3);

-    const int8_t flat2 = flat_mask5(1, s[-8], s[-7], s[-6], s[-5], p0,

-                                    q0, s[4], s[5], s[6], s[7]);

-    filter16(mask, *thresh, flat, flat2,

-             s - 8, s - 7, s - 6, s - 5, s - 4, s - 3, s - 2, s - 1,

-             s,     s + 1, s + 2, s + 3, s + 4, s + 5, s + 6, s + 7);

-    s += p;

-  }

-}

-void vp9_lpf_vertical_16_c(uint8_t *s, int p, const uint8_t *blimit,

-                           const uint8_t *limit, const uint8_t *thresh) {

-  mb_lpf_vertical_edge_w(s, p, blimit, limit, thresh, 8);

-}

-void vp9_lpf_vertical_16_dual_c(uint8_t *s, int p, const uint8_t *blimit,

-                                const uint8_t *limit, const uint8_t *thresh) {

-  mb_lpf_vertical_edge_w(s, p, blimit, limit, thresh, 16);

-}

-#if CONFIG_VP9_HIGHBITDEPTH

-// Should we apply any filter at all: 11111111 yes, 00000000 no ?

-static INLINE int8_t highbd_filter_mask(uint8_t limit, uint8_t blimit,

-                                        uint16_t p3, uint16_t p2,

-                                        uint16_t p1, uint16_t p0,

-                                        uint16_t q0, uint16_t q1,

-                                        uint16_t q2, uint16_t q3, int bd) {

-  int8_t mask = 0;

-  int16_t limit16 = (uint16_t)limit << (bd - 8);

-  int16_t blimit16 = (uint16_t)blimit << (bd - 8);

-  mask |= (abs(p3 - p2) > limit16) * -1;

-  mask |= (abs(p2 - p1) > limit16) * -1;

-  mask |= (abs(p1 - p0) > limit16) * -1;

-  mask |= (abs(q1 - q0) > limit16) * -1;

-  mask |= (abs(q2 - q1) > limit16) * -1;

-  mask |= (abs(q3 - q2) > limit16) * -1;

-  mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit16) * -1;

-  return ~mask;

-}

-static INLINE int8_t highbd_flat_mask4(uint8_t thresh,

-                                       uint16_t p3, uint16_t p2,

-                                       uint16_t p1, uint16_t p0,

-                                       uint16_t q0, uint16_t q1,

-                                       uint16_t q2, uint16_t q3, int bd) {

-  int8_t mask = 0;

-  int16_t thresh16 = (uint16_t)thresh << (bd - 8);

-  mask |= (abs(p1 - p0) > thresh16) * -1;

-  mask |= (abs(q1 - q0) > thresh16) * -1;

-  mask |= (abs(p2 - p0) > thresh16) * -1;

-  mask |= (abs(q2 - q0) > thresh16) * -1;

-  mask |= (abs(p3 - p0) > thresh16) * -1;

-  mask |= (abs(q3 - q0) > thresh16) * -1;

-  return ~mask;

-}

-static INLINE int8_t highbd_flat_mask5(uint8_t thresh,

-                                       uint16_t p4, uint16_t p3,

-                                       uint16_t p2, uint16_t p1,

-                                       uint16_t p0, uint16_t q0,

-                                       uint16_t q1, uint16_t q2,

-                                       uint16_t q3, uint16_t q4, int bd) {

-  int8_t mask = ~highbd_flat_mask4(thresh, p3, p2, p1, p0, q0, q1, q2, q3, bd);

-  int16_t thresh16 = (uint16_t)thresh << (bd - 8);

-  mask |= (abs(p4 - p0) > thresh16) * -1;

-  mask |= (abs(q4 - q0) > thresh16) * -1;

-  return ~mask;

-}

-// Is there high edge variance internal edge:

-// 11111111_11111111 yes, 00000000_00000000 no ?

-static INLINE int16_t highbd_hev_mask(uint8_t thresh, uint16_t p1, uint16_t p0,

-                                      uint16_t q0, uint16_t q1, int bd) {

-  int16_t hev = 0;

-  int16_t thresh16 = (uint16_t)thresh << (bd - 8);

-  hev |= (abs(p1 - p0) > thresh16) * -1;

-  hev |= (abs(q1 - q0) > thresh16) * -1;

-  return hev;

-}

-static INLINE void highbd_filter4(int8_t mask, uint8_t thresh, uint16_t *op1,

-                                  uint16_t *op0, uint16_t *oq0, uint16_t *oq1,

-                                  int bd) {

-  int16_t filter1, filter2;

-  // ^0x80 equivalent to subtracting 0x80 from the values to turn them

-  // into -128 to +127 instead of 0 to 255.

-  int shift = bd - 8;

-  const int16_t ps1 = (int16_t)*op1 - (0x80 << shift);

-  const int16_t ps0 = (int16_t)*op0 - (0x80 << shift);

-  const int16_t qs0 = (int16_t)*oq0 - (0x80 << shift);

-  const int16_t qs1 = (int16_t)*oq1 - (0x80 << shift);

-  const uint16_t hev = highbd_hev_mask(thresh, *op1, *op0, *oq0, *oq1, bd);

-  // Add outer taps if we have high edge variance.

-  int16_t filter = signed_char_clamp_high(ps1 - qs1, bd) & hev;

-  // Inner taps.

-  filter = signed_char_clamp_high(filter + 3 * (qs0 - ps0), bd) & mask;

-  // Save bottom 3 bits so that we round one side +4 and the other +3

-  // if it equals 4 we'll set to adjust by -1 to account for the fact

-  // we'd round 3 the other way.

-  filter1 = signed_char_clamp_high(filter + 4, bd) >> 3;

-  filter2 = signed_char_clamp_high(filter + 3, bd) >> 3;

-  *oq0 = signed_char_clamp_high(qs0 - filter1, bd) + (0x80 << shift);

-  *op0 = signed_char_clamp_high(ps0 + filter2, bd) + (0x80 << shift);

-  // Outer tap adjustments.

-  filter = ROUND_POWER_OF_TWO(filter1, 1) & ~hev;

-  *oq1 = signed_char_clamp_high(qs1 - filter, bd) + (0x80 << shift);

-  *op1 = signed_char_clamp_high(ps1 + filter, bd) + (0x80 << shift);

-}

-void vp9_highbd_lpf_horizontal_4_c(uint16_t *s, int p /* pitch */,

-                                   const uint8_t *blimit, const uint8_t *limit,

-                                   const uint8_t *thresh, int count, int bd) {

-  int i;

-  // loop filter designed to work using chars so that we can make maximum use

-  // of 8 bit simd instructions.

-  for (i = 0; i < 8 * count; ++i) {

-    const uint16_t p3 = s[-4 * p];

-    const uint16_t p2 = s[-3 * p];

-    const uint16_t p1 = s[-2 * p];

-    const uint16_t p0 = s[-p];

-    const uint16_t q0 = s[0 * p];

-    const uint16_t q1 = s[1 * p];

-    const uint16_t q2 = s[2 * p];

-    const uint16_t q3 = s[3 * p];

-    const int8_t mask = highbd_filter_mask(*limit, *blimit,

-                                           p3, p2, p1, p0, q0, q1, q2, q3, bd);

-    highbd_filter4(mask, *thresh, s - 2 * p, s - 1 * p, s, s + 1 * p, bd);

-    ++s;

-  }

-}

-void vp9_highbd_lpf_horizontal_4_dual_c(uint16_t *s, int p,

-                                        const uint8_t *blimit0,

-                                        const uint8_t *limit0,

-                                        const uint8_t *thresh0,

-                                        const uint8_t *blimit1,

-                                        const uint8_t *limit1,

-                                        const uint8_t *thresh1,

-                                        int bd) {

-  vp9_highbd_lpf_horizontal_4_c(s, p, blimit0, limit0, thresh0, 1, bd);

-  vp9_highbd_lpf_horizontal_4_c(s + 8, p, blimit1, limit1, thresh1, 1, bd);

-}

-void vp9_highbd_lpf_vertical_4_c(uint16_t *s, int pitch, const uint8_t *blimit,

-                                 const uint8_t *limit, const uint8_t *thresh,

-                                 int count, int bd) {

-  int i;

-  // loop filter designed to work using chars so that we can make maximum use

-  // of 8 bit simd instructions.

-  for (i = 0; i < 8 * count; ++i) {

-    const uint16_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

-    const uint16_t q0 = s[0],  q1 = s[1],  q2 = s[2],  q3 = s[3];

-    const int8_t mask = highbd_filter_mask(*limit, *blimit,

-                                           p3, p2, p1, p0, q0, q1, q2, q3, bd);

-    highbd_filter4(mask, *thresh, s - 2, s - 1, s, s + 1, bd);

-    s += pitch;

-  }

-}

-void vp9_highbd_lpf_vertical_4_dual_c(uint16_t *s, int pitch,

-                                      const uint8_t *blimit0,

-                                      const uint8_t *limit0,

-                                      const uint8_t *thresh0,

-                                      const uint8_t *blimit1,

-                                      const uint8_t *limit1,

-                                      const uint8_t *thresh1,

-                                      int bd) {

-  vp9_highbd_lpf_vertical_4_c(s, pitch, blimit0, limit0, thresh0, 1, bd);

-  vp9_highbd_lpf_vertical_4_c(s + 8 * pitch, pitch, blimit1, limit1,

-                              thresh1, 1, bd);

-}

-static INLINE void highbd_filter8(int8_t mask, uint8_t thresh, uint8_t flat,

-                                  uint16_t *op3, uint16_t *op2,

-                                  uint16_t *op1, uint16_t *op0,

-                                  uint16_t *oq0, uint16_t *oq1,

-                                  uint16_t *oq2, uint16_t *oq3, int bd) {

-  if (flat && mask) {

-    const uint16_t p3 = *op3, p2 = *op2, p1 = *op1, p0 = *op0;

-    const uint16_t q0 = *oq0, q1 = *oq1, q2 = *oq2, q3 = *oq3;

-    // 7-tap filter [1, 1, 1, 2, 1, 1, 1]

-    *op2 = ROUND_POWER_OF_TWO(p3 + p3 + p3 + 2 * p2 + p1 + p0 + q0, 3);

-    *op1 = ROUND_POWER_OF_TWO(p3 + p3 + p2 + 2 * p1 + p0 + q0 + q1, 3);

-    *op0 = ROUND_POWER_OF_TWO(p3 + p2 + p1 + 2 * p0 + q0 + q1 + q2, 3);

-    *oq0 = ROUND_POWER_OF_TWO(p2 + p1 + p0 + 2 * q0 + q1 + q2 + q3, 3);

-    *oq1 = ROUND_POWER_OF_TWO(p1 + p0 + q0 + 2 * q1 + q2 + q3 + q3, 3);

-    *oq2 = ROUND_POWER_OF_TWO(p0 + q0 + q1 + 2 * q2 + q3 + q3 + q3, 3);

-  } else {

-    highbd_filter4(mask, thresh, op1,  op0, oq0, oq1, bd);

-  }

-}

-void vp9_highbd_lpf_horizontal_8_c(uint16_t *s, int p, const uint8_t *blimit,

-                                   const uint8_t *limit, const uint8_t *thresh,

-                                   int count, int bd) {

-  int i;

-  // loop filter designed to work using chars so that we can make maximum use

-  // of 8 bit simd instructions.

-  for (i = 0; i < 8 * count; ++i) {

-    const uint16_t p3 = s[-4 * p], p2 = s[-3 * p], p1 = s[-2 * p], p0 = s[-p];

-    const uint16_t q0 = s[0 * p], q1 = s[1 * p], q2 = s[2 * p], q3 = s[3 * p];

-    const int8_t mask = highbd_filter_mask(*limit, *blimit,

-                                         p3, p2, p1, p0, q0, q1, q2, q3, bd);

-    const int8_t flat = highbd_flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3,

-                                          bd);

-    highbd_filter8(mask, *thresh, flat,

-                 s - 4 * p, s - 3 * p, s - 2 * p, s - 1 * p,

-                 s, s + 1 * p, s + 2 * p, s + 3 * p, bd);

-    ++s;

-  }

-}

-void vp9_highbd_lpf_horizontal_8_dual_c(uint16_t *s, int p,

-                                        const uint8_t *blimit0,

-                                        const uint8_t *limit0,

-                                        const uint8_t *thresh0,

-                                        const uint8_t *blimit1,

-                                        const uint8_t *limit1,

-                                        const uint8_t *thresh1,

-                                        int bd) {

-  vp9_highbd_lpf_horizontal_8_c(s, p, blimit0, limit0, thresh0, 1, bd);

-  vp9_highbd_lpf_horizontal_8_c(s + 8, p, blimit1, limit1, thresh1, 1, bd);

-}

-void vp9_highbd_lpf_vertical_8_c(uint16_t *s, int pitch, const uint8_t *blimit,

-                                 const uint8_t *limit, const uint8_t *thresh,

-                                 int count, int bd) {

-  int i;

-  for (i = 0; i < 8 * count; ++i) {

-    const uint16_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

-    const uint16_t q0 = s[0], q1 = s[1], q2 = s[2], q3 = s[3];

-    const int8_t mask = highbd_filter_mask(*limit, *blimit,

-                                           p3, p2, p1, p0, q0, q1, q2, q3, bd);

-    const int8_t flat = highbd_flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3,

-                                          bd);

-    highbd_filter8(mask, *thresh, flat,

-                 s - 4, s - 3, s - 2, s - 1,

-                 s, s + 1, s + 2, s + 3,

-                 bd);

-    s += pitch;

-  }

-}

-void vp9_highbd_lpf_vertical_8_dual_c(uint16_t *s, int pitch,

-                                      const uint8_t *blimit0,

-                                      const uint8_t *limit0,

-                                      const uint8_t *thresh0,

-                                      const uint8_t *blimit1,

-                                      const uint8_t *limit1,

-                                      const uint8_t *thresh1,

-                                      int bd) {

-  vp9_highbd_lpf_vertical_8_c(s, pitch, blimit0, limit0, thresh0, 1, bd);

-  vp9_highbd_lpf_vertical_8_c(s + 8 * pitch, pitch, blimit1, limit1,

-                              thresh1, 1, bd);

-}

-static INLINE void highbd_filter16(int8_t mask, uint8_t thresh,

-                                   uint8_t flat, uint8_t flat2,

-                                   uint16_t *op7, uint16_t *op6,

-                                   uint16_t *op5, uint16_t *op4,

-                                   uint16_t *op3, uint16_t *op2,

-                                   uint16_t *op1, uint16_t *op0,

-                                   uint16_t *oq0, uint16_t *oq1,

-                                   uint16_t *oq2, uint16_t *oq3,

-                                   uint16_t *oq4, uint16_t *oq5,

-                                   uint16_t *oq6, uint16_t *oq7, int bd) {

-  if (flat2 && flat && mask) {

-    const uint16_t p7 = *op7;

-    const uint16_t p6 = *op6;

-    const uint16_t p5 = *op5;

-    const uint16_t p4 = *op4;

-    const uint16_t p3 = *op3;

-    const uint16_t p2 = *op2;

-    const uint16_t p1 = *op1;

-    const uint16_t p0 = *op0;

-    const uint16_t q0 = *oq0;

-    const uint16_t q1 = *oq1;

-    const uint16_t q2 = *oq2;

-    const uint16_t q3 = *oq3;

-    const uint16_t q4 = *oq4;

-    const uint16_t q5 = *oq5;

-    const uint16_t q6 = *oq6;

-    const uint16_t q7 = *oq7;

-    // 15-tap filter [1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1]

-    *op6 = ROUND_POWER_OF_TWO(p7 * 7 + p6 * 2 + p5 + p4 + p3 + p2 + p1 + p0 +

-                              q0, 4);

-    *op5 = ROUND_POWER_OF_TWO(p7 * 6 + p6 + p5 * 2 + p4 + p3 + p2 + p1 + p0 +

-                              q0 + q1, 4);

-    *op4 = ROUND_POWER_OF_TWO(p7 * 5 + p6 + p5 + p4 * 2 + p3 + p2 + p1 + p0 +

-                              q0 + q1 + q2, 4);

-    *op3 = ROUND_POWER_OF_TWO(p7 * 4 + p6 + p5 + p4 + p3 * 2 + p2 + p1 + p0 +

-                              q0 + q1 + q2 + q3, 4);

-    *op2 = ROUND_POWER_OF_TWO(p7 * 3 + p6 + p5 + p4 + p3 + p2 * 2 + p1 + p0 +

-                              q0 + q1 + q2 + q3 + q4, 4);

-    *op1 = ROUND_POWER_OF_TWO(p7 * 2 + p6 + p5 + p4 + p3 + p2 + p1 * 2 + p0 +

-                              q0 + q1 + q2 + q3 + q4 + q5, 4);

-    *op0 = ROUND_POWER_OF_TWO(p7 + p6 + p5 + p4 + p3 + p2 + p1 + p0 * 2 +

-                              q0 + q1 + q2 + q3 + q4 + q5 + q6, 4);

-    *oq0 = ROUND_POWER_OF_TWO(p6 + p5 + p4 + p3 + p2 + p1 + p0 +

-                              q0 * 2 + q1 + q2 + q3 + q4 + q5 + q6 + q7, 4);

-    *oq1 = ROUND_POWER_OF_TWO(p5 + p4 + p3 + p2 + p1 + p0 +

-                              q0 + q1 * 2 + q2 + q3 + q4 + q5 + q6 + q7 * 2, 4);

-    *oq2 = ROUND_POWER_OF_TWO(p4 + p3 + p2 + p1 + p0 +

-                              q0 + q1 + q2 * 2 + q3 + q4 + q5 + q6 + q7 * 3, 4);

-    *oq3 = ROUND_POWER_OF_TWO(p3 + p2 + p1 + p0 +

-                              q0 + q1 + q2 + q3 * 2 + q4 + q5 + q6 + q7 * 4, 4);

-    *oq4 = ROUND_POWER_OF_TWO(p2 + p1 + p0 +

-                              q0 + q1 + q2 + q3 + q4 * 2 + q5 + q6 + q7 * 5, 4);

-    *oq5 = ROUND_POWER_OF_TWO(p1 + p0 +

-                              q0 + q1 + q2 + q3 + q4 + q5 * 2 + q6 + q7 * 6, 4);

-    *oq6 = ROUND_POWER_OF_TWO(p0 +

-                              q0 + q1 + q2 + q3 + q4 + q5 + q6 * 2 + q7 * 7, 4);

-  } else {

-    highbd_filter8(mask, thresh, flat, op3, op2, op1, op0, oq0, oq1, oq2, oq3,

-                   bd);

-  }

-}

-void vp9_highbd_lpf_horizontal_16_c(uint16_t *s, int p, const uint8_t *blimit,

-                                    const uint8_t *limit, const uint8_t *thresh,

-                                    int count, int bd) {

-  int i;

-  // loop filter designed to work using chars so that we can make maximum use

-  // of 8 bit simd instructions.

-  for (i = 0; i < 8 * count; ++i) {

-    const uint16_t p3 = s[-4 * p];

-    const uint16_t p2 = s[-3 * p];

-    const uint16_t p1 = s[-2 * p];

-    const uint16_t p0 = s[-p];

-    const uint16_t q0 = s[0 * p];

-    const uint16_t q1 = s[1 * p];

-    const uint16_t q2 = s[2 * p];

-    const uint16_t q3 = s[3 * p];

-    const int8_t mask = highbd_filter_mask(*limit, *blimit,

-                                           p3, p2, p1, p0, q0, q1, q2, q3, bd);

-    const int8_t flat = highbd_flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3,

-                                          bd);

-    const int8_t flat2 = highbd_flat_mask5(

-        1, s[-8 * p], s[-7 * p], s[-6 * p], s[-5 * p], p0,

-        q0, s[4 * p], s[5 * p], s[6 * p], s[7 * p], bd);

-    highbd_filter16(mask, *thresh, flat, flat2,

-                    s - 8 * p, s - 7 * p, s - 6 * p, s - 5 * p,

-                    s - 4 * p, s - 3 * p, s - 2 * p, s - 1 * p,

-                    s, s + 1 * p, s + 2 * p, s + 3 * p,

-                    s + 4 * p, s + 5 * p, s + 6 * p, s + 7 * p,

-                    bd);

-    ++s;

-  }

-}

-static void highbd_mb_lpf_vertical_edge_w(uint16_t *s, int p,

-                                          const uint8_t *blimit,

-                                          const uint8_t *limit,

-                                          const uint8_t *thresh,

-                                          int count, int bd) {

-  int i;

-  for (i = 0; i < count; ++i) {

-    const uint16_t p3 = s[-4];

-    const uint16_t p2 = s[-3];

-    const uint16_t p1 = s[-2];

-    const uint16_t p0 = s[-1];

-    const uint16_t q0 = s[0];

-    const uint16_t q1 = s[1];

-    const uint16_t q2 = s[2];

-    const uint16_t q3 = s[3];

-    const int8_t mask = highbd_filter_mask(*limit, *blimit,

-                                           p3, p2, p1, p0, q0, q1, q2, q3, bd);

-    const int8_t flat = highbd_flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3,

-                                          bd);

-    const int8_t flat2 = highbd_flat_mask5(1, s[-8], s[-7], s[-6], s[-5], p0,

-                                           q0, s[4], s[5], s[6], s[7], bd);

-    highbd_filter16(mask, *thresh, flat, flat2,

-                    s - 8, s - 7, s - 6, s - 5, s - 4, s - 3, s - 2, s - 1,

-                    s, s + 1, s + 2, s + 3, s + 4, s + 5, s + 6, s + 7,

-                    bd);

-    s += p;

-  }

-}

-void vp9_highbd_lpf_vertical_16_c(uint16_t *s, int p, const uint8_t *blimit,

-                                  const uint8_t *limit, const uint8_t *thresh,

-                                  int bd) {

-  highbd_mb_lpf_vertical_edge_w(s, p, blimit, limit, thresh, 8, bd);

-}

-void vp9_highbd_lpf_vertical_16_dual_c(uint16_t *s, int p,

-                                       const uint8_t *blimit,

-                                       const uint8_t *limit,

-                                       const uint8_t *thresh,

-                                       int bd) {

-  highbd_mb_lpf_vertical_edge_w(s, p, blimit, limit, thresh, 16, bd);

-}

-#endif  // CONFIG_VP9_HIGHBITDEPTH

--- a/vp9/common/vp9_rtcd_defs.pl

+++ b/vp9/common/vp9_rtcd_defs.pl

@@ -220,49 +220,6 @@

 specialize qw/vp9_dc_128_predictor_32x32 msa neon/, "$sse2_x86inc";

-# Loopfilter

-#

-add_proto qw/void vp9_lpf_vertical_16/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh";

-specialize qw/vp9_lpf_vertical_16 sse2 neon_asm dspr2 msa/;

-$vp9_lpf_vertical_16_neon_asm=vp9_lpf_vertical_16_neon;

-add_proto qw/void vp9_lpf_vertical_16_dual/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh";

-specialize qw/vp9_lpf_vertical_16_dual sse2 neon_asm dspr2 msa/;

-$vp9_lpf_vertical_16_dual_neon_asm=vp9_lpf_vertical_16_dual_neon;

-add_proto qw/void vp9_lpf_vertical_8/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

-specialize qw/vp9_lpf_vertical_8 sse2 neon_asm dspr2 msa/;

-$vp9_lpf_vertical_8_neon_asm=vp9_lpf_vertical_8_neon;

-add_proto qw/void vp9_lpf_vertical_8_dual/, "uint8_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1";

-specialize qw/vp9_lpf_vertical_8_dual sse2 neon_asm dspr2 msa/;

-$vp9_lpf_vertical_8_dual_neon_asm=vp9_lpf_vertical_8_dual_neon;

-add_proto qw/void vp9_lpf_vertical_4/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

-specialize qw/vp9_lpf_vertical_4 mmx neon dspr2 msa/;

-add_proto qw/void vp9_lpf_vertical_4_dual/, "uint8_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1";

-specialize qw/vp9_lpf_vertical_4_dual sse2 neon dspr2 msa/;

-add_proto qw/void vp9_lpf_horizontal_16/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

-specialize qw/vp9_lpf_horizontal_16 sse2 avx2 neon_asm dspr2 msa/;

-$vp9_lpf_horizontal_16_neon_asm=vp9_lpf_horizontal_16_neon;

-add_proto qw/void vp9_lpf_horizontal_8/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

-specialize qw/vp9_lpf_horizontal_8 sse2 neon_asm dspr2 msa/;

-$vp9_lpf_horizontal_8_neon_asm=vp9_lpf_horizontal_8_neon;

-add_proto qw/void vp9_lpf_horizontal_8_dual/, "uint8_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1";

-specialize qw/vp9_lpf_horizontal_8_dual sse2 neon_asm dspr2 msa/;

-$vp9_lpf_horizontal_8_dual_neon_asm=vp9_lpf_horizontal_8_dual_neon;

-add_proto qw/void vp9_lpf_horizontal_4/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

-specialize qw/vp9_lpf_horizontal_4 mmx neon dspr2 msa/;

-add_proto qw/void vp9_lpf_horizontal_4_dual/, "uint8_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1";

-specialize qw/vp9_lpf_horizontal_4_dual sse2 neon dspr2 msa/;

-#

 # post proc

 if (vpx_config("CONFIG_VP9_POSTPROC") eq "yes") {

@@ -666,42 +623,6 @@

   add_proto qw/void vp9_highbd_convolve8_avg_vert/, "const uint8_t *src, ptrdiff_t src_stride, uint8_t *dst, ptrdiff_t dst_stride, const int16_t *filter_x, int x_step_q4, const int16_t *filter_y, int y_step_q4, int w, int h, int bps";

   specialize qw/vp9_highbd_convolve8_avg_vert/, "$sse2_x86_64";

-  #

-  # Loopfilter

-  #

-  add_proto qw/void vp9_highbd_lpf_vertical_16/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int bd";

-  specialize qw/vp9_highbd_lpf_vertical_16 sse2/;

-  add_proto qw/void vp9_highbd_lpf_vertical_16_dual/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int bd";

-  specialize qw/vp9_highbd_lpf_vertical_16_dual sse2/;

-  add_proto qw/void vp9_highbd_lpf_vertical_8/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count, int bd";

-  specialize qw/vp9_highbd_lpf_vertical_8 sse2/;

-  add_proto qw/void vp9_highbd_lpf_vertical_8_dual/, "uint16_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1, int bd";

-  specialize qw/vp9_highbd_lpf_vertical_8_dual sse2/;

-  add_proto qw/void vp9_highbd_lpf_vertical_4/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count, int bd";

-  specialize qw/vp9_highbd_lpf_vertical_4 sse2/;

-  add_proto qw/void vp9_highbd_lpf_vertical_4_dual/, "uint16_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1, int bd";

-  specialize qw/vp9_highbd_lpf_vertical_4_dual sse2/;

-  add_proto qw/void vp9_highbd_lpf_horizontal_16/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count, int bd";

-  specialize qw/vp9_highbd_lpf_horizontal_16 sse2/;

-  add_proto qw/void vp9_highbd_lpf_horizontal_8/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count, int bd";

-  specialize qw/vp9_highbd_lpf_horizontal_8 sse2/;

-  add_proto qw/void vp9_highbd_lpf_horizontal_8_dual/, "uint16_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1, int bd";

-  specialize qw/vp9_highbd_lpf_horizontal_8_dual sse2/;

-  add_proto qw/void vp9_highbd_lpf_horizontal_4/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count, int bd";

-  specialize qw/vp9_highbd_lpf_horizontal_4 sse2/;

-  add_proto qw/void vp9_highbd_lpf_horizontal_4_dual/, "uint16_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1, int bd";

-  specialize qw/vp9_highbd_lpf_horizontal_4_dual sse2/;

   # post proc

--- a/vp9/common/x86/vp9_high_loopfilter_intrin_sse2.c

+++ /dev/null

@@ -1,1215 +1,0 @@

-/*

- *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include <emmintrin.h>  // SSE2

-#include "./vp9_rtcd.h"

-#include "vpx_ports/mem.h"

-#include "vp9/common/vp9_loopfilter.h"

-#include "vpx_ports/emmintrin_compat.h"

-static INLINE __m128i signed_char_clamp_bd_sse2(__m128i value, int bd) {

-  __m128i ubounded;

-  __m128i lbounded;

-  __m128i retval;

-  const __m128i zero = _mm_set1_epi16(0);

-  const __m128i one = _mm_set1_epi16(1);

-  __m128i t80, max, min;

-  if (bd == 8) {

-    t80 = _mm_set1_epi16(0x80);

-    max = _mm_subs_epi16(

-              _mm_subs_epi16(_mm_slli_epi16(one, 8), one), t80);

-  } else if (bd == 10) {

-    t80 = _mm_set1_epi16(0x200);

-    max = _mm_subs_epi16(

-              _mm_subs_epi16(_mm_slli_epi16(one, 10), one), t80);

-  } else {  // bd == 12

-    t80 = _mm_set1_epi16(0x800);

-    max = _mm_subs_epi16(

-              _mm_subs_epi16(_mm_slli_epi16(one, 12), one), t80);

-  }

-  min = _mm_subs_epi16(zero, t80);

-  ubounded = _mm_cmpgt_epi16(value, max);

-  lbounded = _mm_cmplt_epi16(value, min);

-  retval = _mm_andnot_si128(_mm_or_si128(ubounded, lbounded), value);

-  ubounded = _mm_and_si128(ubounded, max);

-  lbounded = _mm_and_si128(lbounded, min);

-  retval = _mm_or_si128(retval, ubounded);

-  retval = _mm_or_si128(retval, lbounded);

-  return retval;

-}

-// TODO(debargha, peter): Break up large functions into smaller ones

-// in this file.

-static void highbd_mb_lpf_horizontal_edge_w_sse2_8(uint16_t *s,

-                                                   int p,

-                                                   const uint8_t *_blimit,

-                                                   const uint8_t *_limit,

-                                                   const uint8_t *_thresh,

-                                                   int bd) {

-  const __m128i zero = _mm_set1_epi16(0);

-  const __m128i one = _mm_set1_epi16(1);

-  __m128i blimit, limit, thresh;

-  __m128i q7, p7, q6, p6, q5, p5, q4, p4, q3, p3, q2, p2, q1, p1, q0, p0;

-  __m128i mask, hev, flat, flat2, abs_p1p0, abs_q1q0;

-  __m128i ps1, qs1, ps0, qs0;

-  __m128i abs_p0q0, abs_p1q1, ffff, work;

-  __m128i filt, work_a, filter1, filter2;

-  __m128i flat2_q6, flat2_p6, flat2_q5, flat2_p5, flat2_q4, flat2_p4;

-  __m128i flat2_q3, flat2_p3, flat2_q2, flat2_p2, flat2_q1, flat2_p1;

-  __m128i flat2_q0, flat2_p0;

-  __m128i flat_q2, flat_p2, flat_q1, flat_p1, flat_q0, flat_p0;

-  __m128i pixelFilter_p, pixelFilter_q;

-  __m128i pixetFilter_p2p1p0, pixetFilter_q2q1q0;

-  __m128i sum_p7, sum_q7, sum_p3, sum_q3;

-  __m128i t4, t3, t80, t1;

-  __m128i eight, four;

-  if (bd == 8) {

-    blimit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero);

-    limit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero);

-    thresh = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero);

-  } else if (bd == 10) {

-    blimit = _mm_slli_epi16(

-        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 2);

-    limit = _mm_slli_epi16(

-          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 2);

-    thresh = _mm_slli_epi16(

-          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 2);

-  } else {  // bd == 12

-    blimit = _mm_slli_epi16(

-        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 4);

-    limit = _mm_slli_epi16(

-          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 4);

-    thresh = _mm_slli_epi16(

-          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 4);

-  }

-  q4 = _mm_load_si128((__m128i *)(s + 4 * p));

-  p4 = _mm_load_si128((__m128i *)(s - 5 * p));

-  q3 = _mm_load_si128((__m128i *)(s + 3 * p));

-  p3 = _mm_load_si128((__m128i *)(s - 4 * p));

-  q2 = _mm_load_si128((__m128i *)(s + 2 * p));

-  p2 = _mm_load_si128((__m128i *)(s - 3 * p));

-  q1 = _mm_load_si128((__m128i *)(s + 1 * p));

-  p1 = _mm_load_si128((__m128i *)(s - 2 * p));

-  q0 = _mm_load_si128((__m128i *)(s + 0 * p));

-  p0 = _mm_load_si128((__m128i *)(s - 1 * p));

-  //  highbd_filter_mask

-  abs_p1p0 = _mm_or_si128(_mm_subs_epu16(p1, p0), _mm_subs_epu16(p0, p1));

-  abs_q1q0 = _mm_or_si128(_mm_subs_epu16(q1, q0), _mm_subs_epu16(q0, q1));

-  ffff = _mm_cmpeq_epi16(abs_p1p0, abs_p1p0);

-  abs_p0q0 = _mm_or_si128(_mm_subs_epu16(p0, q0), _mm_subs_epu16(q0, p0));

-  abs_p1q1 = _mm_or_si128(_mm_subs_epu16(p1, q1), _mm_subs_epu16(q1, p1));

-  //  highbd_hev_mask (in C code this is actually called from highbd_filter4)

-  flat = _mm_max_epi16(abs_p1p0, abs_q1q0);

-  hev = _mm_subs_epu16(flat, thresh);

-  hev = _mm_xor_si128(_mm_cmpeq_epi16(hev, zero), ffff);

-  abs_p0q0 =_mm_adds_epu16(abs_p0q0, abs_p0q0);  // abs(p0 - q0) * 2

-  abs_p1q1 = _mm_srli_epi16(abs_p1q1, 1);  // abs(p1 - q1) / 2

-  mask = _mm_subs_epu16(_mm_adds_epu16(abs_p0q0, abs_p1q1), blimit);

-  mask = _mm_xor_si128(_mm_cmpeq_epi16(mask, zero), ffff);

-  mask = _mm_and_si128(mask, _mm_adds_epu16(limit, one));

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p1, p0),

-                                    _mm_subs_epu16(p0, p1)),

-                       _mm_or_si128(_mm_subs_epu16(q1, q0),

-                                    _mm_subs_epu16(q0, q1)));

-  mask = _mm_max_epi16(work, mask);

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p2, p1),

-                                    _mm_subs_epu16(p1, p2)),

-                       _mm_or_si128(_mm_subs_epu16(q2, q1),

-                                    _mm_subs_epu16(q1, q2)));

-  mask = _mm_max_epi16(work, mask);

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p3, p2),

-                                    _mm_subs_epu16(p2, p3)),

-                       _mm_or_si128(_mm_subs_epu16(q3, q2),

-                                    _mm_subs_epu16(q2, q3)));

-  mask = _mm_max_epi16(work, mask);

-  mask = _mm_subs_epu16(mask, limit);

-  mask = _mm_cmpeq_epi16(mask, zero);  // return ~mask

-  // lp filter

-  // highbd_filter4

-  t4 = _mm_set1_epi16(4);

-  t3 = _mm_set1_epi16(3);

-  if (bd == 8)

-    t80 = _mm_set1_epi16(0x80);

-  else if (bd == 10)

-    t80 = _mm_set1_epi16(0x200);

-  else  // bd == 12

-    t80 = _mm_set1_epi16(0x800);

-  t1 = _mm_set1_epi16(0x1);

-  ps1 = _mm_subs_epi16(p1, t80);

-  qs1 = _mm_subs_epi16(q1, t80);

-  ps0 = _mm_subs_epi16(p0, t80);

-  qs0 = _mm_subs_epi16(q0, t80);

-  filt = _mm_and_si128(

-      signed_char_clamp_bd_sse2(_mm_subs_epi16(ps1, qs1), bd), hev);

-  work_a = _mm_subs_epi16(qs0, ps0);

-  filt = _mm_adds_epi16(filt, work_a);

-  filt = _mm_adds_epi16(filt, work_a);

-  filt = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, work_a), bd);

-  filt = _mm_and_si128(filt, mask);

-  filter1 = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, t4), bd);

-  filter2 = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, t3), bd);

-  // Filter1 >> 3

-  filter1 = _mm_srai_epi16(filter1, 0x3);

-  filter2 = _mm_srai_epi16(filter2, 0x3);

-  qs0 = _mm_adds_epi16(

-      signed_char_clamp_bd_sse2(_mm_subs_epi16(qs0, filter1), bd),

-      t80);

-  ps0 = _mm_adds_epi16(

-      signed_char_clamp_bd_sse2(_mm_adds_epi16(ps0, filter2), bd),

-      t80);

-  filt = _mm_adds_epi16(filter1, t1);

-  filt = _mm_srai_epi16(filt, 1);

-  filt = _mm_andnot_si128(hev, filt);

-  qs1 = _mm_adds_epi16(

-      signed_char_clamp_bd_sse2(_mm_subs_epi16(qs1, filt), bd),

-      t80);

-  ps1 = _mm_adds_epi16(

-      signed_char_clamp_bd_sse2(_mm_adds_epi16(ps1, filt), bd),

-      t80);

-  // end highbd_filter4

-  // loopfilter done

-  // highbd_flat_mask4

-  flat = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p2, p0),

-                                    _mm_subs_epu16(p0, p2)),

-                       _mm_or_si128(_mm_subs_epu16(p3, p0),

-                                    _mm_subs_epu16(p0, p3)));

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(q2, q0),

-                                    _mm_subs_epu16(q0, q2)),

-                       _mm_or_si128(_mm_subs_epu16(q3, q0),

-                                    _mm_subs_epu16(q0, q3)));

-  flat = _mm_max_epi16(work, flat);

-  work = _mm_max_epi16(abs_p1p0, abs_q1q0);

-  flat = _mm_max_epi16(work, flat);

-  if (bd == 8)

-    flat = _mm_subs_epu16(flat, one);

-  else if (bd == 10)

-    flat = _mm_subs_epu16(flat, _mm_slli_epi16(one, 2));

-  else  // bd == 12

-    flat = _mm_subs_epu16(flat, _mm_slli_epi16(one, 4));

-  flat = _mm_cmpeq_epi16(flat, zero);

-  // end flat_mask4

-  // flat & mask = flat && mask (as used in filter8)

-  // (because, in both vars, each block of 16 either all 1s or all 0s)

-  flat = _mm_and_si128(flat, mask);

-  p5 = _mm_load_si128((__m128i *)(s - 6 * p));

-  q5 = _mm_load_si128((__m128i *)(s + 5 * p));

-  p6 = _mm_load_si128((__m128i *)(s - 7 * p));

-  q6 = _mm_load_si128((__m128i *)(s + 6 * p));

-  p7 = _mm_load_si128((__m128i *)(s - 8 * p));

-  q7 = _mm_load_si128((__m128i *)(s + 7 * p));

-  // highbd_flat_mask5 (arguments passed in are p0, q0, p4-p7, q4-q7

-  // but referred to as p0-p4 & q0-q4 in fn)

-  flat2 = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p4, p0),

-                                     _mm_subs_epu16(p0, p4)),

-                        _mm_or_si128(_mm_subs_epu16(q4, q0),

-                                     _mm_subs_epu16(q0, q4)));

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p5, p0),

-                                    _mm_subs_epu16(p0, p5)),

-                       _mm_or_si128(_mm_subs_epu16(q5, q0),

-                                    _mm_subs_epu16(q0, q5)));

-  flat2 = _mm_max_epi16(work, flat2);

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p6, p0),

-                                    _mm_subs_epu16(p0, p6)),

-                       _mm_or_si128(_mm_subs_epu16(q6, q0),

-                                    _mm_subs_epu16(q0, q6)));

-  flat2 = _mm_max_epi16(work, flat2);

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p7, p0),

-                                    _mm_subs_epu16(p0, p7)),

-                       _mm_or_si128(_mm_subs_epu16(q7, q0),

-                                    _mm_subs_epu16(q0, q7)));

-  flat2 = _mm_max_epi16(work, flat2);

-  if (bd == 8)

-    flat2 = _mm_subs_epu16(flat2, one);

-  else if (bd == 10)

-    flat2 = _mm_subs_epu16(flat2, _mm_slli_epi16(one, 2));

-  else  // bd == 12

-    flat2 = _mm_subs_epu16(flat2, _mm_slli_epi16(one, 4));

-  flat2 = _mm_cmpeq_epi16(flat2, zero);

-  flat2 = _mm_and_si128(flat2, flat);  // flat2 & flat & mask

-  // end highbd_flat_mask5

-  // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-  // flat and wide flat calculations

-  eight = _mm_set1_epi16(8);

-  four = _mm_set1_epi16(4);

-  pixelFilter_p = _mm_add_epi16(_mm_add_epi16(p6, p5),

-                                _mm_add_epi16(p4, p3));

-  pixelFilter_q = _mm_add_epi16(_mm_add_epi16(q6, q5),

-                                _mm_add_epi16(q4, q3));

-  pixetFilter_p2p1p0 = _mm_add_epi16(p0, _mm_add_epi16(p2, p1));

-  pixelFilter_p = _mm_add_epi16(pixelFilter_p, pixetFilter_p2p1p0);

-  pixetFilter_q2q1q0 = _mm_add_epi16(q0, _mm_add_epi16(q2, q1));

-  pixelFilter_q = _mm_add_epi16(pixelFilter_q, pixetFilter_q2q1q0);

-  pixelFilter_p = _mm_add_epi16(eight, _mm_add_epi16(pixelFilter_p,

-                                                      pixelFilter_q));

-  pixetFilter_p2p1p0 =   _mm_add_epi16(four,

-                                       _mm_add_epi16(pixetFilter_p2p1p0,

-                                                     pixetFilter_q2q1q0));

-  flat2_p0 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                                          _mm_add_epi16(p7, p0)), 4);

-  flat2_q0 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                                          _mm_add_epi16(q7, q0)), 4);

-  flat_p0 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

-                                         _mm_add_epi16(p3, p0)), 3);

-  flat_q0 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

-                                         _mm_add_epi16(q3, q0)), 3);

-  sum_p7 = _mm_add_epi16(p7, p7);

-  sum_q7 = _mm_add_epi16(q7, q7);

-  sum_p3 = _mm_add_epi16(p3, p3);

-  sum_q3 = _mm_add_epi16(q3, q3);

-  pixelFilter_q = _mm_sub_epi16(pixelFilter_p, p6);

-  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q6);

-  flat2_p1 = _mm_srli_epi16(

-      _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p1)), 4);

-  flat2_q1 = _mm_srli_epi16(

-      _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q1)), 4);

-  pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_p2p1p0, p2);

-  pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q2);

-  flat_p1 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

-                                         _mm_add_epi16(sum_p3, p1)), 3);

-  flat_q1 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_q2q1q0,

-                                         _mm_add_epi16(sum_q3, q1)), 3);

-  sum_p7 = _mm_add_epi16(sum_p7, p7);

-  sum_q7 = _mm_add_epi16(sum_q7, q7);

-  sum_p3 = _mm_add_epi16(sum_p3, p3);

-  sum_q3 = _mm_add_epi16(sum_q3, q3);

-  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q5);

-  pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p5);

-  flat2_p2 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                                          _mm_add_epi16(sum_p7, p2)), 4);

-  flat2_q2 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                                          _mm_add_epi16(sum_q7, q2)), 4);

-  pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q1);

-  pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_q2q1q0, p1);

-  flat_p2 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

-                                         _mm_add_epi16(sum_p3, p2)), 3);

-  flat_q2 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_q2q1q0,

-                                         _mm_add_epi16(sum_q3, q2)), 3);

-  sum_p7 = _mm_add_epi16(sum_p7, p7);

-  sum_q7 = _mm_add_epi16(sum_q7, q7);

-  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q4);

-  pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p4);

-  flat2_p3 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                                          _mm_add_epi16(sum_p7, p3)), 4);

-  flat2_q3 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                                          _mm_add_epi16(sum_q7, q3)), 4);

-  sum_p7 = _mm_add_epi16(sum_p7, p7);

-  sum_q7 = _mm_add_epi16(sum_q7, q7);

-  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q3);

-  pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p3);

-  flat2_p4 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                                          _mm_add_epi16(sum_p7, p4)), 4);

-  flat2_q4 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                                          _mm_add_epi16(sum_q7, q4)), 4);

-  sum_p7 = _mm_add_epi16(sum_p7, p7);

-  sum_q7 = _mm_add_epi16(sum_q7, q7);

-  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q2);

-  pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p2);

-  flat2_p5 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                                          _mm_add_epi16(sum_p7, p5)), 4);

-  flat2_q5 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                                          _mm_add_epi16(sum_q7, q5)), 4);

-  sum_p7 = _mm_add_epi16(sum_p7, p7);

-  sum_q7 = _mm_add_epi16(sum_q7, q7);

-  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q1);

-  pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p1);

-  flat2_p6 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                                          _mm_add_epi16(sum_p7, p6)), 4);

-  flat2_q6 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                                          _mm_add_epi16(sum_q7, q6)), 4);

-  //  wide flat

-  //  ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-  //  highbd_filter8

-  p2 = _mm_andnot_si128(flat, p2);

-  //  p2 remains unchanged if !(flat && mask)

-  flat_p2 = _mm_and_si128(flat, flat_p2);

-  //  when (flat && mask)

-  p2 = _mm_or_si128(p2, flat_p2);  // full list of p2 values

-  q2 = _mm_andnot_si128(flat, q2);

-  flat_q2 = _mm_and_si128(flat, flat_q2);

-  q2 = _mm_or_si128(q2, flat_q2);  // full list of q2 values

-  ps1 = _mm_andnot_si128(flat, ps1);

-  //  p1 takes the value assigned to in in filter4 if !(flat && mask)

-  flat_p1 = _mm_and_si128(flat, flat_p1);

-  //  when (flat && mask)

-  p1 = _mm_or_si128(ps1, flat_p1);  // full list of p1 values

-  qs1 = _mm_andnot_si128(flat, qs1);

-  flat_q1 = _mm_and_si128(flat, flat_q1);

-  q1 = _mm_or_si128(qs1, flat_q1);  // full list of q1 values

-  ps0 = _mm_andnot_si128(flat, ps0);

-  //  p0 takes the value assigned to in in filter4 if !(flat && mask)

-  flat_p0 = _mm_and_si128(flat, flat_p0);

-  //  when (flat && mask)

-  p0 = _mm_or_si128(ps0, flat_p0);  // full list of p0 values

-  qs0 = _mm_andnot_si128(flat, qs0);

-  flat_q0 = _mm_and_si128(flat, flat_q0);

-  q0 = _mm_or_si128(qs0, flat_q0);  // full list of q0 values

-  // end highbd_filter8

-  // highbd_filter16

-  p6 = _mm_andnot_si128(flat2, p6);

-  //  p6 remains unchanged if !(flat2 && flat && mask)

-  flat2_p6 = _mm_and_si128(flat2, flat2_p6);

-  //  get values for when (flat2 && flat && mask)

-  p6 = _mm_or_si128(p6, flat2_p6);  // full list of p6 values

-  q6 = _mm_andnot_si128(flat2, q6);

-  //  q6 remains unchanged if !(flat2 && flat && mask)

-  flat2_q6 = _mm_and_si128(flat2, flat2_q6);

-  //  get values for when (flat2 && flat && mask)

-  q6 = _mm_or_si128(q6, flat2_q6);  // full list of q6 values

-  _mm_store_si128((__m128i *)(s - 7 * p), p6);

-  _mm_store_si128((__m128i *)(s + 6 * p), q6);

-  p5 = _mm_andnot_si128(flat2, p5);

-  //  p5 remains unchanged if !(flat2 && flat && mask)

-  flat2_p5 = _mm_and_si128(flat2, flat2_p5);

-  //  get values for when (flat2 && flat && mask)

-  p5 = _mm_or_si128(p5, flat2_p5);

-  //  full list of p5 values

-  q5 = _mm_andnot_si128(flat2, q5);

-  //  q5 remains unchanged if !(flat2 && flat && mask)

-  flat2_q5 = _mm_and_si128(flat2, flat2_q5);

-  //  get values for when (flat2 && flat && mask)

-  q5 = _mm_or_si128(q5, flat2_q5);

-  //  full list of q5 values

-  _mm_store_si128((__m128i *)(s - 6 * p), p5);

-  _mm_store_si128((__m128i *)(s + 5 * p), q5);

-  p4 = _mm_andnot_si128(flat2, p4);

-  //  p4 remains unchanged if !(flat2 && flat && mask)

-  flat2_p4 = _mm_and_si128(flat2, flat2_p4);

-  //  get values for when (flat2 && flat && mask)

-  p4 = _mm_or_si128(p4, flat2_p4);  // full list of p4 values

-  q4 = _mm_andnot_si128(flat2, q4);

-  //  q4 remains unchanged if !(flat2 && flat && mask)

-  flat2_q4 = _mm_and_si128(flat2, flat2_q4);

-  //  get values for when (flat2 && flat && mask)

-  q4 = _mm_or_si128(q4, flat2_q4);  // full list of q4 values

-  _mm_store_si128((__m128i *)(s - 5 * p), p4);

-  _mm_store_si128((__m128i *)(s + 4 * p), q4);

-  p3 = _mm_andnot_si128(flat2, p3);

-  //  p3 takes value from highbd_filter8 if !(flat2 && flat && mask)

-  flat2_p3 = _mm_and_si128(flat2, flat2_p3);

-  //  get values for when (flat2 && flat && mask)

-  p3 = _mm_or_si128(p3, flat2_p3);  // full list of p3 values

-  q3 = _mm_andnot_si128(flat2, q3);

-  //  q3 takes value from highbd_filter8 if !(flat2 && flat && mask)

-  flat2_q3 = _mm_and_si128(flat2, flat2_q3);

-  //  get values for when (flat2 && flat && mask)

-  q3 = _mm_or_si128(q3, flat2_q3);  // full list of q3 values

-  _mm_store_si128((__m128i *)(s - 4 * p), p3);

-  _mm_store_si128((__m128i *)(s + 3 * p), q3);

-  p2 = _mm_andnot_si128(flat2, p2);

-  //  p2 takes value from highbd_filter8 if !(flat2 && flat && mask)

-  flat2_p2 = _mm_and_si128(flat2, flat2_p2);

-  //  get values for when (flat2 && flat && mask)

-  p2 = _mm_or_si128(p2, flat2_p2);

-  //  full list of p2 values

-  q2 = _mm_andnot_si128(flat2, q2);

-  //  q2 takes value from highbd_filter8 if !(flat2 && flat && mask)

-  flat2_q2 = _mm_and_si128(flat2, flat2_q2);

-  //  get values for when (flat2 && flat && mask)

-  q2 = _mm_or_si128(q2, flat2_q2);  // full list of q2 values

-  _mm_store_si128((__m128i *)(s - 3 * p), p2);

-  _mm_store_si128((__m128i *)(s + 2 * p), q2);

-  p1 = _mm_andnot_si128(flat2, p1);

-  //  p1 takes value from highbd_filter8 if !(flat2 && flat && mask)

-  flat2_p1 = _mm_and_si128(flat2, flat2_p1);

-  //  get values for when (flat2 && flat && mask)

-  p1 = _mm_or_si128(p1, flat2_p1);  // full list of p1 values

-  q1 = _mm_andnot_si128(flat2, q1);

-  //  q1 takes value from highbd_filter8 if !(flat2 && flat && mask)

-  flat2_q1 = _mm_and_si128(flat2, flat2_q1);

-  //  get values for when (flat2 && flat && mask)

-  q1 = _mm_or_si128(q1, flat2_q1);  // full list of q1 values

-  _mm_store_si128((__m128i *)(s - 2 * p), p1);

-  _mm_store_si128((__m128i *)(s + 1 * p), q1);

-  p0 = _mm_andnot_si128(flat2, p0);

-  //  p0 takes value from highbd_filter8 if !(flat2 && flat && mask)

-  flat2_p0 = _mm_and_si128(flat2, flat2_p0);

-  //  get values for when (flat2 && flat && mask)

-  p0 = _mm_or_si128(p0, flat2_p0);  // full list of p0 values

-  q0 = _mm_andnot_si128(flat2, q0);

-  //  q0 takes value from highbd_filter8 if !(flat2 && flat && mask)

-  flat2_q0 = _mm_and_si128(flat2, flat2_q0);

-  //  get values for when (flat2 && flat && mask)

-  q0 = _mm_or_si128(q0, flat2_q0);  // full list of q0 values

-  _mm_store_si128((__m128i *)(s - 1 * p), p0);

-  _mm_store_si128((__m128i *)(s - 0 * p), q0);

-}

-static void highbd_mb_lpf_horizontal_edge_w_sse2_16(uint16_t *s,

-                                                    int p,

-                                                    const uint8_t *_blimit,

-                                                    const uint8_t *_limit,

-                                                    const uint8_t *_thresh,

-                                                    int bd) {

-  highbd_mb_lpf_horizontal_edge_w_sse2_8(s, p, _blimit, _limit, _thresh, bd);

-  highbd_mb_lpf_horizontal_edge_w_sse2_8(s + 8, p, _blimit, _limit, _thresh,

-                                         bd);

-}

-// TODO(yunqingwang): remove count and call these 2 functions(8 or 16) directly.

-void vp9_highbd_lpf_horizontal_16_sse2(uint16_t *s, int p,

-                                       const uint8_t *_blimit,

-                                       const uint8_t *_limit,

-                                       const uint8_t *_thresh,

-                                       int count, int bd) {

-  if (count == 1)

-    highbd_mb_lpf_horizontal_edge_w_sse2_8(s, p, _blimit, _limit, _thresh, bd);

-  else

-    highbd_mb_lpf_horizontal_edge_w_sse2_16(s, p, _blimit, _limit, _thresh, bd);

-}

-void vp9_highbd_lpf_horizontal_8_sse2(uint16_t *s, int p,

-                                      const uint8_t *_blimit,

-                                      const uint8_t *_limit,

-                                      const uint8_t *_thresh,

-                                      int count, int bd) {

-  DECLARE_ALIGNED(16, uint16_t, flat_op2[16]);

-  DECLARE_ALIGNED(16, uint16_t, flat_op1[16]);

-  DECLARE_ALIGNED(16, uint16_t, flat_op0[16]);

-  DECLARE_ALIGNED(16, uint16_t, flat_oq2[16]);

-  DECLARE_ALIGNED(16, uint16_t, flat_oq1[16]);

-  DECLARE_ALIGNED(16, uint16_t, flat_oq0[16]);

-  const __m128i zero = _mm_set1_epi16(0);

-  __m128i blimit, limit, thresh;

-  __m128i mask, hev, flat;

-  __m128i p3 = _mm_load_si128((__m128i *)(s - 4 * p));

-  __m128i q3 = _mm_load_si128((__m128i *)(s + 3 * p));

-  __m128i p2 = _mm_load_si128((__m128i *)(s - 3 * p));

-  __m128i q2 = _mm_load_si128((__m128i *)(s + 2 * p));

-  __m128i p1 = _mm_load_si128((__m128i *)(s - 2 * p));

-  __m128i q1 = _mm_load_si128((__m128i *)(s + 1 * p));

-  __m128i p0 = _mm_load_si128((__m128i *)(s - 1 * p));

-  __m128i q0 = _mm_load_si128((__m128i *)(s + 0 * p));

-  const __m128i one = _mm_set1_epi16(1);

-  const __m128i ffff = _mm_cmpeq_epi16(one, one);

-  __m128i abs_p1q1, abs_p0q0, abs_q1q0, abs_p1p0, work;

-  const __m128i four = _mm_set1_epi16(4);

-  __m128i workp_a, workp_b, workp_shft;

-  const __m128i t4 = _mm_set1_epi16(4);

-  const __m128i t3 = _mm_set1_epi16(3);

-  __m128i t80;

-  const __m128i t1 = _mm_set1_epi16(0x1);

-  __m128i ps1, ps0, qs0, qs1;

-  __m128i filt;

-  __m128i work_a;

-  __m128i filter1, filter2;

-  (void)count;

-  if (bd == 8) {

-    blimit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero);

-    limit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero);

-    thresh = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero);

-    t80 = _mm_set1_epi16(0x80);

-  } else if (bd == 10) {

-    blimit = _mm_slli_epi16(

-          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 2);

-    limit = _mm_slli_epi16(

-          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 2);

-    thresh = _mm_slli_epi16(

-          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 2);

-    t80 = _mm_set1_epi16(0x200);

-  } else {  // bd == 12

-    blimit = _mm_slli_epi16(

-          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 4);

-    limit = _mm_slli_epi16(

-          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 4);

-    thresh = _mm_slli_epi16(

-          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 4);

-    t80 = _mm_set1_epi16(0x800);

-  }

-  ps1 = _mm_subs_epi16(p1, t80);

-  ps0 = _mm_subs_epi16(p0, t80);

-  qs0 = _mm_subs_epi16(q0, t80);

-  qs1 = _mm_subs_epi16(q1, t80);

-  // filter_mask and hev_mask

-  abs_p1p0 = _mm_or_si128(_mm_subs_epu16(p1, p0),

-                          _mm_subs_epu16(p0, p1));

-  abs_q1q0 = _mm_or_si128(_mm_subs_epu16(q1, q0),

-                          _mm_subs_epu16(q0, q1));

-  abs_p0q0 = _mm_or_si128(_mm_subs_epu16(p0, q0),

-                          _mm_subs_epu16(q0, p0));

-  abs_p1q1 = _mm_or_si128(_mm_subs_epu16(p1, q1),

-                          _mm_subs_epu16(q1, p1));

-  flat = _mm_max_epi16(abs_p1p0, abs_q1q0);

-  hev = _mm_subs_epu16(flat, thresh);

-  hev = _mm_xor_si128(_mm_cmpeq_epi16(hev, zero), ffff);

-  abs_p0q0 =_mm_adds_epu16(abs_p0q0, abs_p0q0);

-  abs_p1q1 = _mm_srli_epi16(abs_p1q1, 1);

-  mask = _mm_subs_epu16(_mm_adds_epu16(abs_p0q0, abs_p1q1), blimit);

-  mask = _mm_xor_si128(_mm_cmpeq_epi16(mask, zero), ffff);

-  // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

-  // So taking maximums continues to work:

-  mask = _mm_and_si128(mask, _mm_adds_epu16(limit, one));

-  mask = _mm_max_epi16(abs_p1p0, mask);

-  // mask |= (abs(p1 - p0) > limit) * -1;

-  mask = _mm_max_epi16(abs_q1q0, mask);

-  // mask |= (abs(q1 - q0) > limit) * -1;

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p2, p1),

-                                    _mm_subs_epu16(p1, p2)),

-                       _mm_or_si128(_mm_subs_epu16(q2, q1),

-                                    _mm_subs_epu16(q1, q2)));

-  mask = _mm_max_epi16(work, mask);

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p3, p2),

-                                    _mm_subs_epu16(p2, p3)),

-                       _mm_or_si128(_mm_subs_epu16(q3, q2),

-                                    _mm_subs_epu16(q2, q3)));

-  mask = _mm_max_epi16(work, mask);

-  mask = _mm_subs_epu16(mask, limit);

-  mask = _mm_cmpeq_epi16(mask, zero);

-  // flat_mask4

-  flat = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p2, p0),

-                                    _mm_subs_epu16(p0, p2)),

-                       _mm_or_si128(_mm_subs_epu16(q2, q0),

-                                    _mm_subs_epu16(q0, q2)));

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p3, p0),

-                                    _mm_subs_epu16(p0, p3)),

-                       _mm_or_si128(_mm_subs_epu16(q3, q0),

-                                    _mm_subs_epu16(q0, q3)));

-  flat = _mm_max_epi16(work, flat);

-  flat = _mm_max_epi16(abs_p1p0, flat);

-  flat = _mm_max_epi16(abs_q1q0, flat);

-  if (bd == 8)

-    flat = _mm_subs_epu16(flat, one);

-  else if (bd == 10)

-    flat = _mm_subs_epu16(flat, _mm_slli_epi16(one, 2));

-  else  // bd == 12

-    flat = _mm_subs_epu16(flat, _mm_slli_epi16(one, 4));

-  flat = _mm_cmpeq_epi16(flat, zero);

-  flat = _mm_and_si128(flat, mask);  // flat & mask

-  // Added before shift for rounding part of ROUND_POWER_OF_TWO

-  workp_a = _mm_add_epi16(_mm_add_epi16(p3, p3), _mm_add_epi16(p2, p1));

-  workp_a = _mm_add_epi16(_mm_add_epi16(workp_a, four), p0);

-  workp_b = _mm_add_epi16(_mm_add_epi16(q0, p2), p3);

-  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-  _mm_store_si128((__m128i *)&flat_op2[0], workp_shft);

-  workp_b = _mm_add_epi16(_mm_add_epi16(q0, q1), p1);

-  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-  _mm_store_si128((__m128i *)&flat_op1[0], workp_shft);

-  workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q2);

-  workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p1), p0);

-  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-  _mm_store_si128((__m128i *)&flat_op0[0], workp_shft);

-  workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q3);

-  workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p0), q0);

-  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-  _mm_store_si128((__m128i *)&flat_oq0[0], workp_shft);

-  workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p2), q3);

-  workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q0), q1);

-  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-  _mm_store_si128((__m128i *)&flat_oq1[0], workp_shft);

-  workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p1), q3);

-  workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q1), q2);

-  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-  _mm_store_si128((__m128i *)&flat_oq2[0], workp_shft);

-  // lp filter

-  filt = signed_char_clamp_bd_sse2(_mm_subs_epi16(ps1, qs1), bd);

-  filt = _mm_and_si128(filt, hev);

-  work_a = _mm_subs_epi16(qs0, ps0);

-  filt = _mm_adds_epi16(filt, work_a);

-  filt = _mm_adds_epi16(filt, work_a);

-  filt = _mm_adds_epi16(filt, work_a);

-  // (vp9_filter + 3 * (qs0 - ps0)) & mask

-  filt = signed_char_clamp_bd_sse2(filt, bd);

-  filt = _mm_and_si128(filt, mask);

-  filter1 = _mm_adds_epi16(filt, t4);

-  filter2 = _mm_adds_epi16(filt, t3);

-  // Filter1 >> 3

-  filter1 = signed_char_clamp_bd_sse2(filter1, bd);

-  filter1 = _mm_srai_epi16(filter1, 3);

-  // Filter2 >> 3

-  filter2 = signed_char_clamp_bd_sse2(filter2, bd);

-  filter2 = _mm_srai_epi16(filter2, 3);

-  // filt >> 1

-  filt = _mm_adds_epi16(filter1, t1);

-  filt = _mm_srai_epi16(filt, 1);

-  // filter = ROUND_POWER_OF_TWO(filter1, 1) & ~hev;

-  filt = _mm_andnot_si128(hev, filt);

-  work_a = signed_char_clamp_bd_sse2(_mm_subs_epi16(qs0, filter1), bd);

-  work_a = _mm_adds_epi16(work_a, t80);

-  q0 = _mm_load_si128((__m128i *)flat_oq0);

-  work_a = _mm_andnot_si128(flat, work_a);

-  q0 = _mm_and_si128(flat, q0);

-  q0 = _mm_or_si128(work_a, q0);

-  work_a = signed_char_clamp_bd_sse2(_mm_subs_epi16(qs1, filt), bd);

-  work_a = _mm_adds_epi16(work_a, t80);

-  q1 = _mm_load_si128((__m128i *)flat_oq1);

-  work_a = _mm_andnot_si128(flat, work_a);

-  q1 = _mm_and_si128(flat, q1);

-  q1 = _mm_or_si128(work_a, q1);

-  work_a = _mm_loadu_si128((__m128i *)(s + 2 * p));

-  q2 = _mm_load_si128((__m128i *)flat_oq2);

-  work_a = _mm_andnot_si128(flat, work_a);

-  q2 = _mm_and_si128(flat, q2);

-  q2 = _mm_or_si128(work_a, q2);

-  work_a = signed_char_clamp_bd_sse2(_mm_adds_epi16(ps0, filter2), bd);

-  work_a = _mm_adds_epi16(work_a, t80);

-  p0 = _mm_load_si128((__m128i *)flat_op0);

-  work_a = _mm_andnot_si128(flat, work_a);

-  p0 = _mm_and_si128(flat, p0);

-  p0 = _mm_or_si128(work_a, p0);

-  work_a = signed_char_clamp_bd_sse2(_mm_adds_epi16(ps1, filt), bd);

-  work_a = _mm_adds_epi16(work_a, t80);

-  p1 = _mm_load_si128((__m128i *)flat_op1);

-  work_a = _mm_andnot_si128(flat, work_a);

-  p1 = _mm_and_si128(flat, p1);

-  p1 = _mm_or_si128(work_a, p1);

-  work_a = _mm_loadu_si128((__m128i *)(s - 3 * p));

-  p2 = _mm_load_si128((__m128i *)flat_op2);

-  work_a = _mm_andnot_si128(flat, work_a);

-  p2 = _mm_and_si128(flat, p2);

-  p2 = _mm_or_si128(work_a, p2);

-  _mm_store_si128((__m128i *)(s - 3 * p), p2);

-  _mm_store_si128((__m128i *)(s - 2 * p), p1);

-  _mm_store_si128((__m128i *)(s - 1 * p), p0);

-  _mm_store_si128((__m128i *)(s + 0 * p), q0);

-  _mm_store_si128((__m128i *)(s + 1 * p), q1);

-  _mm_store_si128((__m128i *)(s + 2 * p), q2);

-}

-void vp9_highbd_lpf_horizontal_8_dual_sse2(uint16_t *s, int p,

-                                           const uint8_t *_blimit0,

-                                           const uint8_t *_limit0,

-                                           const uint8_t *_thresh0,

-                                           const uint8_t *_blimit1,

-                                           const uint8_t *_limit1,

-                                           const uint8_t *_thresh1,

-                                           int bd) {

-  vp9_highbd_lpf_horizontal_8_sse2(s, p, _blimit0, _limit0, _thresh0, 1, bd);

-  vp9_highbd_lpf_horizontal_8_sse2(s + 8, p, _blimit1, _limit1, _thresh1,

-                                   1, bd);

-}

-void vp9_highbd_lpf_horizontal_4_sse2(uint16_t *s, int p,

-                                      const uint8_t *_blimit,

-                                      const uint8_t *_limit,

-                                      const uint8_t *_thresh,

-                                      int count, int bd) {

-  const __m128i zero = _mm_set1_epi16(0);

-  __m128i blimit, limit, thresh;

-  __m128i mask, hev, flat;

-  __m128i p3 = _mm_loadu_si128((__m128i *)(s - 4 * p));

-  __m128i p2 = _mm_loadu_si128((__m128i *)(s - 3 * p));

-  __m128i p1 = _mm_loadu_si128((__m128i *)(s - 2 * p));

-  __m128i p0 = _mm_loadu_si128((__m128i *)(s - 1 * p));

-  __m128i q0 = _mm_loadu_si128((__m128i *)(s - 0 * p));

-  __m128i q1 = _mm_loadu_si128((__m128i *)(s + 1 * p));

-  __m128i q2 = _mm_loadu_si128((__m128i *)(s + 2 * p));

-  __m128i q3 = _mm_loadu_si128((__m128i *)(s + 3 * p));

-  const __m128i abs_p1p0 = _mm_or_si128(_mm_subs_epu16(p1, p0),

-                                        _mm_subs_epu16(p0, p1));

-  const __m128i abs_q1q0 = _mm_or_si128(_mm_subs_epu16(q1, q0),

-                                        _mm_subs_epu16(q0, q1));

-  const __m128i ffff = _mm_cmpeq_epi16(abs_p1p0, abs_p1p0);

-  const __m128i one = _mm_set1_epi16(1);

-  __m128i abs_p0q0 = _mm_or_si128(_mm_subs_epu16(p0, q0),

-                                  _mm_subs_epu16(q0, p0));

-  __m128i abs_p1q1 = _mm_or_si128(_mm_subs_epu16(p1, q1),

-                                  _mm_subs_epu16(q1, p1));

-  __m128i work;

-  const __m128i t4 = _mm_set1_epi16(4);

-  const __m128i t3 = _mm_set1_epi16(3);

-  __m128i t80;

-  __m128i tff80;

-  __m128i tffe0;

-  __m128i t1f;

-  // equivalent to shifting 0x1f left by bitdepth - 8

-  // and setting new bits to 1

-  const __m128i t1 = _mm_set1_epi16(0x1);

-  __m128i t7f;

-  // equivalent to shifting 0x7f left by bitdepth - 8

-  // and setting new bits to 1

-  __m128i ps1, ps0, qs0, qs1;

-  __m128i filt;

-  __m128i work_a;

-  __m128i filter1, filter2;

-  (void)count;

-  if (bd == 8) {

-    blimit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero);

-    limit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero);

-    thresh = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero);

-    t80 = _mm_set1_epi16(0x80);

-    tff80 = _mm_set1_epi16(0xff80);

-    tffe0 = _mm_set1_epi16(0xffe0);

-    t1f = _mm_srli_epi16(_mm_set1_epi16(0x1fff), 8);

-    t7f = _mm_srli_epi16(_mm_set1_epi16(0x7fff), 8);

-  } else if (bd == 10) {

-    blimit = _mm_slli_epi16(

-        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 2);

-    limit = _mm_slli_epi16(

-        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 2);

-    thresh = _mm_slli_epi16(

-        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 2);

-    t80 = _mm_slli_epi16(_mm_set1_epi16(0x80), 2);

-    tff80 = _mm_slli_epi16(_mm_set1_epi16(0xff80), 2);

-    tffe0 = _mm_slli_epi16(_mm_set1_epi16(0xffe0), 2);

-    t1f = _mm_srli_epi16(_mm_set1_epi16(0x1fff), 6);

-    t7f = _mm_srli_epi16(_mm_set1_epi16(0x7fff), 6);

-  } else {  // bd == 12

-    blimit = _mm_slli_epi16(

-        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 4);

-    limit = _mm_slli_epi16(

-        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 4);

-    thresh = _mm_slli_epi16(

-        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 4);

-    t80 = _mm_slli_epi16(_mm_set1_epi16(0x80), 4);

-    tff80 = _mm_slli_epi16(_mm_set1_epi16(0xff80), 4);

-    tffe0 = _mm_slli_epi16(_mm_set1_epi16(0xffe0), 4);

-    t1f = _mm_srli_epi16(_mm_set1_epi16(0x1fff), 4);

-    t7f = _mm_srli_epi16(_mm_set1_epi16(0x7fff), 4);

-  }

-  ps1 = _mm_subs_epi16(_mm_loadu_si128((__m128i *)(s - 2 * p)), t80);

-  ps0 = _mm_subs_epi16(_mm_loadu_si128((__m128i *)(s - 1 * p)), t80);

-  qs0 = _mm_subs_epi16(_mm_loadu_si128((__m128i *)(s + 0 * p)), t80);

-  qs1 = _mm_subs_epi16(_mm_loadu_si128((__m128i *)(s + 1 * p)), t80);

-  // filter_mask and hev_mask

-  flat = _mm_max_epi16(abs_p1p0, abs_q1q0);

-  hev = _mm_subs_epu16(flat, thresh);

-  hev = _mm_xor_si128(_mm_cmpeq_epi16(hev, zero), ffff);

-  abs_p0q0 =_mm_adds_epu16(abs_p0q0, abs_p0q0);

-  abs_p1q1 = _mm_srli_epi16(abs_p1q1, 1);

-  mask = _mm_subs_epu16(_mm_adds_epu16(abs_p0q0, abs_p1q1), blimit);

-  mask = _mm_xor_si128(_mm_cmpeq_epi16(mask, zero), ffff);

-  // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

-  // So taking maximums continues to work:

-  mask = _mm_and_si128(mask, _mm_adds_epu16(limit, one));

-  mask = _mm_max_epi16(flat, mask);

-  // mask |= (abs(p1 - p0) > limit) * -1;

-  // mask |= (abs(q1 - q0) > limit) * -1;

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p2, p1),

-                                    _mm_subs_epu16(p1, p2)),

-                       _mm_or_si128(_mm_subs_epu16(p3, p2),

-                                    _mm_subs_epu16(p2, p3)));

-  mask = _mm_max_epi16(work, mask);

-  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(q2, q1),

-                                    _mm_subs_epu16(q1, q2)),

-                       _mm_or_si128(_mm_subs_epu16(q3, q2),

-                                    _mm_subs_epu16(q2, q3)));

-  mask = _mm_max_epi16(work, mask);

-  mask = _mm_subs_epu16(mask, limit);

-  mask = _mm_cmpeq_epi16(mask, zero);

-  // filter4

-  filt = signed_char_clamp_bd_sse2(_mm_subs_epi16(ps1, qs1), bd);

-  filt = _mm_and_si128(filt, hev);

-  work_a = _mm_subs_epi16(qs0, ps0);

-  filt = _mm_adds_epi16(filt, work_a);

-  filt = _mm_adds_epi16(filt, work_a);

-  filt = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, work_a), bd);

-  // (vp9_filter + 3 * (qs0 - ps0)) & mask

-  filt = _mm_and_si128(filt, mask);

-  filter1 = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, t4), bd);

-  filter2 = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, t3), bd);

-  // Filter1 >> 3

-  work_a = _mm_cmpgt_epi16(zero, filter1);  // get the values that are <0

-  filter1 = _mm_srli_epi16(filter1, 3);

-  work_a = _mm_and_si128(work_a, tffe0);  // sign bits for the values < 0

-  filter1 = _mm_and_si128(filter1, t1f);  // clamp the range

-  filter1 = _mm_or_si128(filter1, work_a);  // reinsert the sign bits

-  // Filter2 >> 3

-  work_a = _mm_cmpgt_epi16(zero, filter2);

-  filter2 = _mm_srli_epi16(filter2, 3);

-  work_a = _mm_and_si128(work_a, tffe0);

-  filter2 = _mm_and_si128(filter2, t1f);

-  filter2 = _mm_or_si128(filter2, work_a);

-  // filt >> 1

-  filt = _mm_adds_epi16(filter1, t1);

-  work_a = _mm_cmpgt_epi16(zero, filt);

-  filt = _mm_srli_epi16(filt, 1);

-  work_a = _mm_and_si128(work_a, tff80);

-  filt = _mm_and_si128(filt, t7f);

-  filt = _mm_or_si128(filt, work_a);

-  filt = _mm_andnot_si128(hev, filt);

-  q0 = _mm_adds_epi16(

-      signed_char_clamp_bd_sse2(_mm_subs_epi16(qs0, filter1), bd), t80);

-  q1 = _mm_adds_epi16(

-      signed_char_clamp_bd_sse2(_mm_subs_epi16(qs1, filt), bd), t80);

-  p0 = _mm_adds_epi16(

-      signed_char_clamp_bd_sse2(_mm_adds_epi16(ps0, filter2), bd), t80);

-  p1 = _mm_adds_epi16(

-      signed_char_clamp_bd_sse2(_mm_adds_epi16(ps1, filt), bd), t80);

-  _mm_storeu_si128((__m128i *)(s - 2 * p), p1);

-  _mm_storeu_si128((__m128i *)(s - 1 * p), p0);

-  _mm_storeu_si128((__m128i *)(s + 0 * p), q0);

-  _mm_storeu_si128((__m128i *)(s + 1 * p), q1);

-}

-void vp9_highbd_lpf_horizontal_4_dual_sse2(uint16_t *s, int p,

-                                           const uint8_t *_blimit0,

-                                           const uint8_t *_limit0,

-                                           const uint8_t *_thresh0,

-                                           const uint8_t *_blimit1,

-                                           const uint8_t *_limit1,

-                                           const uint8_t *_thresh1,

-                                           int bd) {

-  vp9_highbd_lpf_horizontal_4_sse2(s, p, _blimit0, _limit0, _thresh0, 1, bd);

-  vp9_highbd_lpf_horizontal_4_sse2(s + 8, p, _blimit1, _limit1, _thresh1, 1,

-                                   bd);

-}

-static INLINE void highbd_transpose(uint16_t *src[], int in_p,

-                                    uint16_t *dst[], int out_p,

-                                    int num_8x8_to_transpose) {

-  int idx8x8 = 0;

-  __m128i p0, p1, p2, p3, p4, p5, p6, p7, x0, x1, x2, x3, x4, x5, x6, x7;

-  do {

-    uint16_t *in = src[idx8x8];

-    uint16_t *out = dst[idx8x8];

-    p0 = _mm_loadu_si128((__m128i *)(in + 0*in_p));  // 00 01 02 03 04 05 06 07

-    p1 = _mm_loadu_si128((__m128i *)(in + 1*in_p));  // 10 11 12 13 14 15 16 17

-    p2 = _mm_loadu_si128((__m128i *)(in + 2*in_p));  // 20 21 22 23 24 25 26 27

-    p3 = _mm_loadu_si128((__m128i *)(in + 3*in_p));  // 30 31 32 33 34 35 36 37

-    p4 = _mm_loadu_si128((__m128i *)(in + 4*in_p));  // 40 41 42 43 44 45 46 47

-    p5 = _mm_loadu_si128((__m128i *)(in + 5*in_p));  // 50 51 52 53 54 55 56 57

-    p6 = _mm_loadu_si128((__m128i *)(in + 6*in_p));  // 60 61 62 63 64 65 66 67

-    p7 = _mm_loadu_si128((__m128i *)(in + 7*in_p));  // 70 71 72 73 74 75 76 77

-    // 00 10 01 11 02 12 03 13

-    x0 = _mm_unpacklo_epi16(p0, p1);

-    // 20 30 21 31 22 32 23 33

-    x1 = _mm_unpacklo_epi16(p2, p3);

-    // 40 50 41 51 42 52 43 53

-    x2 = _mm_unpacklo_epi16(p4, p5);

-    // 60 70 61 71 62 72 63 73

-    x3 = _mm_unpacklo_epi16(p6, p7);

-    // 00 10 20 30 01 11 21 31

-    x4 = _mm_unpacklo_epi32(x0, x1);

-    // 40 50 60 70 41 51 61 71

-    x5 = _mm_unpacklo_epi32(x2, x3);

-    // 00 10 20 30 40 50 60 70

-    x6 = _mm_unpacklo_epi64(x4, x5);

-    // 01 11 21 31 41 51 61 71

-    x7 = _mm_unpackhi_epi64(x4, x5);

-    _mm_storeu_si128((__m128i *)(out + 0*out_p), x6);

-    // 00 10 20 30 40 50 60 70

-    _mm_storeu_si128((__m128i *)(out + 1*out_p), x7);

-    // 01 11 21 31 41 51 61 71

-    // 02 12 22 32 03 13 23 33

-    x4 = _mm_unpackhi_epi32(x0, x1);

-    // 42 52 62 72 43 53 63 73

-    x5 = _mm_unpackhi_epi32(x2, x3);

-    // 02 12 22 32 42 52 62 72

-    x6 = _mm_unpacklo_epi64(x4, x5);

-    // 03 13 23 33 43 53 63 73

-    x7 = _mm_unpackhi_epi64(x4, x5);

-    _mm_storeu_si128((__m128i *)(out + 2*out_p), x6);

-    // 02 12 22 32 42 52 62 72

-    _mm_storeu_si128((__m128i *)(out + 3*out_p), x7);

-    // 03 13 23 33 43 53 63 73

-    // 04 14 05 15 06 16 07 17

-    x0 = _mm_unpackhi_epi16(p0, p1);

-    // 24 34 25 35 26 36 27 37

-    x1 = _mm_unpackhi_epi16(p2, p3);

-    // 44 54 45 55 46 56 47 57

-    x2 = _mm_unpackhi_epi16(p4, p5);

-    // 64 74 65 75 66 76 67 77

-    x3 = _mm_unpackhi_epi16(p6, p7);

-    // 04 14 24 34 05 15 25 35

-    x4 = _mm_unpacklo_epi32(x0, x1);

-    // 44 54 64 74 45 55 65 75

-    x5 = _mm_unpacklo_epi32(x2, x3);

-    // 04 14 24 34 44 54 64 74

-    x6 = _mm_unpacklo_epi64(x4, x5);

-    // 05 15 25 35 45 55 65 75

-    x7 = _mm_unpackhi_epi64(x4, x5);

-    _mm_storeu_si128((__m128i *)(out + 4*out_p), x6);

-    // 04 14 24 34 44 54 64 74

-    _mm_storeu_si128((__m128i *)(out + 5*out_p), x7);

-    // 05 15 25 35 45 55 65 75

-    // 06 16 26 36 07 17 27 37

-    x4 = _mm_unpackhi_epi32(x0, x1);

-    // 46 56 66 76 47 57 67 77

-    x5 = _mm_unpackhi_epi32(x2, x3);

-    // 06 16 26 36 46 56 66 76

-    x6 = _mm_unpacklo_epi64(x4, x5);

-    // 07 17 27 37 47 57 67 77

-    x7 = _mm_unpackhi_epi64(x4, x5);

-    _mm_storeu_si128((__m128i *)(out + 6*out_p), x6);

-    // 06 16 26 36 46 56 66 76

-    _mm_storeu_si128((__m128i *)(out + 7*out_p), x7);

-    // 07 17 27 37 47 57 67 77

-  } while (++idx8x8 < num_8x8_to_transpose);

-}

-static INLINE void highbd_transpose8x16(uint16_t *in0, uint16_t *in1,

-                                        int in_p, uint16_t *out, int out_p) {

-  uint16_t *src0[1];

-  uint16_t *src1[1];

-  uint16_t *dest0[1];

-  uint16_t *dest1[1];

-  src0[0] = in0;

-  src1[0] = in1;

-  dest0[0] = out;

-  dest1[0] = out + 8;

-  highbd_transpose(src0, in_p, dest0, out_p, 1);

-  highbd_transpose(src1, in_p, dest1, out_p, 1);

-}

-void vp9_highbd_lpf_vertical_4_sse2(uint16_t *s, int p,

-                                    const uint8_t *blimit,

-                                    const uint8_t *limit,

-                                    const uint8_t *thresh,

-                                    int count, int bd) {

-  DECLARE_ALIGNED(16, uint16_t, t_dst[8 * 8]);

-  uint16_t *src[1];

-  uint16_t *dst[1];

-  (void)count;

-  // Transpose 8x8

-  src[0] = s - 4;

-  dst[0] = t_dst;

-  highbd_transpose(src, p, dst, 8, 1);

-  // Loop filtering

-  vp9_highbd_lpf_horizontal_4_sse2(t_dst + 4 * 8, 8, blimit, limit, thresh, 1,

-                                   bd);

-  src[0] = t_dst;

-  dst[0] = s - 4;

-  // Transpose back

-  highbd_transpose(src, 8, dst, p, 1);

-}

-void vp9_highbd_lpf_vertical_4_dual_sse2(uint16_t *s, int p,

-                                         const uint8_t *blimit0,

-                                         const uint8_t *limit0,

-                                         const uint8_t *thresh0,

-                                         const uint8_t *blimit1,

-                                         const uint8_t *limit1,

-                                         const uint8_t *thresh1,

-                                         int bd) {

-  DECLARE_ALIGNED(16, uint16_t, t_dst[16 * 8]);

-  uint16_t *src[2];

-  uint16_t *dst[2];

-  // Transpose 8x16

-  highbd_transpose8x16(s - 4, s - 4 + p * 8, p, t_dst, 16);

-  // Loop filtering

-  vp9_highbd_lpf_horizontal_4_dual_sse2(t_dst + 4 * 16, 16, blimit0, limit0,

-                                        thresh0, blimit1, limit1, thresh1, bd);

-  src[0] = t_dst;

-  src[1] = t_dst + 8;

-  dst[0] = s - 4;

-  dst[1] = s - 4 + p * 8;

-  // Transpose back

-  highbd_transpose(src, 16, dst, p, 2);

-}

-void vp9_highbd_lpf_vertical_8_sse2(uint16_t *s, int p,

-                                    const uint8_t *blimit,

-                                    const uint8_t *limit,

-                                    const uint8_t *thresh,

-                                    int count, int bd) {

-  DECLARE_ALIGNED(16, uint16_t, t_dst[8 * 8]);

-  uint16_t *src[1];

-  uint16_t *dst[1];

-  (void)count;

-  // Transpose 8x8

-  src[0] = s - 4;

-  dst[0] = t_dst;

-  highbd_transpose(src, p, dst, 8, 1);

-  // Loop filtering

-  vp9_highbd_lpf_horizontal_8_sse2(t_dst + 4 * 8, 8, blimit, limit, thresh, 1,

-                                   bd);

-  src[0] = t_dst;

-  dst[0] = s - 4;

-  // Transpose back

-  highbd_transpose(src, 8, dst, p, 1);

-}

-void vp9_highbd_lpf_vertical_8_dual_sse2(uint16_t *s, int p,

-                                         const uint8_t *blimit0,

-                                         const uint8_t *limit0,

-                                         const uint8_t *thresh0,

-                                         const uint8_t *blimit1,

-                                         const uint8_t *limit1,

-                                         const uint8_t *thresh1,

-                                         int bd) {

-  DECLARE_ALIGNED(16, uint16_t, t_dst[16 * 8]);

-  uint16_t *src[2];

-  uint16_t *dst[2];

-  // Transpose 8x16

-  highbd_transpose8x16(s - 4, s - 4 + p * 8, p, t_dst, 16);

-  // Loop filtering

-  vp9_highbd_lpf_horizontal_8_dual_sse2(t_dst + 4 * 16, 16, blimit0, limit0,

-                                        thresh0, blimit1, limit1, thresh1, bd);

-  src[0] = t_dst;

-  src[1] = t_dst + 8;

-  dst[0] = s - 4;

-  dst[1] = s - 4 + p * 8;

-  // Transpose back

-  highbd_transpose(src, 16, dst, p, 2);

-}

-void vp9_highbd_lpf_vertical_16_sse2(uint16_t *s, int p,

-                                     const uint8_t *blimit,

-                                     const uint8_t *limit,

-                                     const uint8_t *thresh,

-                                     int bd) {

-  DECLARE_ALIGNED(16, uint16_t, t_dst[8 * 16]);

-  uint16_t *src[2];

-  uint16_t *dst[2];

-  src[0] = s - 8;

-  src[1] = s;

-  dst[0] = t_dst;

-  dst[1] = t_dst + 8 * 8;

-  // Transpose 16x8

-  highbd_transpose(src, p, dst, 8, 2);

-  // Loop filtering

-  highbd_mb_lpf_horizontal_edge_w_sse2_8(t_dst + 8 * 8, 8, blimit, limit,

-                                         thresh, bd);

-  src[0] = t_dst;

-  src[1] = t_dst + 8 * 8;

-  dst[0] = s - 8;

-  dst[1] = s;

-  // Transpose back

-  highbd_transpose(src, 8, dst, p, 2);

-}

-void vp9_highbd_lpf_vertical_16_dual_sse2(uint16_t *s,

-                                          int p,

-                                          const uint8_t *blimit,

-                                          const uint8_t *limit,

-                                          const uint8_t *thresh,

-                                          int bd) {

-  DECLARE_ALIGNED(16, uint16_t, t_dst[256]);

-  //  Transpose 16x16

-  highbd_transpose8x16(s - 8, s - 8 + 8 * p, p, t_dst, 16);

-  highbd_transpose8x16(s, s + 8 * p, p, t_dst + 8 * 16, 16);

-  //  Loop filtering

-  highbd_mb_lpf_horizontal_edge_w_sse2_16(t_dst + 8 * 16, 16, blimit, limit,

-                                          thresh, bd);

-  //  Transpose back

-  highbd_transpose8x16(t_dst, t_dst + 8 * 16, 16, s - 8, p);

-  highbd_transpose8x16(t_dst + 8, t_dst + 8 + 8 * 16, 16, s - 8 + 8 * p, p);

-}

--- a/vp9/common/x86/vp9_loopfilter_intrin_avx2.c

+++ /dev/null

@@ -1,986 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include <immintrin.h>  /* AVX2 */

-#include "./vp9_rtcd.h"

-#include "vpx_ports/mem.h"

-static void mb_lpf_horizontal_edge_w_avx2_8(unsigned char *s, int p,

-        const unsigned char *_blimit, const unsigned char *_limit,

-        const unsigned char *_thresh) {

-    __m128i mask, hev, flat, flat2;

-    const __m128i zero = _mm_set1_epi16(0);

-    const __m128i one = _mm_set1_epi8(1);

-    __m128i q7p7, q6p6, q5p5, q4p4, q3p3, q2p2, q1p1, q0p0, p0q0, p1q1;

-    __m128i abs_p1p0;

-    const __m128i thresh = _mm_broadcastb_epi8(

-            _mm_cvtsi32_si128((int) _thresh[0]));

-    const __m128i limit = _mm_broadcastb_epi8(

-            _mm_cvtsi32_si128((int) _limit[0]));

-    const __m128i blimit = _mm_broadcastb_epi8(

-            _mm_cvtsi32_si128((int) _blimit[0]));

-    q4p4 = _mm_loadl_epi64((__m128i *) (s - 5 * p));

-    q4p4 = _mm_castps_si128(

-            _mm_loadh_pi(_mm_castsi128_ps(q4p4), (__m64 *) (s + 4 * p)));

-    q3p3 = _mm_loadl_epi64((__m128i *) (s - 4 * p));

-    q3p3 = _mm_castps_si128(

-            _mm_loadh_pi(_mm_castsi128_ps(q3p3), (__m64 *) (s + 3 * p)));

-    q2p2 = _mm_loadl_epi64((__m128i *) (s - 3 * p));

-    q2p2 = _mm_castps_si128(

-            _mm_loadh_pi(_mm_castsi128_ps(q2p2), (__m64 *) (s + 2 * p)));

-    q1p1 = _mm_loadl_epi64((__m128i *) (s - 2 * p));

-    q1p1 = _mm_castps_si128(

-            _mm_loadh_pi(_mm_castsi128_ps(q1p1), (__m64 *) (s + 1 * p)));

-    p1q1 = _mm_shuffle_epi32(q1p1, 78);

-    q0p0 = _mm_loadl_epi64((__m128i *) (s - 1 * p));

-    q0p0 = _mm_castps_si128(

-            _mm_loadh_pi(_mm_castsi128_ps(q0p0), (__m64 *) (s - 0 * p)));

-    p0q0 = _mm_shuffle_epi32(q0p0, 78);

-    {

-        __m128i abs_p1q1, abs_p0q0, abs_q1q0, fe, ff, work;

-        abs_p1p0 = _mm_or_si128(_mm_subs_epu8(q1p1, q0p0),

-                _mm_subs_epu8(q0p0, q1p1));

-        abs_q1q0 = _mm_srli_si128(abs_p1p0, 8);

-        fe = _mm_set1_epi8(0xfe);

-        ff = _mm_cmpeq_epi8(abs_p1p0, abs_p1p0);

-        abs_p0q0 = _mm_or_si128(_mm_subs_epu8(q0p0, p0q0),

-                _mm_subs_epu8(p0q0, q0p0));

-        abs_p1q1 = _mm_or_si128(_mm_subs_epu8(q1p1, p1q1),

-                _mm_subs_epu8(p1q1, q1p1));

-        flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

-        hev = _mm_subs_epu8(flat, thresh);

-        hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

-        abs_p0q0 = _mm_adds_epu8(abs_p0q0, abs_p0q0);

-        abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

-        mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

-        mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

-        // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

-        mask = _mm_max_epu8(abs_p1p0, mask);

-        // mask |= (abs(p1 - p0) > limit) * -1;

-        // mask |= (abs(q1 - q0) > limit) * -1;

-        work = _mm_max_epu8(

-                _mm_or_si128(_mm_subs_epu8(q2p2, q1p1),

-                        _mm_subs_epu8(q1p1, q2p2)),

-                _mm_or_si128(_mm_subs_epu8(q3p3, q2p2),

-                        _mm_subs_epu8(q2p2, q3p3)));

-        mask = _mm_max_epu8(work, mask);

-        mask = _mm_max_epu8(mask, _mm_srli_si128(mask, 8));

-        mask = _mm_subs_epu8(mask, limit);

-        mask = _mm_cmpeq_epi8(mask, zero);

-    }

-    // lp filter

-    {

-        const __m128i t4 = _mm_set1_epi8(4);

-        const __m128i t3 = _mm_set1_epi8(3);

-        const __m128i t80 = _mm_set1_epi8(0x80);

-        const __m128i t1 = _mm_set1_epi16(0x1);

-        __m128i qs1ps1 = _mm_xor_si128(q1p1, t80);

-        __m128i qs0ps0 = _mm_xor_si128(q0p0, t80);

-        __m128i qs0 = _mm_xor_si128(p0q0, t80);

-        __m128i qs1 = _mm_xor_si128(p1q1, t80);

-        __m128i filt;

-        __m128i work_a;

-        __m128i filter1, filter2;

-        __m128i flat2_q6p6, flat2_q5p5, flat2_q4p4, flat2_q3p3, flat2_q2p2;

-        __m128i flat2_q1p1, flat2_q0p0, flat_q2p2, flat_q1p1, flat_q0p0;

-        filt = _mm_and_si128(_mm_subs_epi8(qs1ps1, qs1), hev);

-        work_a = _mm_subs_epi8(qs0, qs0ps0);

-        filt = _mm_adds_epi8(filt, work_a);

-        filt = _mm_adds_epi8(filt, work_a);

-        filt = _mm_adds_epi8(filt, work_a);

-        /* (vp9_filter + 3 * (qs0 - ps0)) & mask */

-        filt = _mm_and_si128(filt, mask);

-        filter1 = _mm_adds_epi8(filt, t4);

-        filter2 = _mm_adds_epi8(filt, t3);

-        filter1 = _mm_unpacklo_epi8(zero, filter1);

-        filter1 = _mm_srai_epi16(filter1, 0xB);

-        filter2 = _mm_unpacklo_epi8(zero, filter2);

-        filter2 = _mm_srai_epi16(filter2, 0xB);

-        /* Filter1 >> 3 */

-        filt = _mm_packs_epi16(filter2, _mm_subs_epi16(zero, filter1));

-        qs0ps0 = _mm_xor_si128(_mm_adds_epi8(qs0ps0, filt), t80);

-        /* filt >> 1 */

-        filt = _mm_adds_epi16(filter1, t1);

-        filt = _mm_srai_epi16(filt, 1);

-        filt = _mm_andnot_si128(

-                _mm_srai_epi16(_mm_unpacklo_epi8(zero, hev), 0x8), filt);

-        filt = _mm_packs_epi16(filt, _mm_subs_epi16(zero, filt));

-        qs1ps1 = _mm_xor_si128(_mm_adds_epi8(qs1ps1, filt), t80);

-        // loopfilter done

-        {

-            __m128i work;

-            flat = _mm_max_epu8(

-                    _mm_or_si128(_mm_subs_epu8(q2p2, q0p0),

-                            _mm_subs_epu8(q0p0, q2p2)),

-                    _mm_or_si128(_mm_subs_epu8(q3p3, q0p0),

-                            _mm_subs_epu8(q0p0, q3p3)));

-            flat = _mm_max_epu8(abs_p1p0, flat);

-            flat = _mm_max_epu8(flat, _mm_srli_si128(flat, 8));

-            flat = _mm_subs_epu8(flat, one);

-            flat = _mm_cmpeq_epi8(flat, zero);

-            flat = _mm_and_si128(flat, mask);

-            q5p5 = _mm_loadl_epi64((__m128i *) (s - 6 * p));

-            q5p5 = _mm_castps_si128(

-                    _mm_loadh_pi(_mm_castsi128_ps(q5p5),

-                            (__m64 *) (s + 5 * p)));

-            q6p6 = _mm_loadl_epi64((__m128i *) (s - 7 * p));

-            q6p6 = _mm_castps_si128(

-                    _mm_loadh_pi(_mm_castsi128_ps(q6p6),

-                            (__m64 *) (s + 6 * p)));

-            flat2 = _mm_max_epu8(

-                    _mm_or_si128(_mm_subs_epu8(q4p4, q0p0),

-                            _mm_subs_epu8(q0p0, q4p4)),

-                    _mm_or_si128(_mm_subs_epu8(q5p5, q0p0),

-                            _mm_subs_epu8(q0p0, q5p5)));

-            q7p7 = _mm_loadl_epi64((__m128i *) (s - 8 * p));

-            q7p7 = _mm_castps_si128(

-                    _mm_loadh_pi(_mm_castsi128_ps(q7p7),

-                            (__m64 *) (s + 7 * p)));

-            work = _mm_max_epu8(

-                    _mm_or_si128(_mm_subs_epu8(q6p6, q0p0),

-                            _mm_subs_epu8(q0p0, q6p6)),

-                    _mm_or_si128(_mm_subs_epu8(q7p7, q0p0),

-                            _mm_subs_epu8(q0p0, q7p7)));

-            flat2 = _mm_max_epu8(work, flat2);

-            flat2 = _mm_max_epu8(flat2, _mm_srli_si128(flat2, 8));

-            flat2 = _mm_subs_epu8(flat2, one);

-            flat2 = _mm_cmpeq_epi8(flat2, zero);

-            flat2 = _mm_and_si128(flat2, flat);  // flat2 & flat & mask

-        }

-        // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-        // flat and wide flat calculations

-        {

-            const __m128i eight = _mm_set1_epi16(8);

-            const __m128i four = _mm_set1_epi16(4);

-            __m128i p7_16, p6_16, p5_16, p4_16, p3_16, p2_16, p1_16, p0_16;

-            __m128i q7_16, q6_16, q5_16, q4_16, q3_16, q2_16, q1_16, q0_16;

-            __m128i pixelFilter_p, pixelFilter_q;

-            __m128i pixetFilter_p2p1p0, pixetFilter_q2q1q0;

-            __m128i sum_p7, sum_q7, sum_p3, sum_q3, res_p, res_q;

-            p7_16 = _mm_unpacklo_epi8(q7p7, zero);

-            p6_16 = _mm_unpacklo_epi8(q6p6, zero);

-            p5_16 = _mm_unpacklo_epi8(q5p5, zero);

-            p4_16 = _mm_unpacklo_epi8(q4p4, zero);

-            p3_16 = _mm_unpacklo_epi8(q3p3, zero);

-            p2_16 = _mm_unpacklo_epi8(q2p2, zero);

-            p1_16 = _mm_unpacklo_epi8(q1p1, zero);

-            p0_16 = _mm_unpacklo_epi8(q0p0, zero);

-            q0_16 = _mm_unpackhi_epi8(q0p0, zero);

-            q1_16 = _mm_unpackhi_epi8(q1p1, zero);

-            q2_16 = _mm_unpackhi_epi8(q2p2, zero);

-            q3_16 = _mm_unpackhi_epi8(q3p3, zero);

-            q4_16 = _mm_unpackhi_epi8(q4p4, zero);

-            q5_16 = _mm_unpackhi_epi8(q5p5, zero);

-            q6_16 = _mm_unpackhi_epi8(q6p6, zero);

-            q7_16 = _mm_unpackhi_epi8(q7p7, zero);

-            pixelFilter_p = _mm_add_epi16(_mm_add_epi16(p6_16, p5_16),

-                    _mm_add_epi16(p4_16, p3_16));

-            pixelFilter_q = _mm_add_epi16(_mm_add_epi16(q6_16, q5_16),

-                    _mm_add_epi16(q4_16, q3_16));

-            pixetFilter_p2p1p0 = _mm_add_epi16(p0_16,

-                    _mm_add_epi16(p2_16, p1_16));

-            pixelFilter_p = _mm_add_epi16(pixelFilter_p, pixetFilter_p2p1p0);

-            pixetFilter_q2q1q0 = _mm_add_epi16(q0_16,

-                    _mm_add_epi16(q2_16, q1_16));

-            pixelFilter_q = _mm_add_epi16(pixelFilter_q, pixetFilter_q2q1q0);

-            pixelFilter_p = _mm_add_epi16(eight,

-                    _mm_add_epi16(pixelFilter_p, pixelFilter_q));

-            pixetFilter_p2p1p0 = _mm_add_epi16(four,

-                    _mm_add_epi16(pixetFilter_p2p1p0, pixetFilter_q2q1q0));

-            res_p = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(p7_16, p0_16)),

-                    4);

-            res_q = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(q7_16, q0_16)),

-                    4);

-            flat2_q0p0 = _mm_packus_epi16(res_p, res_q);

-            res_p = _mm_srli_epi16(

-                    _mm_add_epi16(pixetFilter_p2p1p0,

-                            _mm_add_epi16(p3_16, p0_16)), 3);

-            res_q = _mm_srli_epi16(

-                    _mm_add_epi16(pixetFilter_p2p1p0,

-                            _mm_add_epi16(q3_16, q0_16)), 3);

-            flat_q0p0 = _mm_packus_epi16(res_p, res_q);

-            sum_p7 = _mm_add_epi16(p7_16, p7_16);

-            sum_q7 = _mm_add_epi16(q7_16, q7_16);

-            sum_p3 = _mm_add_epi16(p3_16, p3_16);

-            sum_q3 = _mm_add_epi16(q3_16, q3_16);

-            pixelFilter_q = _mm_sub_epi16(pixelFilter_p, p6_16);

-            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q6_16);

-            res_p = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p1_16)),

-                    4);

-            res_q = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q1_16)),

-                    4);

-            flat2_q1p1 = _mm_packus_epi16(res_p, res_q);

-            pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_p2p1p0, p2_16);

-            pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q2_16);

-            res_p = _mm_srli_epi16(

-                    _mm_add_epi16(pixetFilter_p2p1p0,

-                            _mm_add_epi16(sum_p3, p1_16)), 3);

-            res_q = _mm_srli_epi16(

-                    _mm_add_epi16(pixetFilter_q2q1q0,

-                            _mm_add_epi16(sum_q3, q1_16)), 3);

-            flat_q1p1 = _mm_packus_epi16(res_p, res_q);

-            sum_p7 = _mm_add_epi16(sum_p7, p7_16);

-            sum_q7 = _mm_add_epi16(sum_q7, q7_16);

-            sum_p3 = _mm_add_epi16(sum_p3, p3_16);

-            sum_q3 = _mm_add_epi16(sum_q3, q3_16);

-            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q5_16);

-            pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p5_16);

-            res_p = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p2_16)),

-                    4);

-            res_q = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q2_16)),

-                    4);

-            flat2_q2p2 = _mm_packus_epi16(res_p, res_q);

-            pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q1_16);

-            pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_q2q1q0, p1_16);

-            res_p = _mm_srli_epi16(

-                    _mm_add_epi16(pixetFilter_p2p1p0,

-                            _mm_add_epi16(sum_p3, p2_16)), 3);

-            res_q = _mm_srli_epi16(

-                    _mm_add_epi16(pixetFilter_q2q1q0,

-                            _mm_add_epi16(sum_q3, q2_16)), 3);

-            flat_q2p2 = _mm_packus_epi16(res_p, res_q);

-            sum_p7 = _mm_add_epi16(sum_p7, p7_16);

-            sum_q7 = _mm_add_epi16(sum_q7, q7_16);

-            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q4_16);

-            pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p4_16);

-            res_p = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p3_16)),

-                    4);

-            res_q = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q3_16)),

-                    4);

-            flat2_q3p3 = _mm_packus_epi16(res_p, res_q);

-            sum_p7 = _mm_add_epi16(sum_p7, p7_16);

-            sum_q7 = _mm_add_epi16(sum_q7, q7_16);

-            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q3_16);

-            pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p3_16);

-            res_p = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p4_16)),

-                    4);

-            res_q = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q4_16)),

-                    4);

-            flat2_q4p4 = _mm_packus_epi16(res_p, res_q);

-            sum_p7 = _mm_add_epi16(sum_p7, p7_16);

-            sum_q7 = _mm_add_epi16(sum_q7, q7_16);

-            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q2_16);

-            pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p2_16);

-            res_p = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p5_16)),

-                    4);

-            res_q = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q5_16)),

-                    4);

-            flat2_q5p5 = _mm_packus_epi16(res_p, res_q);

-            sum_p7 = _mm_add_epi16(sum_p7, p7_16);

-            sum_q7 = _mm_add_epi16(sum_q7, q7_16);

-            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q1_16);

-            pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p1_16);

-            res_p = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p6_16)),

-                    4);

-            res_q = _mm_srli_epi16(

-                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q6_16)),

-                    4);

-            flat2_q6p6 = _mm_packus_epi16(res_p, res_q);

-        }

-        // wide flat

-        // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-        flat = _mm_shuffle_epi32(flat, 68);

-        flat2 = _mm_shuffle_epi32(flat2, 68);

-        q2p2 = _mm_andnot_si128(flat, q2p2);

-        flat_q2p2 = _mm_and_si128(flat, flat_q2p2);

-        q2p2 = _mm_or_si128(q2p2, flat_q2p2);

-        qs1ps1 = _mm_andnot_si128(flat, qs1ps1);

-        flat_q1p1 = _mm_and_si128(flat, flat_q1p1);

-        q1p1 = _mm_or_si128(qs1ps1, flat_q1p1);

-        qs0ps0 = _mm_andnot_si128(flat, qs0ps0);

-        flat_q0p0 = _mm_and_si128(flat, flat_q0p0);

-        q0p0 = _mm_or_si128(qs0ps0, flat_q0p0);

-        q6p6 = _mm_andnot_si128(flat2, q6p6);

-        flat2_q6p6 = _mm_and_si128(flat2, flat2_q6p6);

-        q6p6 = _mm_or_si128(q6p6, flat2_q6p6);

-        _mm_storel_epi64((__m128i *) (s - 7 * p), q6p6);

-        _mm_storeh_pi((__m64 *) (s + 6 * p), _mm_castsi128_ps(q6p6));

-        q5p5 = _mm_andnot_si128(flat2, q5p5);

-        flat2_q5p5 = _mm_and_si128(flat2, flat2_q5p5);

-        q5p5 = _mm_or_si128(q5p5, flat2_q5p5);

-        _mm_storel_epi64((__m128i *) (s - 6 * p), q5p5);

-        _mm_storeh_pi((__m64 *) (s + 5 * p), _mm_castsi128_ps(q5p5));

-        q4p4 = _mm_andnot_si128(flat2, q4p4);

-        flat2_q4p4 = _mm_and_si128(flat2, flat2_q4p4);

-        q4p4 = _mm_or_si128(q4p4, flat2_q4p4);

-        _mm_storel_epi64((__m128i *) (s - 5 * p), q4p4);

-        _mm_storeh_pi((__m64 *) (s + 4 * p), _mm_castsi128_ps(q4p4));

-        q3p3 = _mm_andnot_si128(flat2, q3p3);

-        flat2_q3p3 = _mm_and_si128(flat2, flat2_q3p3);

-        q3p3 = _mm_or_si128(q3p3, flat2_q3p3);

-        _mm_storel_epi64((__m128i *) (s - 4 * p), q3p3);

-        _mm_storeh_pi((__m64 *) (s + 3 * p), _mm_castsi128_ps(q3p3));

-        q2p2 = _mm_andnot_si128(flat2, q2p2);

-        flat2_q2p2 = _mm_and_si128(flat2, flat2_q2p2);

-        q2p2 = _mm_or_si128(q2p2, flat2_q2p2);

-        _mm_storel_epi64((__m128i *) (s - 3 * p), q2p2);

-        _mm_storeh_pi((__m64 *) (s + 2 * p), _mm_castsi128_ps(q2p2));

-        q1p1 = _mm_andnot_si128(flat2, q1p1);

-        flat2_q1p1 = _mm_and_si128(flat2, flat2_q1p1);

-        q1p1 = _mm_or_si128(q1p1, flat2_q1p1);

-        _mm_storel_epi64((__m128i *) (s - 2 * p), q1p1);

-        _mm_storeh_pi((__m64 *) (s + 1 * p), _mm_castsi128_ps(q1p1));

-        q0p0 = _mm_andnot_si128(flat2, q0p0);

-        flat2_q0p0 = _mm_and_si128(flat2, flat2_q0p0);

-        q0p0 = _mm_or_si128(q0p0, flat2_q0p0);

-        _mm_storel_epi64((__m128i *) (s - 1 * p), q0p0);

-        _mm_storeh_pi((__m64 *) (s - 0 * p), _mm_castsi128_ps(q0p0));

-    }

-}

-DECLARE_ALIGNED(32, static const uint8_t, filt_loopfilter_avx2[32]) = {

-  0, 128, 1, 128, 2, 128, 3, 128, 4, 128, 5, 128, 6, 128, 7, 128,

-  8, 128, 9, 128, 10, 128, 11, 128, 12, 128, 13, 128, 14, 128, 15, 128

-};

-static void mb_lpf_horizontal_edge_w_avx2_16(unsigned char *s, int p,

-        const unsigned char *_blimit, const unsigned char *_limit,

-        const unsigned char *_thresh) {

-    __m128i mask, hev, flat, flat2;

-    const __m128i zero = _mm_set1_epi16(0);

-    const __m128i one = _mm_set1_epi8(1);

-    __m128i p7, p6, p5;

-    __m128i p4, p3, p2, p1, p0, q0, q1, q2, q3, q4;

-    __m128i q5, q6, q7;

-    __m256i p256_7, q256_7, p256_6, q256_6, p256_5, q256_5, p256_4,

-            q256_4, p256_3, q256_3, p256_2, q256_2, p256_1, q256_1,

-            p256_0, q256_0;

-    const __m128i thresh = _mm_broadcastb_epi8(

-            _mm_cvtsi32_si128((int) _thresh[0]));

-    const __m128i limit = _mm_broadcastb_epi8(

-            _mm_cvtsi32_si128((int) _limit[0]));

-    const __m128i blimit = _mm_broadcastb_epi8(

-            _mm_cvtsi32_si128((int) _blimit[0]));

-    p256_4 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                (__m128d const *)(s - 5 * p)));

-    p256_3 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                (__m128d const *)(s - 4 * p)));

-    p256_2 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                (__m128d const *)(s - 3 * p)));

-    p256_1 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                (__m128d const *)(s - 2 * p)));

-    p256_0 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                (__m128d const *)(s - 1 * p)));

-    q256_0 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                (__m128d const *)(s - 0 * p)));

-    q256_1 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                (__m128d const *)(s + 1 * p)));

-    q256_2 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                (__m128d const *)(s + 2 * p)));

-    q256_3 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                (__m128d const *)(s + 3 * p)));

-    q256_4 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                (__m128d const *)(s + 4 * p)));

-    p4 = _mm256_castsi256_si128(p256_4);

-    p3 = _mm256_castsi256_si128(p256_3);

-    p2 = _mm256_castsi256_si128(p256_2);

-    p1 = _mm256_castsi256_si128(p256_1);

-    p0 = _mm256_castsi256_si128(p256_0);

-    q0 = _mm256_castsi256_si128(q256_0);

-    q1 = _mm256_castsi256_si128(q256_1);

-    q2 = _mm256_castsi256_si128(q256_2);

-    q3 = _mm256_castsi256_si128(q256_3);

-    q4 = _mm256_castsi256_si128(q256_4);

-    {

-        const __m128i abs_p1p0 = _mm_or_si128(_mm_subs_epu8(p1, p0),

-                _mm_subs_epu8(p0, p1));

-        const __m128i abs_q1q0 = _mm_or_si128(_mm_subs_epu8(q1, q0),

-                _mm_subs_epu8(q0, q1));

-        const __m128i fe = _mm_set1_epi8(0xfe);

-        const __m128i ff = _mm_cmpeq_epi8(abs_p1p0, abs_p1p0);

-        __m128i abs_p0q0 = _mm_or_si128(_mm_subs_epu8(p0, q0),

-                _mm_subs_epu8(q0, p0));

-        __m128i abs_p1q1 = _mm_or_si128(_mm_subs_epu8(p1, q1),

-                _mm_subs_epu8(q1, p1));

-        __m128i work;

-        flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

-        hev = _mm_subs_epu8(flat, thresh);

-        hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

-        abs_p0q0 = _mm_adds_epu8(abs_p0q0, abs_p0q0);

-        abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

-        mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

-        mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

-        // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

-        mask = _mm_max_epu8(flat, mask);

-        // mask |= (abs(p1 - p0) > limit) * -1;

-        // mask |= (abs(q1 - q0) > limit) * -1;

-        work = _mm_max_epu8(

-                _mm_or_si128(_mm_subs_epu8(p2, p1), _mm_subs_epu8(p1, p2)),

-                _mm_or_si128(_mm_subs_epu8(p3, p2), _mm_subs_epu8(p2, p3)));

-        mask = _mm_max_epu8(work, mask);

-        work = _mm_max_epu8(

-                _mm_or_si128(_mm_subs_epu8(q2, q1), _mm_subs_epu8(q1, q2)),

-                _mm_or_si128(_mm_subs_epu8(q3, q2), _mm_subs_epu8(q2, q3)));

-        mask = _mm_max_epu8(work, mask);

-        mask = _mm_subs_epu8(mask, limit);

-        mask = _mm_cmpeq_epi8(mask, zero);

-    }

-    // lp filter

-    {

-        const __m128i t4 = _mm_set1_epi8(4);

-        const __m128i t3 = _mm_set1_epi8(3);

-        const __m128i t80 = _mm_set1_epi8(0x80);

-        const __m128i te0 = _mm_set1_epi8(0xe0);

-        const __m128i t1f = _mm_set1_epi8(0x1f);

-        const __m128i t1 = _mm_set1_epi8(0x1);

-        const __m128i t7f = _mm_set1_epi8(0x7f);

-        __m128i ps1 = _mm_xor_si128(p1, t80);

-        __m128i ps0 = _mm_xor_si128(p0, t80);

-        __m128i qs0 = _mm_xor_si128(q0, t80);

-        __m128i qs1 = _mm_xor_si128(q1, t80);

-        __m128i filt;

-        __m128i work_a;

-        __m128i filter1, filter2;

-        __m128i flat2_p6, flat2_p5, flat2_p4, flat2_p3, flat2_p2, flat2_p1,

-                flat2_p0, flat2_q0, flat2_q1, flat2_q2, flat2_q3, flat2_q4,

-                flat2_q5, flat2_q6, flat_p2, flat_p1, flat_p0, flat_q0, flat_q1,

-                flat_q2;

-        filt = _mm_and_si128(_mm_subs_epi8(ps1, qs1), hev);

-        work_a = _mm_subs_epi8(qs0, ps0);

-        filt = _mm_adds_epi8(filt, work_a);

-        filt = _mm_adds_epi8(filt, work_a);

-        filt = _mm_adds_epi8(filt, work_a);

-        /* (vp9_filter + 3 * (qs0 - ps0)) & mask */

-        filt = _mm_and_si128(filt, mask);

-        filter1 = _mm_adds_epi8(filt, t4);

-        filter2 = _mm_adds_epi8(filt, t3);

-        /* Filter1 >> 3 */

-        work_a = _mm_cmpgt_epi8(zero, filter1);

-        filter1 = _mm_srli_epi16(filter1, 3);

-        work_a = _mm_and_si128(work_a, te0);

-        filter1 = _mm_and_si128(filter1, t1f);

-        filter1 = _mm_or_si128(filter1, work_a);

-        qs0 = _mm_xor_si128(_mm_subs_epi8(qs0, filter1), t80);

-        /* Filter2 >> 3 */

-        work_a = _mm_cmpgt_epi8(zero, filter2);

-        filter2 = _mm_srli_epi16(filter2, 3);

-        work_a = _mm_and_si128(work_a, te0);

-        filter2 = _mm_and_si128(filter2, t1f);

-        filter2 = _mm_or_si128(filter2, work_a);

-        ps0 = _mm_xor_si128(_mm_adds_epi8(ps0, filter2), t80);

-        /* filt >> 1 */

-        filt = _mm_adds_epi8(filter1, t1);

-        work_a = _mm_cmpgt_epi8(zero, filt);

-        filt = _mm_srli_epi16(filt, 1);

-        work_a = _mm_and_si128(work_a, t80);

-        filt = _mm_and_si128(filt, t7f);

-        filt = _mm_or_si128(filt, work_a);

-        filt = _mm_andnot_si128(hev, filt);

-        ps1 = _mm_xor_si128(_mm_adds_epi8(ps1, filt), t80);

-        qs1 = _mm_xor_si128(_mm_subs_epi8(qs1, filt), t80);

-        // loopfilter done

-        {

-            __m128i work;

-            work = _mm_max_epu8(

-                    _mm_or_si128(_mm_subs_epu8(p2, p0), _mm_subs_epu8(p0, p2)),

-                    _mm_or_si128(_mm_subs_epu8(q2, q0), _mm_subs_epu8(q0, q2)));

-            flat = _mm_max_epu8(work, flat);

-            work = _mm_max_epu8(

-                    _mm_or_si128(_mm_subs_epu8(p3, p0), _mm_subs_epu8(p0, p3)),

-                    _mm_or_si128(_mm_subs_epu8(q3, q0), _mm_subs_epu8(q0, q3)));

-            flat = _mm_max_epu8(work, flat);

-            work = _mm_max_epu8(

-                    _mm_or_si128(_mm_subs_epu8(p4, p0), _mm_subs_epu8(p0, p4)),

-                    _mm_or_si128(_mm_subs_epu8(q4, q0), _mm_subs_epu8(q0, q4)));

-            flat = _mm_subs_epu8(flat, one);

-            flat = _mm_cmpeq_epi8(flat, zero);

-            flat = _mm_and_si128(flat, mask);

-            p256_5 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                        (__m128d const *)(s - 6 * p)));

-            q256_5 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                        (__m128d const *)(s + 5 * p)));

-            p5 = _mm256_castsi256_si128(p256_5);

-            q5 = _mm256_castsi256_si128(q256_5);

-            flat2 = _mm_max_epu8(

-                    _mm_or_si128(_mm_subs_epu8(p5, p0), _mm_subs_epu8(p0, p5)),

-                    _mm_or_si128(_mm_subs_epu8(q5, q0), _mm_subs_epu8(q0, q5)));

-            flat2 = _mm_max_epu8(work, flat2);

-            p256_6 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                        (__m128d const *)(s - 7 * p)));

-            q256_6 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                        (__m128d const *)(s + 6 * p)));

-            p6 = _mm256_castsi256_si128(p256_6);

-            q6 = _mm256_castsi256_si128(q256_6);

-            work = _mm_max_epu8(

-                    _mm_or_si128(_mm_subs_epu8(p6, p0), _mm_subs_epu8(p0, p6)),

-                    _mm_or_si128(_mm_subs_epu8(q6, q0), _mm_subs_epu8(q0, q6)));

-            flat2 = _mm_max_epu8(work, flat2);

-            p256_7 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                        (__m128d const *)(s - 8 * p)));

-            q256_7 = _mm256_castpd_si256(_mm256_broadcast_pd(

-                                        (__m128d const *)(s + 7 * p)));

-            p7 = _mm256_castsi256_si128(p256_7);

-            q7 = _mm256_castsi256_si128(q256_7);

-            work = _mm_max_epu8(

-                    _mm_or_si128(_mm_subs_epu8(p7, p0), _mm_subs_epu8(p0, p7)),

-                    _mm_or_si128(_mm_subs_epu8(q7, q0), _mm_subs_epu8(q0, q7)));

-            flat2 = _mm_max_epu8(work, flat2);

-            flat2 = _mm_subs_epu8(flat2, one);

-            flat2 = _mm_cmpeq_epi8(flat2, zero);

-            flat2 = _mm_and_si128(flat2, flat);  // flat2 & flat & mask

-        }

-        // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-        // flat and wide flat calculations

-        {

-            const __m256i eight = _mm256_set1_epi16(8);

-            const __m256i four = _mm256_set1_epi16(4);

-            __m256i pixelFilter_p, pixelFilter_q, pixetFilter_p2p1p0,

-                    pixetFilter_q2q1q0, sum_p7, sum_q7, sum_p3, sum_q3, res_p,

-                    res_q;

-            const __m256i filter = _mm256_load_si256(

-                                  (__m256i const *)filt_loopfilter_avx2);

-            p256_7 = _mm256_shuffle_epi8(p256_7, filter);

-            p256_6 = _mm256_shuffle_epi8(p256_6, filter);

-            p256_5 = _mm256_shuffle_epi8(p256_5, filter);

-            p256_4 = _mm256_shuffle_epi8(p256_4, filter);

-            p256_3 = _mm256_shuffle_epi8(p256_3, filter);

-            p256_2 = _mm256_shuffle_epi8(p256_2, filter);

-            p256_1 = _mm256_shuffle_epi8(p256_1, filter);

-            p256_0 = _mm256_shuffle_epi8(p256_0, filter);

-            q256_0 = _mm256_shuffle_epi8(q256_0, filter);

-            q256_1 = _mm256_shuffle_epi8(q256_1, filter);

-            q256_2 = _mm256_shuffle_epi8(q256_2, filter);

-            q256_3 = _mm256_shuffle_epi8(q256_3, filter);

-            q256_4 = _mm256_shuffle_epi8(q256_4, filter);

-            q256_5 = _mm256_shuffle_epi8(q256_5, filter);

-            q256_6 = _mm256_shuffle_epi8(q256_6, filter);

-            q256_7 = _mm256_shuffle_epi8(q256_7, filter);

-            pixelFilter_p = _mm256_add_epi16(_mm256_add_epi16(p256_6, p256_5),

-                    _mm256_add_epi16(p256_4, p256_3));

-            pixelFilter_q = _mm256_add_epi16(_mm256_add_epi16(q256_6, q256_5),

-                    _mm256_add_epi16(q256_4, q256_3));

-            pixetFilter_p2p1p0 = _mm256_add_epi16(p256_0,

-                    _mm256_add_epi16(p256_2, p256_1));

-            pixelFilter_p = _mm256_add_epi16(pixelFilter_p, pixetFilter_p2p1p0);

-            pixetFilter_q2q1q0 = _mm256_add_epi16(q256_0,

-                    _mm256_add_epi16(q256_2, q256_1));

-            pixelFilter_q = _mm256_add_epi16(pixelFilter_q, pixetFilter_q2q1q0);

-            pixelFilter_p = _mm256_add_epi16(eight,

-                    _mm256_add_epi16(pixelFilter_p, pixelFilter_q));

-            pixetFilter_p2p1p0 = _mm256_add_epi16(four,

-                    _mm256_add_epi16(pixetFilter_p2p1p0, pixetFilter_q2q1q0));

-            res_p = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_p,

-                            _mm256_add_epi16(p256_7, p256_0)), 4);

-            flat2_p0 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

-                            168));

-            res_q = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_p,

-                            _mm256_add_epi16(q256_7, q256_0)), 4);

-            flat2_q0 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

-                            168));

-            res_p = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixetFilter_p2p1p0,

-                            _mm256_add_epi16(p256_3, p256_0)), 3);

-            flat_p0 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

-                            168));

-            res_q = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixetFilter_p2p1p0,

-                            _mm256_add_epi16(q256_3, q256_0)), 3);

-            flat_q0 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

-                            168));

-            sum_p7 = _mm256_add_epi16(p256_7, p256_7);

-            sum_q7 = _mm256_add_epi16(q256_7, q256_7);

-            sum_p3 = _mm256_add_epi16(p256_3, p256_3);

-            sum_q3 = _mm256_add_epi16(q256_3, q256_3);

-            pixelFilter_q = _mm256_sub_epi16(pixelFilter_p, p256_6);

-            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_6);

-            res_p = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_p,

-                            _mm256_add_epi16(sum_p7, p256_1)), 4);

-            flat2_p1 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

-                            168));

-            res_q = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_q,

-                            _mm256_add_epi16(sum_q7, q256_1)), 4);

-            flat2_q1 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

-                            168));

-            pixetFilter_q2q1q0 = _mm256_sub_epi16(pixetFilter_p2p1p0, p256_2);

-            pixetFilter_p2p1p0 = _mm256_sub_epi16(pixetFilter_p2p1p0, q256_2);

-            res_p = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixetFilter_p2p1p0,

-                            _mm256_add_epi16(sum_p3, p256_1)), 3);

-            flat_p1 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

-                            168));

-            res_q = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixetFilter_q2q1q0,

-                            _mm256_add_epi16(sum_q3, q256_1)), 3);

-            flat_q1 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

-                            168));

-            sum_p7 = _mm256_add_epi16(sum_p7, p256_7);

-            sum_q7 = _mm256_add_epi16(sum_q7, q256_7);

-            sum_p3 = _mm256_add_epi16(sum_p3, p256_3);

-            sum_q3 = _mm256_add_epi16(sum_q3, q256_3);

-            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_5);

-            pixelFilter_q = _mm256_sub_epi16(pixelFilter_q, p256_5);

-            res_p = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_p,

-                            _mm256_add_epi16(sum_p7, p256_2)), 4);

-            flat2_p2 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

-                            168));

-            res_q = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_q,

-                            _mm256_add_epi16(sum_q7, q256_2)), 4);

-            flat2_q2 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

-                            168));

-            pixetFilter_p2p1p0 = _mm256_sub_epi16(pixetFilter_p2p1p0, q256_1);

-            pixetFilter_q2q1q0 = _mm256_sub_epi16(pixetFilter_q2q1q0, p256_1);

-            res_p = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixetFilter_p2p1p0,

-                            _mm256_add_epi16(sum_p3, p256_2)), 3);

-            flat_p2 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

-                            168));

-            res_q = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixetFilter_q2q1q0,

-                            _mm256_add_epi16(sum_q3, q256_2)), 3);

-            flat_q2 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

-                            168));

-            sum_p7 = _mm256_add_epi16(sum_p7, p256_7);

-            sum_q7 = _mm256_add_epi16(sum_q7, q256_7);

-            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_4);

-            pixelFilter_q = _mm256_sub_epi16(pixelFilter_q, p256_4);

-            res_p = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_p,

-                            _mm256_add_epi16(sum_p7, p256_3)), 4);

-            flat2_p3 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

-                            168));

-            res_q = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_q,

-                            _mm256_add_epi16(sum_q7, q256_3)), 4);

-            flat2_q3 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

-                            168));

-            sum_p7 = _mm256_add_epi16(sum_p7, p256_7);

-            sum_q7 = _mm256_add_epi16(sum_q7, q256_7);

-            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_3);

-            pixelFilter_q = _mm256_sub_epi16(pixelFilter_q, p256_3);

-            res_p = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_p,

-                            _mm256_add_epi16(sum_p7, p256_4)), 4);

-            flat2_p4 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

-                            168));

-            res_q = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_q,

-                            _mm256_add_epi16(sum_q7, q256_4)), 4);

-            flat2_q4 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

-                            168));

-            sum_p7 = _mm256_add_epi16(sum_p7, p256_7);

-            sum_q7 = _mm256_add_epi16(sum_q7, q256_7);

-            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_2);

-            pixelFilter_q = _mm256_sub_epi16(pixelFilter_q, p256_2);

-            res_p = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_p,

-                            _mm256_add_epi16(sum_p7, p256_5)), 4);

-            flat2_p5 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

-                            168));

-            res_q = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_q,

-                            _mm256_add_epi16(sum_q7, q256_5)), 4);

-            flat2_q5 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

-                            168));

-            sum_p7 = _mm256_add_epi16(sum_p7, p256_7);

-            sum_q7 = _mm256_add_epi16(sum_q7, q256_7);

-            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_1);

-            pixelFilter_q = _mm256_sub_epi16(pixelFilter_q, p256_1);

-            res_p = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_p,

-                            _mm256_add_epi16(sum_p7, p256_6)), 4);

-            flat2_p6 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

-                            168));

-            res_q = _mm256_srli_epi16(

-                    _mm256_add_epi16(pixelFilter_q,

-                            _mm256_add_epi16(sum_q7, q256_6)), 4);

-            flat2_q6 = _mm256_castsi256_si128(

-                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

-                            168));

-        }

-        // wide flat

-        // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-        p2 = _mm_andnot_si128(flat, p2);

-        flat_p2 = _mm_and_si128(flat, flat_p2);

-        p2 = _mm_or_si128(flat_p2, p2);

-        p1 = _mm_andnot_si128(flat, ps1);

-        flat_p1 = _mm_and_si128(flat, flat_p1);

-        p1 = _mm_or_si128(flat_p1, p1);

-        p0 = _mm_andnot_si128(flat, ps0);

-        flat_p0 = _mm_and_si128(flat, flat_p0);

-        p0 = _mm_or_si128(flat_p0, p0);

-        q0 = _mm_andnot_si128(flat, qs0);

-        flat_q0 = _mm_and_si128(flat, flat_q0);

-        q0 = _mm_or_si128(flat_q0, q0);

-        q1 = _mm_andnot_si128(flat, qs1);

-        flat_q1 = _mm_and_si128(flat, flat_q1);

-        q1 = _mm_or_si128(flat_q1, q1);

-        q2 = _mm_andnot_si128(flat, q2);

-        flat_q2 = _mm_and_si128(flat, flat_q2);

-        q2 = _mm_or_si128(flat_q2, q2);

-        p6 = _mm_andnot_si128(flat2, p6);

-        flat2_p6 = _mm_and_si128(flat2, flat2_p6);

-        p6 = _mm_or_si128(flat2_p6, p6);

-        _mm_storeu_si128((__m128i *) (s - 7 * p), p6);

-        p5 = _mm_andnot_si128(flat2, p5);

-        flat2_p5 = _mm_and_si128(flat2, flat2_p5);

-        p5 = _mm_or_si128(flat2_p5, p5);

-        _mm_storeu_si128((__m128i *) (s - 6 * p), p5);

-        p4 = _mm_andnot_si128(flat2, p4);

-        flat2_p4 = _mm_and_si128(flat2, flat2_p4);

-        p4 = _mm_or_si128(flat2_p4, p4);

-        _mm_storeu_si128((__m128i *) (s - 5 * p), p4);

-        p3 = _mm_andnot_si128(flat2, p3);

-        flat2_p3 = _mm_and_si128(flat2, flat2_p3);

-        p3 = _mm_or_si128(flat2_p3, p3);

-        _mm_storeu_si128((__m128i *) (s - 4 * p), p3);

-        p2 = _mm_andnot_si128(flat2, p2);

-        flat2_p2 = _mm_and_si128(flat2, flat2_p2);

-        p2 = _mm_or_si128(flat2_p2, p2);

-        _mm_storeu_si128((__m128i *) (s - 3 * p), p2);

-        p1 = _mm_andnot_si128(flat2, p1);

-        flat2_p1 = _mm_and_si128(flat2, flat2_p1);

-        p1 = _mm_or_si128(flat2_p1, p1);

-        _mm_storeu_si128((__m128i *) (s - 2 * p), p1);

-        p0 = _mm_andnot_si128(flat2, p0);

-        flat2_p0 = _mm_and_si128(flat2, flat2_p0);

-        p0 = _mm_or_si128(flat2_p0, p0);

-        _mm_storeu_si128((__m128i *) (s - 1 * p), p0);

-        q0 = _mm_andnot_si128(flat2, q0);

-        flat2_q0 = _mm_and_si128(flat2, flat2_q0);

-        q0 = _mm_or_si128(flat2_q0, q0);

-        _mm_storeu_si128((__m128i *) (s - 0 * p), q0);

-        q1 = _mm_andnot_si128(flat2, q1);

-        flat2_q1 = _mm_and_si128(flat2, flat2_q1);

-        q1 = _mm_or_si128(flat2_q1, q1);

-        _mm_storeu_si128((__m128i *) (s + 1 * p), q1);

-        q2 = _mm_andnot_si128(flat2, q2);

-        flat2_q2 = _mm_and_si128(flat2, flat2_q2);

-        q2 = _mm_or_si128(flat2_q2, q2);

-        _mm_storeu_si128((__m128i *) (s + 2 * p), q2);

-        q3 = _mm_andnot_si128(flat2, q3);

-        flat2_q3 = _mm_and_si128(flat2, flat2_q3);

-        q3 = _mm_or_si128(flat2_q3, q3);

-        _mm_storeu_si128((__m128i *) (s + 3 * p), q3);

-        q4 = _mm_andnot_si128(flat2, q4);

-        flat2_q4 = _mm_and_si128(flat2, flat2_q4);

-        q4 = _mm_or_si128(flat2_q4, q4);

-        _mm_storeu_si128((__m128i *) (s + 4 * p), q4);

-        q5 = _mm_andnot_si128(flat2, q5);

-        flat2_q5 = _mm_and_si128(flat2, flat2_q5);

-        q5 = _mm_or_si128(flat2_q5, q5);

-        _mm_storeu_si128((__m128i *) (s + 5 * p), q5);

-        q6 = _mm_andnot_si128(flat2, q6);

-        flat2_q6 = _mm_and_si128(flat2, flat2_q6);

-        q6 = _mm_or_si128(flat2_q6, q6);

-        _mm_storeu_si128((__m128i *) (s + 6 * p), q6);

-    }

-}

-void vp9_lpf_horizontal_16_avx2(unsigned char *s, int p,

-        const unsigned char *_blimit, const unsigned char *_limit,

-        const unsigned char *_thresh, int count) {

-    if (count == 1)

-        mb_lpf_horizontal_edge_w_avx2_8(s, p, _blimit, _limit, _thresh);

-    else

-        mb_lpf_horizontal_edge_w_avx2_16(s, p, _blimit, _limit, _thresh);

-}

--- a/vp9/common/x86/vp9_loopfilter_intrin_sse2.c

+++ /dev/null

@@ -1,1587 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include <emmintrin.h>  // SSE2

-#include "./vp9_rtcd.h"

-#include "vp9/common/vp9_loopfilter.h"

-#include "vpx_ports/emmintrin_compat.h"

-static INLINE __m128i abs_diff(__m128i a, __m128i b) {

-  return _mm_or_si128(_mm_subs_epu8(a, b), _mm_subs_epu8(b, a));

-}

-static void mb_lpf_horizontal_edge_w_sse2_8(unsigned char *s,

-                                            int p,

-                                            const unsigned char *_blimit,

-                                            const unsigned char *_limit,

-                                            const unsigned char *_thresh) {

-  const __m128i zero = _mm_set1_epi16(0);

-  const __m128i one = _mm_set1_epi8(1);

-  const __m128i blimit = _mm_load_si128((const __m128i *)_blimit);

-  const __m128i limit = _mm_load_si128((const __m128i *)_limit);

-  const __m128i thresh = _mm_load_si128((const __m128i *)_thresh);

-  __m128i mask, hev, flat, flat2;

-  __m128i q7p7, q6p6, q5p5, q4p4, q3p3, q2p2, q1p1, q0p0, p0q0, p1q1;

-  __m128i abs_p1p0;

-  q4p4 = _mm_loadl_epi64((__m128i *)(s - 5 * p));

-  q4p4 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q4p4),

-                                       (__m64 *)(s + 4 * p)));

-  q3p3 = _mm_loadl_epi64((__m128i *)(s - 4 * p));

-  q3p3 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q3p3),

-                                       (__m64 *)(s + 3 * p)));

-  q2p2 = _mm_loadl_epi64((__m128i *)(s - 3 * p));

-  q2p2 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q2p2),

-                                       (__m64 *)(s + 2 * p)));

-  q1p1 = _mm_loadl_epi64((__m128i *)(s - 2 * p));

-  q1p1 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q1p1),

-                                       (__m64 *)(s + 1 * p)));

-  p1q1 = _mm_shuffle_epi32(q1p1, 78);

-  q0p0 = _mm_loadl_epi64((__m128i *)(s - 1 * p));

-  q0p0 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q0p0),

-                                       (__m64 *)(s - 0 * p)));

-  p0q0 = _mm_shuffle_epi32(q0p0, 78);

-  {

-    __m128i abs_p1q1, abs_p0q0, abs_q1q0, fe, ff, work;

-    abs_p1p0 = abs_diff(q1p1, q0p0);

-    abs_q1q0 =  _mm_srli_si128(abs_p1p0, 8);

-    fe = _mm_set1_epi8(0xfe);

-    ff = _mm_cmpeq_epi8(abs_p1p0, abs_p1p0);

-    abs_p0q0 = abs_diff(q0p0, p0q0);

-    abs_p1q1 = abs_diff(q1p1, p1q1);

-    flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

-    hev = _mm_subs_epu8(flat, thresh);

-    hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

-    abs_p0q0 =_mm_adds_epu8(abs_p0q0, abs_p0q0);

-    abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

-    mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

-    mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

-    // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

-    mask = _mm_max_epu8(abs_p1p0, mask);

-    // mask |= (abs(p1 - p0) > limit) * -1;

-    // mask |= (abs(q1 - q0) > limit) * -1;

-    work = _mm_max_epu8(abs_diff(q2p2, q1p1),

-                        abs_diff(q3p3, q2p2));

-    mask = _mm_max_epu8(work, mask);

-    mask = _mm_max_epu8(mask, _mm_srli_si128(mask, 8));

-    mask = _mm_subs_epu8(mask, limit);

-    mask = _mm_cmpeq_epi8(mask, zero);

-  }

-  // lp filter

-  {

-    const __m128i t4 = _mm_set1_epi8(4);

-    const __m128i t3 = _mm_set1_epi8(3);

-    const __m128i t80 = _mm_set1_epi8(0x80);

-    const __m128i t1 = _mm_set1_epi16(0x1);

-    __m128i qs1ps1 = _mm_xor_si128(q1p1, t80);

-    __m128i qs0ps0 = _mm_xor_si128(q0p0, t80);

-    __m128i qs0 = _mm_xor_si128(p0q0, t80);

-    __m128i qs1 = _mm_xor_si128(p1q1, t80);

-    __m128i filt;

-    __m128i work_a;

-    __m128i filter1, filter2;

-    __m128i flat2_q6p6, flat2_q5p5, flat2_q4p4, flat2_q3p3, flat2_q2p2;

-    __m128i flat2_q1p1, flat2_q0p0, flat_q2p2, flat_q1p1, flat_q0p0;

-    filt = _mm_and_si128(_mm_subs_epi8(qs1ps1, qs1), hev);

-    work_a = _mm_subs_epi8(qs0, qs0ps0);

-    filt = _mm_adds_epi8(filt, work_a);

-    filt = _mm_adds_epi8(filt, work_a);

-    filt = _mm_adds_epi8(filt, work_a);

-    // (vp9_filter + 3 * (qs0 - ps0)) & mask

-    filt = _mm_and_si128(filt, mask);

-    filter1 = _mm_adds_epi8(filt, t4);

-    filter2 = _mm_adds_epi8(filt, t3);

-    filter1 = _mm_unpacklo_epi8(zero, filter1);

-    filter1 = _mm_srai_epi16(filter1, 0xB);

-    filter2 = _mm_unpacklo_epi8(zero, filter2);

-    filter2 = _mm_srai_epi16(filter2, 0xB);

-    // Filter1 >> 3

-    filt = _mm_packs_epi16(filter2, _mm_subs_epi16(zero, filter1));

-    qs0ps0 = _mm_xor_si128(_mm_adds_epi8(qs0ps0, filt), t80);

-    // filt >> 1

-    filt = _mm_adds_epi16(filter1, t1);

-    filt = _mm_srai_epi16(filt, 1);

-    filt = _mm_andnot_si128(_mm_srai_epi16(_mm_unpacklo_epi8(zero, hev), 0x8),

-                            filt);

-    filt = _mm_packs_epi16(filt, _mm_subs_epi16(zero, filt));

-    qs1ps1 = _mm_xor_si128(_mm_adds_epi8(qs1ps1, filt), t80);

-    // loopfilter done

-    {

-      __m128i work;

-      flat = _mm_max_epu8(abs_diff(q2p2, q0p0), abs_diff(q3p3, q0p0));

-      flat = _mm_max_epu8(abs_p1p0, flat);

-      flat = _mm_max_epu8(flat, _mm_srli_si128(flat, 8));

-      flat = _mm_subs_epu8(flat, one);

-      flat = _mm_cmpeq_epi8(flat, zero);

-      flat = _mm_and_si128(flat, mask);

-      q5p5 = _mm_loadl_epi64((__m128i *)(s - 6 * p));

-      q5p5 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q5p5),

-                                           (__m64 *)(s + 5 * p)));

-      q6p6 = _mm_loadl_epi64((__m128i *)(s - 7 * p));

-      q6p6 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q6p6),

-                                           (__m64 *)(s + 6 * p)));

-      flat2 = _mm_max_epu8(abs_diff(q4p4, q0p0), abs_diff(q5p5, q0p0));

-      q7p7 = _mm_loadl_epi64((__m128i *)(s - 8 * p));

-      q7p7 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q7p7),

-                                           (__m64 *)(s + 7 * p)));

-      work = _mm_max_epu8(abs_diff(q6p6, q0p0), abs_diff(q7p7, q0p0));

-      flat2 = _mm_max_epu8(work, flat2);

-      flat2 = _mm_max_epu8(flat2, _mm_srli_si128(flat2, 8));

-      flat2 = _mm_subs_epu8(flat2, one);

-      flat2 = _mm_cmpeq_epi8(flat2, zero);

-      flat2 = _mm_and_si128(flat2, flat);  // flat2 & flat & mask

-    }

-    // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-    // flat and wide flat calculations

-    {

-      const __m128i eight = _mm_set1_epi16(8);

-      const __m128i four = _mm_set1_epi16(4);

-      __m128i p7_16, p6_16, p5_16, p4_16, p3_16, p2_16, p1_16, p0_16;

-      __m128i q7_16, q6_16, q5_16, q4_16, q3_16, q2_16, q1_16, q0_16;

-      __m128i pixelFilter_p, pixelFilter_q;

-      __m128i pixetFilter_p2p1p0, pixetFilter_q2q1q0;

-      __m128i sum_p7, sum_q7, sum_p3, sum_q3, res_p, res_q;

-      p7_16 = _mm_unpacklo_epi8(q7p7, zero);;

-      p6_16 = _mm_unpacklo_epi8(q6p6, zero);

-      p5_16 = _mm_unpacklo_epi8(q5p5, zero);

-      p4_16 = _mm_unpacklo_epi8(q4p4, zero);

-      p3_16 = _mm_unpacklo_epi8(q3p3, zero);

-      p2_16 = _mm_unpacklo_epi8(q2p2, zero);

-      p1_16 = _mm_unpacklo_epi8(q1p1, zero);

-      p0_16 = _mm_unpacklo_epi8(q0p0, zero);

-      q0_16 = _mm_unpackhi_epi8(q0p0, zero);

-      q1_16 = _mm_unpackhi_epi8(q1p1, zero);

-      q2_16 = _mm_unpackhi_epi8(q2p2, zero);

-      q3_16 = _mm_unpackhi_epi8(q3p3, zero);

-      q4_16 = _mm_unpackhi_epi8(q4p4, zero);

-      q5_16 = _mm_unpackhi_epi8(q5p5, zero);

-      q6_16 = _mm_unpackhi_epi8(q6p6, zero);

-      q7_16 = _mm_unpackhi_epi8(q7p7, zero);

-      pixelFilter_p = _mm_add_epi16(_mm_add_epi16(p6_16, p5_16),

-                                    _mm_add_epi16(p4_16, p3_16));

-      pixelFilter_q = _mm_add_epi16(_mm_add_epi16(q6_16, q5_16),

-                                    _mm_add_epi16(q4_16, q3_16));

-      pixetFilter_p2p1p0 = _mm_add_epi16(p0_16, _mm_add_epi16(p2_16, p1_16));

-      pixelFilter_p =  _mm_add_epi16(pixelFilter_p, pixetFilter_p2p1p0);

-      pixetFilter_q2q1q0 = _mm_add_epi16(q0_16, _mm_add_epi16(q2_16, q1_16));

-      pixelFilter_q =  _mm_add_epi16(pixelFilter_q, pixetFilter_q2q1q0);

-      pixelFilter_p =  _mm_add_epi16(eight, _mm_add_epi16(pixelFilter_p,

-                                                         pixelFilter_q));

-      pixetFilter_p2p1p0 =   _mm_add_epi16(four,

-                                           _mm_add_epi16(pixetFilter_p2p1p0,

-                                                         pixetFilter_q2q1q0));

-      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                                           _mm_add_epi16(p7_16, p0_16)), 4);

-      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                                           _mm_add_epi16(q7_16, q0_16)), 4);

-      flat2_q0p0 = _mm_packus_epi16(res_p, res_q);

-      res_p = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

-                                           _mm_add_epi16(p3_16, p0_16)), 3);

-      res_q = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

-                                           _mm_add_epi16(q3_16, q0_16)), 3);

-      flat_q0p0 = _mm_packus_epi16(res_p, res_q);

-      sum_p7 = _mm_add_epi16(p7_16, p7_16);

-      sum_q7 = _mm_add_epi16(q7_16, q7_16);

-      sum_p3 = _mm_add_epi16(p3_16, p3_16);

-      sum_q3 = _mm_add_epi16(q3_16, q3_16);

-      pixelFilter_q = _mm_sub_epi16(pixelFilter_p, p6_16);

-      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q6_16);

-      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                             _mm_add_epi16(sum_p7, p1_16)), 4);

-      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                             _mm_add_epi16(sum_q7, q1_16)), 4);

-      flat2_q1p1 = _mm_packus_epi16(res_p, res_q);

-      pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_p2p1p0, p2_16);

-      pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q2_16);

-      res_p = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

-                             _mm_add_epi16(sum_p3, p1_16)), 3);

-      res_q = _mm_srli_epi16(_mm_add_epi16(pixetFilter_q2q1q0,

-                             _mm_add_epi16(sum_q3, q1_16)), 3);

-      flat_q1p1 = _mm_packus_epi16(res_p, res_q);

-      sum_p7 = _mm_add_epi16(sum_p7, p7_16);

-      sum_q7 = _mm_add_epi16(sum_q7, q7_16);

-      sum_p3 = _mm_add_epi16(sum_p3, p3_16);

-      sum_q3 = _mm_add_epi16(sum_q3, q3_16);

-      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q5_16);

-      pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p5_16);

-      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                             _mm_add_epi16(sum_p7, p2_16)), 4);

-      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                             _mm_add_epi16(sum_q7, q2_16)), 4);

-      flat2_q2p2 = _mm_packus_epi16(res_p, res_q);

-      pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q1_16);

-      pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_q2q1q0, p1_16);

-      res_p = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

-                                           _mm_add_epi16(sum_p3, p2_16)), 3);

-      res_q = _mm_srli_epi16(_mm_add_epi16(pixetFilter_q2q1q0,

-                                           _mm_add_epi16(sum_q3, q2_16)), 3);

-      flat_q2p2 = _mm_packus_epi16(res_p, res_q);

-      sum_p7 = _mm_add_epi16(sum_p7, p7_16);

-      sum_q7 = _mm_add_epi16(sum_q7, q7_16);

-      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q4_16);

-      pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p4_16);

-      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                             _mm_add_epi16(sum_p7, p3_16)), 4);

-      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                             _mm_add_epi16(sum_q7, q3_16)), 4);

-      flat2_q3p3 = _mm_packus_epi16(res_p, res_q);

-      sum_p7 = _mm_add_epi16(sum_p7, p7_16);

-      sum_q7 = _mm_add_epi16(sum_q7, q7_16);

-      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q3_16);

-      pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p3_16);

-      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                             _mm_add_epi16(sum_p7, p4_16)), 4);

-      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                             _mm_add_epi16(sum_q7, q4_16)), 4);

-      flat2_q4p4 = _mm_packus_epi16(res_p, res_q);

-      sum_p7 = _mm_add_epi16(sum_p7, p7_16);

-      sum_q7 = _mm_add_epi16(sum_q7, q7_16);

-      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q2_16);

-      pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p2_16);

-      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                             _mm_add_epi16(sum_p7, p5_16)), 4);

-      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                             _mm_add_epi16(sum_q7, q5_16)), 4);

-      flat2_q5p5 = _mm_packus_epi16(res_p, res_q);

-      sum_p7 = _mm_add_epi16(sum_p7, p7_16);

-      sum_q7 = _mm_add_epi16(sum_q7, q7_16);

-      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q1_16);

-      pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p1_16);

-      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

-                             _mm_add_epi16(sum_p7, p6_16)), 4);

-      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

-                             _mm_add_epi16(sum_q7, q6_16)), 4);

-      flat2_q6p6 = _mm_packus_epi16(res_p, res_q);

-    }

-    // wide flat

-    // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-    flat = _mm_shuffle_epi32(flat, 68);

-    flat2 = _mm_shuffle_epi32(flat2, 68);

-    q2p2 = _mm_andnot_si128(flat, q2p2);

-    flat_q2p2 = _mm_and_si128(flat, flat_q2p2);

-    q2p2 = _mm_or_si128(q2p2, flat_q2p2);

-    qs1ps1 = _mm_andnot_si128(flat, qs1ps1);

-    flat_q1p1 = _mm_and_si128(flat, flat_q1p1);

-    q1p1 = _mm_or_si128(qs1ps1, flat_q1p1);

-    qs0ps0 = _mm_andnot_si128(flat, qs0ps0);

-    flat_q0p0 = _mm_and_si128(flat, flat_q0p0);

-    q0p0 = _mm_or_si128(qs0ps0, flat_q0p0);

-    q6p6 = _mm_andnot_si128(flat2, q6p6);

-    flat2_q6p6 = _mm_and_si128(flat2, flat2_q6p6);

-    q6p6 = _mm_or_si128(q6p6, flat2_q6p6);

-    _mm_storel_epi64((__m128i *)(s - 7 * p), q6p6);

-    _mm_storeh_pi((__m64 *)(s + 6 * p), _mm_castsi128_ps(q6p6));

-    q5p5 = _mm_andnot_si128(flat2, q5p5);

-    flat2_q5p5 = _mm_and_si128(flat2, flat2_q5p5);

-    q5p5 = _mm_or_si128(q5p5, flat2_q5p5);

-    _mm_storel_epi64((__m128i *)(s - 6 * p), q5p5);

-    _mm_storeh_pi((__m64 *)(s + 5 * p), _mm_castsi128_ps(q5p5));

-    q4p4 = _mm_andnot_si128(flat2, q4p4);

-    flat2_q4p4 = _mm_and_si128(flat2, flat2_q4p4);

-    q4p4 = _mm_or_si128(q4p4, flat2_q4p4);

-    _mm_storel_epi64((__m128i *)(s - 5 * p), q4p4);

-    _mm_storeh_pi((__m64 *)(s + 4 * p), _mm_castsi128_ps(q4p4));

-    q3p3 = _mm_andnot_si128(flat2, q3p3);

-    flat2_q3p3 = _mm_and_si128(flat2, flat2_q3p3);

-    q3p3 = _mm_or_si128(q3p3, flat2_q3p3);

-    _mm_storel_epi64((__m128i *)(s - 4 * p), q3p3);

-    _mm_storeh_pi((__m64 *)(s + 3 * p), _mm_castsi128_ps(q3p3));

-    q2p2 = _mm_andnot_si128(flat2, q2p2);

-    flat2_q2p2 = _mm_and_si128(flat2, flat2_q2p2);

-    q2p2 = _mm_or_si128(q2p2, flat2_q2p2);

-    _mm_storel_epi64((__m128i *)(s - 3 * p), q2p2);

-    _mm_storeh_pi((__m64 *)(s + 2 * p), _mm_castsi128_ps(q2p2));

-    q1p1 = _mm_andnot_si128(flat2, q1p1);

-    flat2_q1p1 = _mm_and_si128(flat2, flat2_q1p1);

-    q1p1 = _mm_or_si128(q1p1, flat2_q1p1);

-    _mm_storel_epi64((__m128i *)(s - 2 * p), q1p1);

-    _mm_storeh_pi((__m64 *)(s + 1 * p), _mm_castsi128_ps(q1p1));

-    q0p0 = _mm_andnot_si128(flat2, q0p0);

-    flat2_q0p0 = _mm_and_si128(flat2, flat2_q0p0);

-    q0p0 = _mm_or_si128(q0p0, flat2_q0p0);

-    _mm_storel_epi64((__m128i *)(s - 1 * p), q0p0);

-    _mm_storeh_pi((__m64 *)(s - 0 * p),  _mm_castsi128_ps(q0p0));

-  }

-}

-static INLINE __m128i filter_add2_sub2(const __m128i *const total,

-                                       const __m128i *const a1,

-                                       const __m128i *const a2,

-                                       const __m128i *const s1,

-                                       const __m128i *const s2) {

-  __m128i x = _mm_add_epi16(*a1, *total);

-  x = _mm_add_epi16(_mm_sub_epi16(x, _mm_add_epi16(*s1, *s2)), *a2);

-  return x;

-}

-static INLINE __m128i filter8_mask(const __m128i *const flat,

-                                   const __m128i *const other_filt,

-                                   const __m128i *const f8_lo,

-                                   const __m128i *const f8_hi) {

-  const __m128i f8 = _mm_packus_epi16(_mm_srli_epi16(*f8_lo, 3),

-                                      _mm_srli_epi16(*f8_hi, 3));

-  const __m128i result = _mm_and_si128(*flat, f8);

-  return _mm_or_si128(_mm_andnot_si128(*flat, *other_filt), result);

-}

-static INLINE __m128i filter16_mask(const __m128i *const flat,

-                                    const __m128i *const other_filt,

-                                    const __m128i *const f_lo,

-                                    const __m128i *const f_hi) {

-  const __m128i f = _mm_packus_epi16(_mm_srli_epi16(*f_lo, 4),

-                                     _mm_srli_epi16(*f_hi, 4));

-  const __m128i result = _mm_and_si128(*flat, f);

-  return _mm_or_si128(_mm_andnot_si128(*flat, *other_filt), result);

-}

-static void mb_lpf_horizontal_edge_w_sse2_16(unsigned char *s,

-                                             int p,

-                                             const unsigned char *_blimit,

-                                             const unsigned char *_limit,

-                                             const unsigned char *_thresh) {

-  const __m128i zero = _mm_set1_epi16(0);

-  const __m128i one = _mm_set1_epi8(1);

-  const __m128i blimit = _mm_load_si128((const __m128i *)_blimit);

-  const __m128i limit = _mm_load_si128((const __m128i *)_limit);

-  const __m128i thresh = _mm_load_si128((const __m128i *)_thresh);

-  __m128i mask, hev, flat, flat2;

-  __m128i p7, p6, p5;

-  __m128i p4, p3, p2, p1, p0, q0, q1, q2, q3, q4;

-  __m128i q5, q6, q7;

-  __m128i op2, op1, op0, oq0, oq1, oq2;

-  __m128i max_abs_p1p0q1q0;

-  p7 = _mm_loadu_si128((__m128i *)(s - 8 * p));

-  p6 = _mm_loadu_si128((__m128i *)(s - 7 * p));

-  p5 = _mm_loadu_si128((__m128i *)(s - 6 * p));

-  p4 = _mm_loadu_si128((__m128i *)(s - 5 * p));

-  p3 = _mm_loadu_si128((__m128i *)(s - 4 * p));

-  p2 = _mm_loadu_si128((__m128i *)(s - 3 * p));

-  p1 = _mm_loadu_si128((__m128i *)(s - 2 * p));

-  p0 = _mm_loadu_si128((__m128i *)(s - 1 * p));

-  q0 = _mm_loadu_si128((__m128i *)(s - 0 * p));

-  q1 = _mm_loadu_si128((__m128i *)(s + 1 * p));

-  q2 = _mm_loadu_si128((__m128i *)(s + 2 * p));

-  q3 = _mm_loadu_si128((__m128i *)(s + 3 * p));

-  q4 = _mm_loadu_si128((__m128i *)(s + 4 * p));

-  q5 = _mm_loadu_si128((__m128i *)(s + 5 * p));

-  q6 = _mm_loadu_si128((__m128i *)(s + 6 * p));

-  q7 = _mm_loadu_si128((__m128i *)(s + 7 * p));

-  {

-    const __m128i abs_p1p0 = abs_diff(p1, p0);

-    const __m128i abs_q1q0 = abs_diff(q1, q0);

-    const __m128i fe = _mm_set1_epi8(0xfe);

-    const __m128i ff = _mm_cmpeq_epi8(zero, zero);

-    __m128i abs_p0q0 = abs_diff(p0, q0);

-    __m128i abs_p1q1 = abs_diff(p1, q1);

-    __m128i work;

-    max_abs_p1p0q1q0 = _mm_max_epu8(abs_p1p0, abs_q1q0);

-    abs_p0q0 =_mm_adds_epu8(abs_p0q0, abs_p0q0);

-    abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

-    mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

-    mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

-    // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

-    mask = _mm_max_epu8(max_abs_p1p0q1q0, mask);

-    // mask |= (abs(p1 - p0) > limit) * -1;

-    // mask |= (abs(q1 - q0) > limit) * -1;

-    work = _mm_max_epu8(abs_diff(p2, p1), abs_diff(p3, p2));

-    mask = _mm_max_epu8(work, mask);

-    work = _mm_max_epu8(abs_diff(q2, q1), abs_diff(q3, q2));

-    mask = _mm_max_epu8(work, mask);

-    mask = _mm_subs_epu8(mask, limit);

-    mask = _mm_cmpeq_epi8(mask, zero);

-  }

-  {

-    __m128i work;

-    work = _mm_max_epu8(abs_diff(p2, p0), abs_diff(q2, q0));

-    flat = _mm_max_epu8(work, max_abs_p1p0q1q0);

-    work = _mm_max_epu8(abs_diff(p3, p0), abs_diff(q3, q0));

-    flat = _mm_max_epu8(work, flat);

-    work = _mm_max_epu8(abs_diff(p4, p0), abs_diff(q4, q0));

-    flat = _mm_subs_epu8(flat, one);

-    flat = _mm_cmpeq_epi8(flat, zero);

-    flat = _mm_and_si128(flat, mask);

-    flat2 = _mm_max_epu8(abs_diff(p5, p0), abs_diff(q5, q0));

-    flat2 = _mm_max_epu8(work, flat2);

-    work = _mm_max_epu8(abs_diff(p6, p0), abs_diff(q6, q0));

-    flat2 = _mm_max_epu8(work, flat2);

-    work = _mm_max_epu8(abs_diff(p7, p0), abs_diff(q7, q0));

-    flat2 = _mm_max_epu8(work, flat2);

-    flat2 = _mm_subs_epu8(flat2, one);

-    flat2 = _mm_cmpeq_epi8(flat2, zero);

-    flat2 = _mm_and_si128(flat2, flat);  // flat2 & flat & mask

-  }

-  // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-  // filter4

-  {

-    const __m128i t4 = _mm_set1_epi8(4);

-    const __m128i t3 = _mm_set1_epi8(3);

-    const __m128i t80 = _mm_set1_epi8(0x80);

-    const __m128i te0 = _mm_set1_epi8(0xe0);

-    const __m128i t1f = _mm_set1_epi8(0x1f);

-    const __m128i t1 = _mm_set1_epi8(0x1);

-    const __m128i t7f = _mm_set1_epi8(0x7f);

-    const __m128i ff = _mm_cmpeq_epi8(t4, t4);

-    __m128i filt;

-    __m128i work_a;

-    __m128i filter1, filter2;

-    op1 = _mm_xor_si128(p1, t80);

-    op0 = _mm_xor_si128(p0, t80);

-    oq0 = _mm_xor_si128(q0, t80);

-    oq1 = _mm_xor_si128(q1, t80);

-    hev = _mm_subs_epu8(max_abs_p1p0q1q0, thresh);

-    hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

-    filt = _mm_and_si128(_mm_subs_epi8(op1, oq1), hev);

-    work_a = _mm_subs_epi8(oq0, op0);

-    filt = _mm_adds_epi8(filt, work_a);

-    filt = _mm_adds_epi8(filt, work_a);

-    filt = _mm_adds_epi8(filt, work_a);

-    // (vp9_filter + 3 * (qs0 - ps0)) & mask

-    filt = _mm_and_si128(filt, mask);

-    filter1 = _mm_adds_epi8(filt, t4);

-    filter2 = _mm_adds_epi8(filt, t3);

-    // Filter1 >> 3

-    work_a = _mm_cmpgt_epi8(zero, filter1);

-    filter1 = _mm_srli_epi16(filter1, 3);

-    work_a = _mm_and_si128(work_a, te0);

-    filter1 = _mm_and_si128(filter1, t1f);

-    filter1 = _mm_or_si128(filter1, work_a);

-    oq0 = _mm_xor_si128(_mm_subs_epi8(oq0, filter1), t80);

-    // Filter2 >> 3

-    work_a = _mm_cmpgt_epi8(zero, filter2);

-    filter2 = _mm_srli_epi16(filter2, 3);

-    work_a = _mm_and_si128(work_a, te0);

-    filter2 = _mm_and_si128(filter2, t1f);

-    filter2 = _mm_or_si128(filter2, work_a);

-    op0 = _mm_xor_si128(_mm_adds_epi8(op0, filter2), t80);

-    // filt >> 1

-    filt = _mm_adds_epi8(filter1, t1);

-    work_a = _mm_cmpgt_epi8(zero, filt);

-    filt = _mm_srli_epi16(filt, 1);

-    work_a = _mm_and_si128(work_a, t80);

-    filt = _mm_and_si128(filt, t7f);

-    filt = _mm_or_si128(filt, work_a);

-    filt = _mm_andnot_si128(hev, filt);

-    op1 = _mm_xor_si128(_mm_adds_epi8(op1, filt), t80);

-    oq1 = _mm_xor_si128(_mm_subs_epi8(oq1, filt), t80);

-    // loopfilter done

-    // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-    // filter8

-    {

-      const __m128i four = _mm_set1_epi16(4);

-      const __m128i p3_lo = _mm_unpacklo_epi8(p3, zero);

-      const __m128i p2_lo = _mm_unpacklo_epi8(p2, zero);

-      const __m128i p1_lo = _mm_unpacklo_epi8(p1, zero);

-      const __m128i p0_lo = _mm_unpacklo_epi8(p0, zero);

-      const __m128i q0_lo = _mm_unpacklo_epi8(q0, zero);

-      const __m128i q1_lo = _mm_unpacklo_epi8(q1, zero);

-      const __m128i q2_lo = _mm_unpacklo_epi8(q2, zero);

-      const __m128i q3_lo = _mm_unpacklo_epi8(q3, zero);

-      const __m128i p3_hi = _mm_unpackhi_epi8(p3, zero);

-      const __m128i p2_hi = _mm_unpackhi_epi8(p2, zero);

-      const __m128i p1_hi = _mm_unpackhi_epi8(p1, zero);

-      const __m128i p0_hi = _mm_unpackhi_epi8(p0, zero);

-      const __m128i q0_hi = _mm_unpackhi_epi8(q0, zero);

-      const __m128i q1_hi = _mm_unpackhi_epi8(q1, zero);

-      const __m128i q2_hi = _mm_unpackhi_epi8(q2, zero);

-      const __m128i q3_hi = _mm_unpackhi_epi8(q3, zero);

-      __m128i f8_lo, f8_hi;

-      f8_lo = _mm_add_epi16(_mm_add_epi16(p3_lo, four),

-                            _mm_add_epi16(p3_lo, p2_lo));

-      f8_lo = _mm_add_epi16(_mm_add_epi16(p3_lo, f8_lo),

-                            _mm_add_epi16(p2_lo, p1_lo));

-      f8_lo = _mm_add_epi16(_mm_add_epi16(p0_lo, q0_lo), f8_lo);

-      f8_hi = _mm_add_epi16(_mm_add_epi16(p3_hi, four),

-                            _mm_add_epi16(p3_hi, p2_hi));

-      f8_hi = _mm_add_epi16(_mm_add_epi16(p3_hi, f8_hi),

-                            _mm_add_epi16(p2_hi, p1_hi));

-      f8_hi = _mm_add_epi16(_mm_add_epi16(p0_hi, q0_hi), f8_hi);

-      op2 = filter8_mask(&flat, &p2, &f8_lo, &f8_hi);

-      f8_lo = filter_add2_sub2(&f8_lo, &q1_lo, &p1_lo, &p2_lo, &p3_lo);

-      f8_hi = filter_add2_sub2(&f8_hi, &q1_hi, &p1_hi, &p2_hi, &p3_hi);

-      op1 = filter8_mask(&flat, &op1, &f8_lo, &f8_hi);

-      f8_lo = filter_add2_sub2(&f8_lo, &q2_lo, &p0_lo, &p1_lo, &p3_lo);

-      f8_hi = filter_add2_sub2(&f8_hi, &q2_hi, &p0_hi, &p1_hi, &p3_hi);

-      op0 = filter8_mask(&flat, &op0, &f8_lo, &f8_hi);

-      f8_lo = filter_add2_sub2(&f8_lo, &q3_lo, &q0_lo, &p0_lo, &p3_lo);

-      f8_hi = filter_add2_sub2(&f8_hi, &q3_hi, &q0_hi, &p0_hi, &p3_hi);

-      oq0 = filter8_mask(&flat, &oq0, &f8_lo, &f8_hi);

-      f8_lo = filter_add2_sub2(&f8_lo, &q3_lo, &q1_lo, &q0_lo, &p2_lo);

-      f8_hi = filter_add2_sub2(&f8_hi, &q3_hi, &q1_hi, &q0_hi, &p2_hi);

-      oq1 = filter8_mask(&flat, &oq1, &f8_lo, &f8_hi);

-      f8_lo = filter_add2_sub2(&f8_lo, &q3_lo, &q2_lo, &q1_lo, &p1_lo);

-      f8_hi = filter_add2_sub2(&f8_hi, &q3_hi, &q2_hi, &q1_hi, &p1_hi);

-      oq2 = filter8_mask(&flat, &q2, &f8_lo, &f8_hi);

-    }

-    // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-    // wide flat calculations

-    {

-      const __m128i eight = _mm_set1_epi16(8);

-      const __m128i p7_lo = _mm_unpacklo_epi8(p7, zero);

-      const __m128i p6_lo = _mm_unpacklo_epi8(p6, zero);

-      const __m128i p5_lo = _mm_unpacklo_epi8(p5, zero);

-      const __m128i p4_lo = _mm_unpacklo_epi8(p4, zero);

-      const __m128i p3_lo = _mm_unpacklo_epi8(p3, zero);

-      const __m128i p2_lo = _mm_unpacklo_epi8(p2, zero);

-      const __m128i p1_lo = _mm_unpacklo_epi8(p1, zero);

-      const __m128i p0_lo = _mm_unpacklo_epi8(p0, zero);

-      const __m128i q0_lo = _mm_unpacklo_epi8(q0, zero);

-      const __m128i q1_lo = _mm_unpacklo_epi8(q1, zero);

-      const __m128i q2_lo = _mm_unpacklo_epi8(q2, zero);

-      const __m128i q3_lo = _mm_unpacklo_epi8(q3, zero);

-      const __m128i q4_lo = _mm_unpacklo_epi8(q4, zero);

-      const __m128i q5_lo = _mm_unpacklo_epi8(q5, zero);

-      const __m128i q6_lo = _mm_unpacklo_epi8(q6, zero);

-      const __m128i q7_lo = _mm_unpacklo_epi8(q7, zero);

-      const __m128i p7_hi = _mm_unpackhi_epi8(p7, zero);

-      const __m128i p6_hi = _mm_unpackhi_epi8(p6, zero);

-      const __m128i p5_hi = _mm_unpackhi_epi8(p5, zero);

-      const __m128i p4_hi = _mm_unpackhi_epi8(p4, zero);

-      const __m128i p3_hi = _mm_unpackhi_epi8(p3, zero);

-      const __m128i p2_hi = _mm_unpackhi_epi8(p2, zero);

-      const __m128i p1_hi = _mm_unpackhi_epi8(p1, zero);

-      const __m128i p0_hi = _mm_unpackhi_epi8(p0, zero);

-      const __m128i q0_hi = _mm_unpackhi_epi8(q0, zero);

-      const __m128i q1_hi = _mm_unpackhi_epi8(q1, zero);

-      const __m128i q2_hi = _mm_unpackhi_epi8(q2, zero);

-      const __m128i q3_hi = _mm_unpackhi_epi8(q3, zero);

-      const __m128i q4_hi = _mm_unpackhi_epi8(q4, zero);

-      const __m128i q5_hi = _mm_unpackhi_epi8(q5, zero);

-      const __m128i q6_hi = _mm_unpackhi_epi8(q6, zero);

-      const __m128i q7_hi = _mm_unpackhi_epi8(q7, zero);

-      __m128i f_lo;

-      __m128i f_hi;

-      f_lo = _mm_sub_epi16(_mm_slli_epi16(p7_lo, 3), p7_lo);  // p7 * 7

-      f_lo = _mm_add_epi16(_mm_slli_epi16(p6_lo, 1),

-                           _mm_add_epi16(p4_lo, f_lo));

-      f_lo = _mm_add_epi16(_mm_add_epi16(p3_lo, f_lo),

-                           _mm_add_epi16(p2_lo, p1_lo));

-      f_lo = _mm_add_epi16(_mm_add_epi16(p0_lo, q0_lo), f_lo);

-      f_lo = _mm_add_epi16(_mm_add_epi16(p5_lo, eight), f_lo);

-      f_hi = _mm_sub_epi16(_mm_slli_epi16(p7_hi, 3), p7_hi);  // p7 * 7

-      f_hi = _mm_add_epi16(_mm_slli_epi16(p6_hi, 1),

-                           _mm_add_epi16(p4_hi, f_hi));

-      f_hi = _mm_add_epi16(_mm_add_epi16(p3_hi, f_hi),

-                           _mm_add_epi16(p2_hi, p1_hi));

-      f_hi = _mm_add_epi16(_mm_add_epi16(p0_hi, q0_hi), f_hi);

-      f_hi = _mm_add_epi16(_mm_add_epi16(p5_hi, eight), f_hi);

-      p6 = filter16_mask(&flat2, &p6, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s - 7 * p), p6);

-      f_lo = filter_add2_sub2(&f_lo, &q1_lo, &p5_lo, &p6_lo, &p7_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q1_hi, &p5_hi, &p6_hi, &p7_hi);

-      p5 = filter16_mask(&flat2, &p5, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s - 6 * p), p5);

-      f_lo = filter_add2_sub2(&f_lo, &q2_lo, &p4_lo, &p5_lo, &p7_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q2_hi, &p4_hi, &p5_hi, &p7_hi);

-      p4 = filter16_mask(&flat2, &p4, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s - 5 * p), p4);

-      f_lo = filter_add2_sub2(&f_lo, &q3_lo, &p3_lo, &p4_lo, &p7_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q3_hi, &p3_hi, &p4_hi, &p7_hi);

-      p3 = filter16_mask(&flat2, &p3, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s - 4 * p), p3);

-      f_lo = filter_add2_sub2(&f_lo, &q4_lo, &p2_lo, &p3_lo, &p7_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q4_hi, &p2_hi, &p3_hi, &p7_hi);

-      op2 = filter16_mask(&flat2, &op2, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s - 3 * p), op2);

-      f_lo = filter_add2_sub2(&f_lo, &q5_lo, &p1_lo, &p2_lo, &p7_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q5_hi, &p1_hi, &p2_hi, &p7_hi);

-      op1 = filter16_mask(&flat2, &op1, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s - 2 * p), op1);

-      f_lo = filter_add2_sub2(&f_lo, &q6_lo, &p0_lo, &p1_lo, &p7_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q6_hi, &p0_hi, &p1_hi, &p7_hi);

-      op0 = filter16_mask(&flat2, &op0, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s - 1 * p), op0);

-      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q0_lo, &p0_lo, &p7_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q0_hi, &p0_hi, &p7_hi);

-      oq0 = filter16_mask(&flat2, &oq0, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s - 0 * p), oq0);

-      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q1_lo, &p6_lo, &q0_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q1_hi, &p6_hi, &q0_hi);

-      oq1 = filter16_mask(&flat2, &oq1, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s + 1 * p), oq1);

-      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q2_lo, &p5_lo, &q1_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q2_hi, &p5_hi, &q1_hi);

-      oq2 = filter16_mask(&flat2, &oq2, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s + 2 * p), oq2);

-      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q3_lo, &p4_lo, &q2_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q3_hi, &p4_hi, &q2_hi);

-      q3 = filter16_mask(&flat2, &q3, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s + 3 * p), q3);

-      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q4_lo, &p3_lo, &q3_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q4_hi, &p3_hi, &q3_hi);

-      q4 = filter16_mask(&flat2, &q4, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s + 4 * p), q4);

-      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q5_lo, &p2_lo, &q4_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q5_hi, &p2_hi, &q4_hi);

-      q5 = filter16_mask(&flat2, &q5, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s + 5 * p), q5);

-      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q6_lo, &p1_lo, &q5_lo);

-      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q6_hi, &p1_hi, &q5_hi);

-      q6 = filter16_mask(&flat2, &q6, &f_lo, &f_hi);

-      _mm_storeu_si128((__m128i *)(s + 6 * p), q6);

-    }

-    // wide flat

-    // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-  }

-}

-// TODO(yunqingwang): remove count and call these 2 functions(8 or 16) directly.

-void vp9_lpf_horizontal_16_sse2(unsigned char *s, int p,

-                                const unsigned char *_blimit,

-                                const unsigned char *_limit,

-                                const unsigned char *_thresh, int count) {

-  if (count == 1)

-    mb_lpf_horizontal_edge_w_sse2_8(s, p, _blimit, _limit, _thresh);

-  else

-    mb_lpf_horizontal_edge_w_sse2_16(s, p, _blimit, _limit, _thresh);

-}

-void vp9_lpf_horizontal_8_sse2(unsigned char *s, int p,

-                               const unsigned char *_blimit,

-                               const unsigned char *_limit,

-                               const unsigned char *_thresh, int count) {

-  DECLARE_ALIGNED(16, unsigned char, flat_op2[16]);

-  DECLARE_ALIGNED(16, unsigned char, flat_op1[16]);

-  DECLARE_ALIGNED(16, unsigned char, flat_op0[16]);

-  DECLARE_ALIGNED(16, unsigned char, flat_oq2[16]);

-  DECLARE_ALIGNED(16, unsigned char, flat_oq1[16]);

-  DECLARE_ALIGNED(16, unsigned char, flat_oq0[16]);

-  const __m128i zero = _mm_set1_epi16(0);

-  const __m128i blimit = _mm_load_si128((const __m128i *)_blimit);

-  const __m128i limit = _mm_load_si128((const __m128i *)_limit);

-  const __m128i thresh = _mm_load_si128((const __m128i *)_thresh);

-  __m128i mask, hev, flat;

-  __m128i p3, p2, p1, p0, q0, q1, q2, q3;

-  __m128i q3p3, q2p2, q1p1, q0p0, p1q1, p0q0;

-  (void)count;

-  q3p3 = _mm_unpacklo_epi64(_mm_loadl_epi64((__m128i *)(s - 4 * p)),

-                            _mm_loadl_epi64((__m128i *)(s + 3 * p)));

-  q2p2 = _mm_unpacklo_epi64(_mm_loadl_epi64((__m128i *)(s - 3 * p)),

-                            _mm_loadl_epi64((__m128i *)(s + 2 * p)));

-  q1p1 = _mm_unpacklo_epi64(_mm_loadl_epi64((__m128i *)(s - 2 * p)),

-                            _mm_loadl_epi64((__m128i *)(s + 1 * p)));

-  q0p0 = _mm_unpacklo_epi64(_mm_loadl_epi64((__m128i *)(s - 1 * p)),

-                            _mm_loadl_epi64((__m128i *)(s - 0 * p)));

-  p1q1 = _mm_shuffle_epi32(q1p1, 78);

-  p0q0 = _mm_shuffle_epi32(q0p0, 78);

-  {

-    // filter_mask and hev_mask

-    const __m128i one = _mm_set1_epi8(1);

-    const __m128i fe = _mm_set1_epi8(0xfe);

-    const __m128i ff = _mm_cmpeq_epi8(fe, fe);

-    __m128i abs_p1q1, abs_p0q0, abs_q1q0, abs_p1p0, work;

-    abs_p1p0 = abs_diff(q1p1, q0p0);

-    abs_q1q0 =  _mm_srli_si128(abs_p1p0, 8);

-    abs_p0q0 = abs_diff(q0p0, p0q0);

-    abs_p1q1 = abs_diff(q1p1, p1q1);

-    flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

-    hev = _mm_subs_epu8(flat, thresh);

-    hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

-    abs_p0q0 =_mm_adds_epu8(abs_p0q0, abs_p0q0);

-    abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

-    mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

-    mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

-    // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

-    mask = _mm_max_epu8(abs_p1p0, mask);

-    // mask |= (abs(p1 - p0) > limit) * -1;

-    // mask |= (abs(q1 - q0) > limit) * -1;

-    work = _mm_max_epu8(abs_diff(q2p2, q1p1),

-                        abs_diff(q3p3, q2p2));

-    mask = _mm_max_epu8(work, mask);

-    mask = _mm_max_epu8(mask, _mm_srli_si128(mask, 8));

-    mask = _mm_subs_epu8(mask, limit);

-    mask = _mm_cmpeq_epi8(mask, zero);

-    // flat_mask4

-    flat = _mm_max_epu8(abs_diff(q2p2, q0p0),

-                        abs_diff(q3p3, q0p0));

-    flat = _mm_max_epu8(abs_p1p0, flat);

-    flat = _mm_max_epu8(flat, _mm_srli_si128(flat, 8));

-    flat = _mm_subs_epu8(flat, one);

-    flat = _mm_cmpeq_epi8(flat, zero);

-    flat = _mm_and_si128(flat, mask);

-  }

-  {

-    const __m128i four = _mm_set1_epi16(4);

-    unsigned char *src = s;

-    {

-      __m128i workp_a, workp_b, workp_shft;

-      p3 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 4 * p)), zero);

-      p2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 3 * p)), zero);

-      p1 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 2 * p)), zero);

-      p0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 1 * p)), zero);

-      q0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 0 * p)), zero);

-      q1 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 1 * p)), zero);

-      q2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 2 * p)), zero);

-      q3 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 3 * p)), zero);

-      workp_a = _mm_add_epi16(_mm_add_epi16(p3, p3), _mm_add_epi16(p2, p1));

-      workp_a = _mm_add_epi16(_mm_add_epi16(workp_a, four), p0);

-      workp_b = _mm_add_epi16(_mm_add_epi16(q0, p2), p3);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_op2[0],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      workp_b = _mm_add_epi16(_mm_add_epi16(q0, q1), p1);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_op1[0],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q2);

-      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p1), p0);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_op0[0],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q3);

-      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p0), q0);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_oq0[0],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p2), q3);

-      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q0), q1);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_oq1[0],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p1), q3);

-      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q1), q2);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_oq2[0],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-    }

-  }

-  // lp filter

-  {

-    const __m128i t4 = _mm_set1_epi8(4);

-    const __m128i t3 = _mm_set1_epi8(3);

-    const __m128i t80 = _mm_set1_epi8(0x80);

-    const __m128i t1 = _mm_set1_epi8(0x1);

-    const __m128i ps1 = _mm_xor_si128(_mm_loadl_epi64((__m128i *)(s - 2 * p)),

-                                      t80);

-    const __m128i ps0 = _mm_xor_si128(_mm_loadl_epi64((__m128i *)(s - 1 * p)),

-                                      t80);

-    const __m128i qs0 = _mm_xor_si128(_mm_loadl_epi64((__m128i *)(s + 0 * p)),

-                                      t80);

-    const __m128i qs1 = _mm_xor_si128(_mm_loadl_epi64((__m128i *)(s + 1 * p)),

-                                      t80);

-    __m128i filt;

-    __m128i work_a;

-    __m128i filter1, filter2;

-    filt = _mm_and_si128(_mm_subs_epi8(ps1, qs1), hev);

-    work_a = _mm_subs_epi8(qs0, ps0);

-    filt = _mm_adds_epi8(filt, work_a);

-    filt = _mm_adds_epi8(filt, work_a);

-    filt = _mm_adds_epi8(filt, work_a);

-    // (vp9_filter + 3 * (qs0 - ps0)) & mask

-    filt = _mm_and_si128(filt, mask);

-    filter1 = _mm_adds_epi8(filt, t4);

-    filter2 = _mm_adds_epi8(filt, t3);

-    // Filter1 >> 3

-    filter1 = _mm_unpacklo_epi8(zero, filter1);

-    filter1 = _mm_srai_epi16(filter1, 11);

-    filter1 = _mm_packs_epi16(filter1, filter1);

-    // Filter2 >> 3

-    filter2 = _mm_unpacklo_epi8(zero, filter2);

-    filter2 = _mm_srai_epi16(filter2, 11);

-    filter2 = _mm_packs_epi16(filter2, zero);

-    // filt >> 1

-    filt = _mm_adds_epi8(filter1, t1);

-    filt = _mm_unpacklo_epi8(zero, filt);

-    filt = _mm_srai_epi16(filt, 9);

-    filt = _mm_packs_epi16(filt, zero);

-    filt = _mm_andnot_si128(hev, filt);

-    work_a = _mm_xor_si128(_mm_subs_epi8(qs0, filter1), t80);

-    q0 = _mm_loadl_epi64((__m128i *)flat_oq0);

-    work_a = _mm_andnot_si128(flat, work_a);

-    q0 = _mm_and_si128(flat, q0);

-    q0 = _mm_or_si128(work_a, q0);

-    work_a = _mm_xor_si128(_mm_subs_epi8(qs1, filt), t80);

-    q1 = _mm_loadl_epi64((__m128i *)flat_oq1);

-    work_a = _mm_andnot_si128(flat, work_a);

-    q1 = _mm_and_si128(flat, q1);

-    q1 = _mm_or_si128(work_a, q1);

-    work_a = _mm_loadu_si128((__m128i *)(s + 2 * p));

-    q2 = _mm_loadl_epi64((__m128i *)flat_oq2);

-    work_a = _mm_andnot_si128(flat, work_a);

-    q2 = _mm_and_si128(flat, q2);

-    q2 = _mm_or_si128(work_a, q2);

-    work_a = _mm_xor_si128(_mm_adds_epi8(ps0, filter2), t80);

-    p0 = _mm_loadl_epi64((__m128i *)flat_op0);

-    work_a = _mm_andnot_si128(flat, work_a);

-    p0 = _mm_and_si128(flat, p0);

-    p0 = _mm_or_si128(work_a, p0);

-    work_a = _mm_xor_si128(_mm_adds_epi8(ps1, filt), t80);

-    p1 = _mm_loadl_epi64((__m128i *)flat_op1);

-    work_a = _mm_andnot_si128(flat, work_a);

-    p1 = _mm_and_si128(flat, p1);

-    p1 = _mm_or_si128(work_a, p1);

-    work_a = _mm_loadu_si128((__m128i *)(s - 3 * p));

-    p2 = _mm_loadl_epi64((__m128i *)flat_op2);

-    work_a = _mm_andnot_si128(flat, work_a);

-    p2 = _mm_and_si128(flat, p2);

-    p2 = _mm_or_si128(work_a, p2);

-    _mm_storel_epi64((__m128i *)(s - 3 * p), p2);

-    _mm_storel_epi64((__m128i *)(s - 2 * p), p1);

-    _mm_storel_epi64((__m128i *)(s - 1 * p), p0);

-    _mm_storel_epi64((__m128i *)(s + 0 * p), q0);

-    _mm_storel_epi64((__m128i *)(s + 1 * p), q1);

-    _mm_storel_epi64((__m128i *)(s + 2 * p), q2);

-  }

-}

-void vp9_lpf_horizontal_8_dual_sse2(uint8_t *s, int p,

-                                    const uint8_t *_blimit0,

-                                    const uint8_t *_limit0,

-                                    const uint8_t *_thresh0,

-                                    const uint8_t *_blimit1,

-                                    const uint8_t *_limit1,

-                                    const uint8_t *_thresh1) {

-  DECLARE_ALIGNED(16, unsigned char, flat_op2[16]);

-  DECLARE_ALIGNED(16, unsigned char, flat_op1[16]);

-  DECLARE_ALIGNED(16, unsigned char, flat_op0[16]);

-  DECLARE_ALIGNED(16, unsigned char, flat_oq2[16]);

-  DECLARE_ALIGNED(16, unsigned char, flat_oq1[16]);

-  DECLARE_ALIGNED(16, unsigned char, flat_oq0[16]);

-  const __m128i zero = _mm_set1_epi16(0);

-  const __m128i blimit =

-      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_blimit0),

-                         _mm_load_si128((const __m128i *)_blimit1));

-  const __m128i limit =

-      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_limit0),

-                         _mm_load_si128((const __m128i *)_limit1));

-  const __m128i thresh =

-      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_thresh0),

-                         _mm_load_si128((const __m128i *)_thresh1));

-  __m128i mask, hev, flat;

-  __m128i p3, p2, p1, p0, q0, q1, q2, q3;

-  p3 = _mm_loadu_si128((__m128i *)(s - 4 * p));

-  p2 = _mm_loadu_si128((__m128i *)(s - 3 * p));

-  p1 = _mm_loadu_si128((__m128i *)(s - 2 * p));

-  p0 = _mm_loadu_si128((__m128i *)(s - 1 * p));

-  q0 = _mm_loadu_si128((__m128i *)(s - 0 * p));

-  q1 = _mm_loadu_si128((__m128i *)(s + 1 * p));

-  q2 = _mm_loadu_si128((__m128i *)(s + 2 * p));

-  q3 = _mm_loadu_si128((__m128i *)(s + 3 * p));

-  {

-    const __m128i abs_p1p0 = _mm_or_si128(_mm_subs_epu8(p1, p0),

-                                          _mm_subs_epu8(p0, p1));

-    const __m128i abs_q1q0 = _mm_or_si128(_mm_subs_epu8(q1, q0),

-                                          _mm_subs_epu8(q0, q1));

-    const __m128i one = _mm_set1_epi8(1);

-    const __m128i fe = _mm_set1_epi8(0xfe);

-    const __m128i ff = _mm_cmpeq_epi8(abs_p1p0, abs_p1p0);

-    __m128i abs_p0q0 = _mm_or_si128(_mm_subs_epu8(p0, q0),

-                                    _mm_subs_epu8(q0, p0));

-    __m128i abs_p1q1 = _mm_or_si128(_mm_subs_epu8(p1, q1),

-                                    _mm_subs_epu8(q1, p1));

-    __m128i work;

-    // filter_mask and hev_mask

-    flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

-    hev = _mm_subs_epu8(flat, thresh);

-    hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

-    abs_p0q0 =_mm_adds_epu8(abs_p0q0, abs_p0q0);

-    abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

-    mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

-    mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

-    // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

-    mask = _mm_max_epu8(flat, mask);

-    // mask |= (abs(p1 - p0) > limit) * -1;

-    // mask |= (abs(q1 - q0) > limit) * -1;

-    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(p2, p1),

-                                     _mm_subs_epu8(p1, p2)),

-                         _mm_or_si128(_mm_subs_epu8(p3, p2),

-                                      _mm_subs_epu8(p2, p3)));

-    mask = _mm_max_epu8(work, mask);

-    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(q2, q1),

-                                     _mm_subs_epu8(q1, q2)),

-                         _mm_or_si128(_mm_subs_epu8(q3, q2),

-                                      _mm_subs_epu8(q2, q3)));

-    mask = _mm_max_epu8(work, mask);

-    mask = _mm_subs_epu8(mask, limit);

-    mask = _mm_cmpeq_epi8(mask, zero);

-    // flat_mask4

-    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(p2, p0),

-                                     _mm_subs_epu8(p0, p2)),

-                         _mm_or_si128(_mm_subs_epu8(q2, q0),

-                                      _mm_subs_epu8(q0, q2)));

-    flat = _mm_max_epu8(work, flat);

-    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(p3, p0),

-                                     _mm_subs_epu8(p0, p3)),

-                         _mm_or_si128(_mm_subs_epu8(q3, q0),

-                                      _mm_subs_epu8(q0, q3)));

-    flat = _mm_max_epu8(work, flat);

-    flat = _mm_subs_epu8(flat, one);

-    flat = _mm_cmpeq_epi8(flat, zero);

-    flat = _mm_and_si128(flat, mask);

-  }

-  {

-    const __m128i four = _mm_set1_epi16(4);

-    unsigned char *src = s;

-    int i = 0;

-    do {

-      __m128i workp_a, workp_b, workp_shft;

-      p3 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 4 * p)), zero);

-      p2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 3 * p)), zero);

-      p1 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 2 * p)), zero);

-      p0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 1 * p)), zero);

-      q0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 0 * p)), zero);

-      q1 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 1 * p)), zero);

-      q2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 2 * p)), zero);

-      q3 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 3 * p)), zero);

-      workp_a = _mm_add_epi16(_mm_add_epi16(p3, p3), _mm_add_epi16(p2, p1));

-      workp_a = _mm_add_epi16(_mm_add_epi16(workp_a, four), p0);

-      workp_b = _mm_add_epi16(_mm_add_epi16(q0, p2), p3);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_op2[i * 8],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      workp_b = _mm_add_epi16(_mm_add_epi16(q0, q1), p1);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_op1[i * 8],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q2);

-      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p1), p0);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_op0[i * 8],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q3);

-      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p0), q0);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_oq0[i * 8],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p2), q3);

-      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q0), q1);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_oq1[i * 8],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p1), q3);

-      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q1), q2);

-      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

-      _mm_storel_epi64((__m128i *)&flat_oq2[i * 8],

-                       _mm_packus_epi16(workp_shft, workp_shft));

-      src += 8;

-    } while (++i < 2);

-  }

-  // lp filter

-  {

-    const __m128i t4 = _mm_set1_epi8(4);

-    const __m128i t3 = _mm_set1_epi8(3);

-    const __m128i t80 = _mm_set1_epi8(0x80);

-    const __m128i te0 = _mm_set1_epi8(0xe0);

-    const __m128i t1f = _mm_set1_epi8(0x1f);

-    const __m128i t1 = _mm_set1_epi8(0x1);

-    const __m128i t7f = _mm_set1_epi8(0x7f);

-    const __m128i ps1 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s - 2 * p)),

-                                      t80);

-    const __m128i ps0 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s - 1 * p)),

-                                      t80);

-    const __m128i qs0 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s + 0 * p)),

-                                      t80);

-    const __m128i qs1 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s + 1 * p)),

-                                      t80);

-    __m128i filt;

-    __m128i work_a;

-    __m128i filter1, filter2;

-    filt = _mm_and_si128(_mm_subs_epi8(ps1, qs1), hev);

-    work_a = _mm_subs_epi8(qs0, ps0);

-    filt = _mm_adds_epi8(filt, work_a);

-    filt = _mm_adds_epi8(filt, work_a);

-    filt = _mm_adds_epi8(filt, work_a);

-    // (vp9_filter + 3 * (qs0 - ps0)) & mask

-    filt = _mm_and_si128(filt, mask);

-    filter1 = _mm_adds_epi8(filt, t4);

-    filter2 = _mm_adds_epi8(filt, t3);

-    // Filter1 >> 3

-    work_a = _mm_cmpgt_epi8(zero, filter1);

-    filter1 = _mm_srli_epi16(filter1, 3);

-    work_a = _mm_and_si128(work_a, te0);

-    filter1 = _mm_and_si128(filter1, t1f);

-    filter1 = _mm_or_si128(filter1, work_a);

-    // Filter2 >> 3

-    work_a = _mm_cmpgt_epi8(zero, filter2);

-    filter2 = _mm_srli_epi16(filter2, 3);

-    work_a = _mm_and_si128(work_a, te0);

-    filter2 = _mm_and_si128(filter2, t1f);

-    filter2 = _mm_or_si128(filter2, work_a);

-    // filt >> 1

-    filt = _mm_adds_epi8(filter1, t1);

-    work_a = _mm_cmpgt_epi8(zero, filt);

-    filt = _mm_srli_epi16(filt, 1);

-    work_a = _mm_and_si128(work_a, t80);

-    filt = _mm_and_si128(filt, t7f);

-    filt = _mm_or_si128(filt, work_a);

-    filt = _mm_andnot_si128(hev, filt);

-    work_a = _mm_xor_si128(_mm_subs_epi8(qs0, filter1), t80);

-    q0 = _mm_load_si128((__m128i *)flat_oq0);

-    work_a = _mm_andnot_si128(flat, work_a);

-    q0 = _mm_and_si128(flat, q0);

-    q0 = _mm_or_si128(work_a, q0);

-    work_a = _mm_xor_si128(_mm_subs_epi8(qs1, filt), t80);

-    q1 = _mm_load_si128((__m128i *)flat_oq1);

-    work_a = _mm_andnot_si128(flat, work_a);

-    q1 = _mm_and_si128(flat, q1);

-    q1 = _mm_or_si128(work_a, q1);

-    work_a = _mm_loadu_si128((__m128i *)(s + 2 * p));

-    q2 = _mm_load_si128((__m128i *)flat_oq2);

-    work_a = _mm_andnot_si128(flat, work_a);

-    q2 = _mm_and_si128(flat, q2);

-    q2 = _mm_or_si128(work_a, q2);

-    work_a = _mm_xor_si128(_mm_adds_epi8(ps0, filter2), t80);

-    p0 = _mm_load_si128((__m128i *)flat_op0);

-    work_a = _mm_andnot_si128(flat, work_a);

-    p0 = _mm_and_si128(flat, p0);

-    p0 = _mm_or_si128(work_a, p0);

-    work_a = _mm_xor_si128(_mm_adds_epi8(ps1, filt), t80);

-    p1 = _mm_load_si128((__m128i *)flat_op1);

-    work_a = _mm_andnot_si128(flat, work_a);

-    p1 = _mm_and_si128(flat, p1);

-    p1 = _mm_or_si128(work_a, p1);

-    work_a = _mm_loadu_si128((__m128i *)(s - 3 * p));

-    p2 = _mm_load_si128((__m128i *)flat_op2);

-    work_a = _mm_andnot_si128(flat, work_a);

-    p2 = _mm_and_si128(flat, p2);

-    p2 = _mm_or_si128(work_a, p2);

-    _mm_storeu_si128((__m128i *)(s - 3 * p), p2);

-    _mm_storeu_si128((__m128i *)(s - 2 * p), p1);

-    _mm_storeu_si128((__m128i *)(s - 1 * p), p0);

-    _mm_storeu_si128((__m128i *)(s + 0 * p), q0);

-    _mm_storeu_si128((__m128i *)(s + 1 * p), q1);

-    _mm_storeu_si128((__m128i *)(s + 2 * p), q2);

-  }

-}

-void vp9_lpf_horizontal_4_dual_sse2(unsigned char *s, int p,

-                                    const unsigned char *_blimit0,

-                                    const unsigned char *_limit0,

-                                    const unsigned char *_thresh0,

-                                    const unsigned char *_blimit1,

-                                    const unsigned char *_limit1,

-                                    const unsigned char *_thresh1) {

-  const __m128i blimit =

-      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_blimit0),

-                         _mm_load_si128((const __m128i *)_blimit1));

-  const __m128i limit =

-      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_limit0),

-                         _mm_load_si128((const __m128i *)_limit1));

-  const __m128i thresh =

-      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_thresh0),

-                         _mm_load_si128((const __m128i *)_thresh1));

-  const __m128i zero = _mm_set1_epi16(0);

-  __m128i p3, p2, p1, p0, q0, q1, q2, q3;

-  __m128i mask, hev, flat;

-  p3 = _mm_loadu_si128((__m128i *)(s - 4 * p));

-  p2 = _mm_loadu_si128((__m128i *)(s - 3 * p));

-  p1 = _mm_loadu_si128((__m128i *)(s - 2 * p));

-  p0 = _mm_loadu_si128((__m128i *)(s - 1 * p));

-  q0 = _mm_loadu_si128((__m128i *)(s - 0 * p));

-  q1 = _mm_loadu_si128((__m128i *)(s + 1 * p));

-  q2 = _mm_loadu_si128((__m128i *)(s + 2 * p));

-  q3 = _mm_loadu_si128((__m128i *)(s + 3 * p));

-  // filter_mask and hev_mask

-  {

-    const __m128i abs_p1p0 = _mm_or_si128(_mm_subs_epu8(p1, p0),

-                                          _mm_subs_epu8(p0, p1));

-    const __m128i abs_q1q0 = _mm_or_si128(_mm_subs_epu8(q1, q0),

-                                          _mm_subs_epu8(q0, q1));

-    const __m128i fe = _mm_set1_epi8(0xfe);

-    const __m128i ff = _mm_cmpeq_epi8(abs_p1p0, abs_p1p0);

-    __m128i abs_p0q0 = _mm_or_si128(_mm_subs_epu8(p0, q0),

-                                    _mm_subs_epu8(q0, p0));

-    __m128i abs_p1q1 = _mm_or_si128(_mm_subs_epu8(p1, q1),

-                                    _mm_subs_epu8(q1, p1));

-    __m128i work;

-    flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

-    hev = _mm_subs_epu8(flat, thresh);

-    hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

-    abs_p0q0 =_mm_adds_epu8(abs_p0q0, abs_p0q0);

-    abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

-    mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

-    mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

-    // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

-    mask = _mm_max_epu8(flat, mask);

-    // mask |= (abs(p1 - p0) > limit) * -1;

-    // mask |= (abs(q1 - q0) > limit) * -1;

-    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(p2, p1),

-                                     _mm_subs_epu8(p1, p2)),

-                         _mm_or_si128(_mm_subs_epu8(p3, p2),

-                                      _mm_subs_epu8(p2, p3)));

-    mask = _mm_max_epu8(work, mask);

-    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(q2, q1),

-                                     _mm_subs_epu8(q1, q2)),

-                         _mm_or_si128(_mm_subs_epu8(q3, q2),

-                                      _mm_subs_epu8(q2, q3)));

-    mask = _mm_max_epu8(work, mask);

-    mask = _mm_subs_epu8(mask, limit);

-    mask = _mm_cmpeq_epi8(mask, zero);

-  }

-  // filter4

-  {

-    const __m128i t4 = _mm_set1_epi8(4);

-    const __m128i t3 = _mm_set1_epi8(3);

-    const __m128i t80 = _mm_set1_epi8(0x80);

-    const __m128i te0 = _mm_set1_epi8(0xe0);

-    const __m128i t1f = _mm_set1_epi8(0x1f);

-    const __m128i t1 = _mm_set1_epi8(0x1);

-    const __m128i t7f = _mm_set1_epi8(0x7f);

-    const __m128i ps1 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s - 2 * p)),

-                                      t80);

-    const __m128i ps0 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s - 1 * p)),

-                                      t80);

-    const __m128i qs0 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s + 0 * p)),

-                                      t80);

-    const __m128i qs1 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s + 1 * p)),

-                                      t80);

-    __m128i filt;

-    __m128i work_a;

-    __m128i filter1, filter2;

-    filt = _mm_and_si128(_mm_subs_epi8(ps1, qs1), hev);

-    work_a = _mm_subs_epi8(qs0, ps0);

-    filt = _mm_adds_epi8(filt, work_a);

-    filt = _mm_adds_epi8(filt, work_a);

-    filt = _mm_adds_epi8(filt, work_a);

-    // (vp9_filter + 3 * (qs0 - ps0)) & mask

-    filt = _mm_and_si128(filt, mask);

-    filter1 = _mm_adds_epi8(filt, t4);

-    filter2 = _mm_adds_epi8(filt, t3);

-    // Filter1 >> 3

-    work_a = _mm_cmpgt_epi8(zero, filter1);

-    filter1 = _mm_srli_epi16(filter1, 3);

-    work_a = _mm_and_si128(work_a, te0);

-    filter1 = _mm_and_si128(filter1, t1f);

-    filter1 = _mm_or_si128(filter1, work_a);

-    // Filter2 >> 3

-    work_a = _mm_cmpgt_epi8(zero, filter2);

-    filter2 = _mm_srli_epi16(filter2, 3);

-    work_a = _mm_and_si128(work_a, te0);

-    filter2 = _mm_and_si128(filter2, t1f);

-    filter2 = _mm_or_si128(filter2, work_a);

-    // filt >> 1

-    filt = _mm_adds_epi8(filter1, t1);

-    work_a = _mm_cmpgt_epi8(zero, filt);

-    filt = _mm_srli_epi16(filt, 1);

-    work_a = _mm_and_si128(work_a, t80);

-    filt = _mm_and_si128(filt, t7f);

-    filt = _mm_or_si128(filt, work_a);

-    filt = _mm_andnot_si128(hev, filt);

-    q0 = _mm_xor_si128(_mm_subs_epi8(qs0, filter1), t80);

-    q1 = _mm_xor_si128(_mm_subs_epi8(qs1, filt), t80);

-    p0 = _mm_xor_si128(_mm_adds_epi8(ps0, filter2), t80);

-    p1 = _mm_xor_si128(_mm_adds_epi8(ps1, filt), t80);

-    _mm_storeu_si128((__m128i *)(s - 2 * p), p1);

-    _mm_storeu_si128((__m128i *)(s - 1 * p), p0);

-    _mm_storeu_si128((__m128i *)(s + 0 * p), q0);

-    _mm_storeu_si128((__m128i *)(s + 1 * p), q1);

-  }

-}

-static INLINE void transpose8x16(unsigned char *in0, unsigned char *in1,

-                                 int in_p, unsigned char *out, int out_p) {

-  __m128i x0, x1, x2, x3, x4, x5, x6, x7;

-  __m128i x8, x9, x10, x11, x12, x13, x14, x15;

-  // 2-way interleave w/hoisting of unpacks

-  x0 = _mm_loadl_epi64((__m128i *)in0);  // 1

-  x1 = _mm_loadl_epi64((__m128i *)(in0 + in_p));  // 3

-  x0 = _mm_unpacklo_epi8(x0, x1);  // 1

-  x2 = _mm_loadl_epi64((__m128i *)(in0 + 2 * in_p));  // 5

-  x3 = _mm_loadl_epi64((__m128i *)(in0 + 3*in_p));  // 7

-  x1 = _mm_unpacklo_epi8(x2, x3);  // 2

-  x4 = _mm_loadl_epi64((__m128i *)(in0 + 4*in_p));  // 9

-  x5 = _mm_loadl_epi64((__m128i *)(in0 + 5*in_p));  // 11

-  x2 = _mm_unpacklo_epi8(x4, x5);  // 3

-  x6 = _mm_loadl_epi64((__m128i *)(in0 + 6*in_p));  // 13

-  x7 = _mm_loadl_epi64((__m128i *)(in0 + 7*in_p));  // 15

-  x3 = _mm_unpacklo_epi8(x6, x7);  // 4

-  x4 = _mm_unpacklo_epi16(x0, x1);  // 9

-  x8 = _mm_loadl_epi64((__m128i *)in1);  // 2

-  x9 = _mm_loadl_epi64((__m128i *)(in1 + in_p));  // 4

-  x8 = _mm_unpacklo_epi8(x8, x9);  // 5

-  x5 = _mm_unpacklo_epi16(x2, x3);  // 10

-  x10 = _mm_loadl_epi64((__m128i *)(in1 + 2 * in_p));  // 6

-  x11 = _mm_loadl_epi64((__m128i *)(in1 + 3*in_p));  // 8

-  x9 = _mm_unpacklo_epi8(x10, x11);  // 6

-  x12 = _mm_loadl_epi64((__m128i *)(in1 + 4*in_p));  // 10

-  x13 = _mm_loadl_epi64((__m128i *)(in1 + 5*in_p));  // 12

-  x10 = _mm_unpacklo_epi8(x12, x13);  // 7

-  x12 = _mm_unpacklo_epi16(x8, x9);  // 11

-  x14 = _mm_loadl_epi64((__m128i *)(in1 + 6*in_p));  // 14

-  x15 = _mm_loadl_epi64((__m128i *)(in1 + 7*in_p));  // 16

-  x11 = _mm_unpacklo_epi8(x14, x15);  // 8

-  x13 = _mm_unpacklo_epi16(x10, x11);  // 12

-  x6 = _mm_unpacklo_epi32(x4, x5);  // 13

-  x7 = _mm_unpackhi_epi32(x4, x5);  // 14

-  x14 = _mm_unpacklo_epi32(x12, x13);  // 15

-  x15 = _mm_unpackhi_epi32(x12, x13);  // 16

-  // Store first 4-line result

-  _mm_storeu_si128((__m128i *)out, _mm_unpacklo_epi64(x6, x14));

-  _mm_storeu_si128((__m128i *)(out + out_p), _mm_unpackhi_epi64(x6, x14));

-  _mm_storeu_si128((__m128i *)(out + 2 * out_p), _mm_unpacklo_epi64(x7, x15));

-  _mm_storeu_si128((__m128i *)(out + 3 * out_p), _mm_unpackhi_epi64(x7, x15));

-  x4 = _mm_unpackhi_epi16(x0, x1);

-  x5 = _mm_unpackhi_epi16(x2, x3);

-  x12 = _mm_unpackhi_epi16(x8, x9);

-  x13 = _mm_unpackhi_epi16(x10, x11);

-  x6 = _mm_unpacklo_epi32(x4, x5);

-  x7 = _mm_unpackhi_epi32(x4, x5);

-  x14 = _mm_unpacklo_epi32(x12, x13);

-  x15 = _mm_unpackhi_epi32(x12, x13);

-  // Store second 4-line result

-  _mm_storeu_si128((__m128i *)(out + 4 * out_p), _mm_unpacklo_epi64(x6, x14));

-  _mm_storeu_si128((__m128i *)(out + 5 * out_p), _mm_unpackhi_epi64(x6, x14));

-  _mm_storeu_si128((__m128i *)(out + 6 * out_p), _mm_unpacklo_epi64(x7, x15));

-  _mm_storeu_si128((__m128i *)(out + 7 * out_p), _mm_unpackhi_epi64(x7, x15));

-}

-static INLINE void transpose(unsigned char *src[], int in_p,

-                             unsigned char *dst[], int out_p,

-                             int num_8x8_to_transpose) {

-  int idx8x8 = 0;

-  __m128i x0, x1, x2, x3, x4, x5, x6, x7;

-  do {

-    unsigned char *in = src[idx8x8];

-    unsigned char *out = dst[idx8x8];

-    x0 = _mm_loadl_epi64((__m128i *)(in + 0*in_p));  // 00 01 02 03 04 05 06 07

-    x1 = _mm_loadl_epi64((__m128i *)(in + 1*in_p));  // 10 11 12 13 14 15 16 17

-    // 00 10 01 11 02 12 03 13 04 14 05 15 06 16 07 17

-    x0 = _mm_unpacklo_epi8(x0, x1);

-    x2 = _mm_loadl_epi64((__m128i *)(in + 2*in_p));  // 20 21 22 23 24 25 26 27

-    x3 = _mm_loadl_epi64((__m128i *)(in + 3*in_p));  // 30 31 32 33 34 35 36 37

-    // 20 30 21 31 22 32 23 33 24 34 25 35 26 36 27 37

-    x1 = _mm_unpacklo_epi8(x2, x3);

-    x4 = _mm_loadl_epi64((__m128i *)(in + 4*in_p));  // 40 41 42 43 44 45 46 47

-    x5 = _mm_loadl_epi64((__m128i *)(in + 5*in_p));  // 50 51 52 53 54 55 56 57

-    // 40 50 41 51 42 52 43 53 44 54 45 55 46 56 47 57

-    x2 = _mm_unpacklo_epi8(x4, x5);

-    x6 = _mm_loadl_epi64((__m128i *)(in + 6*in_p));  // 60 61 62 63 64 65 66 67

-    x7 = _mm_loadl_epi64((__m128i *)(in + 7*in_p));  // 70 71 72 73 74 75 76 77

-    // 60 70 61 71 62 72 63 73 64 74 65 75 66 76 67 77

-    x3 = _mm_unpacklo_epi8(x6, x7);

-    // 00 10 20 30 01 11 21 31 02 12 22 32 03 13 23 33

-    x4 = _mm_unpacklo_epi16(x0, x1);

-    // 40 50 60 70 41 51 61 71 42 52 62 72 43 53 63 73

-    x5 = _mm_unpacklo_epi16(x2, x3);

-    // 00 10 20 30 40 50 60 70 01 11 21 31 41 51 61 71

-    x6 = _mm_unpacklo_epi32(x4, x5);

-    _mm_storel_pd((double *)(out + 0*out_p),

-                  _mm_castsi128_pd(x6));  // 00 10 20 30 40 50 60 70

-    _mm_storeh_pd((double *)(out + 1*out_p),

-                  _mm_castsi128_pd(x6));  // 01 11 21 31 41 51 61 71

-    // 02 12 22 32 42 52 62 72 03 13 23 33 43 53 63 73

-    x7 = _mm_unpackhi_epi32(x4, x5);

-    _mm_storel_pd((double *)(out + 2*out_p),

-                  _mm_castsi128_pd(x7));  // 02 12 22 32 42 52 62 72

-    _mm_storeh_pd((double *)(out + 3*out_p),

-                  _mm_castsi128_pd(x7));  // 03 13 23 33 43 53 63 73

-    // 04 14 24 34 05 15 25 35 06 16 26 36 07 17 27 37

-    x4 = _mm_unpackhi_epi16(x0, x1);

-    // 44 54 64 74 45 55 65 75 46 56 66 76 47 57 67 77

-    x5 = _mm_unpackhi_epi16(x2, x3);

-    // 04 14 24 34 44 54 64 74 05 15 25 35 45 55 65 75

-    x6 = _mm_unpacklo_epi32(x4, x5);

-    _mm_storel_pd((double *)(out + 4*out_p),

-                  _mm_castsi128_pd(x6));  // 04 14 24 34 44 54 64 74

-    _mm_storeh_pd((double *)(out + 5*out_p),

-                  _mm_castsi128_pd(x6));  // 05 15 25 35 45 55 65 75

-    // 06 16 26 36 46 56 66 76 07 17 27 37 47 57 67 77

-    x7 = _mm_unpackhi_epi32(x4, x5);

-    _mm_storel_pd((double *)(out + 6*out_p),

-                  _mm_castsi128_pd(x7));  // 06 16 26 36 46 56 66 76

-    _mm_storeh_pd((double *)(out + 7*out_p),

-                  _mm_castsi128_pd(x7));  // 07 17 27 37 47 57 67 77

-  } while (++idx8x8 < num_8x8_to_transpose);

-}

-void vp9_lpf_vertical_4_dual_sse2(uint8_t *s, int p, const uint8_t *blimit0,

-                                  const uint8_t *limit0,

-                                  const uint8_t *thresh0,

-                                  const uint8_t *blimit1,

-                                  const uint8_t *limit1,

-                                  const uint8_t *thresh1) {

-  DECLARE_ALIGNED(16, unsigned char, t_dst[16 * 8]);

-  unsigned char *src[2];

-  unsigned char *dst[2];

-  // Transpose 8x16

-  transpose8x16(s - 4, s - 4 + p * 8, p, t_dst, 16);

-  // Loop filtering

-  vp9_lpf_horizontal_4_dual_sse2(t_dst + 4 * 16, 16, blimit0, limit0, thresh0,

-                                 blimit1, limit1, thresh1);

-  src[0] = t_dst;

-  src[1] = t_dst + 8;

-  dst[0] = s - 4;

-  dst[1] = s - 4 + p * 8;

-  // Transpose back

-  transpose(src, 16, dst, p, 2);

-}

-void vp9_lpf_vertical_8_sse2(unsigned char *s, int p,

-                             const unsigned char *blimit,

-                             const unsigned char *limit,

-                             const unsigned char *thresh, int count) {

-  DECLARE_ALIGNED(8, unsigned char, t_dst[8 * 8]);

-  unsigned char *src[1];

-  unsigned char *dst[1];

-  (void)count;

-  // Transpose 8x8

-  src[0] = s - 4;

-  dst[0] = t_dst;

-  transpose(src, p, dst, 8, 1);

-  // Loop filtering

-  vp9_lpf_horizontal_8_sse2(t_dst + 4 * 8, 8, blimit, limit, thresh, 1);

-  src[0] = t_dst;

-  dst[0] = s - 4;

-  // Transpose back

-  transpose(src, 8, dst, p, 1);

-}

-void vp9_lpf_vertical_8_dual_sse2(uint8_t *s, int p, const uint8_t *blimit0,

-                                  const uint8_t *limit0,

-                                  const uint8_t *thresh0,

-                                  const uint8_t *blimit1,

-                                  const uint8_t *limit1,

-                                  const uint8_t *thresh1) {

-  DECLARE_ALIGNED(16, unsigned char, t_dst[16 * 8]);

-  unsigned char *src[2];

-  unsigned char *dst[2];

-  // Transpose 8x16

-  transpose8x16(s - 4, s - 4 + p * 8, p, t_dst, 16);

-  // Loop filtering

-  vp9_lpf_horizontal_8_dual_sse2(t_dst + 4 * 16, 16, blimit0, limit0, thresh0,

-                                 blimit1, limit1, thresh1);

-  src[0] = t_dst;

-  src[1] = t_dst + 8;

-  dst[0] = s - 4;

-  dst[1] = s - 4 + p * 8;

-  // Transpose back

-  transpose(src, 16, dst, p, 2);

-}

-void vp9_lpf_vertical_16_sse2(unsigned char *s, int p,

-                              const unsigned char *blimit,

-                              const unsigned char *limit,

-                              const unsigned char *thresh) {

-  DECLARE_ALIGNED(8, unsigned char, t_dst[8 * 16]);

-  unsigned char *src[2];

-  unsigned char *dst[2];

-  src[0] = s - 8;

-  src[1] = s;

-  dst[0] = t_dst;

-  dst[1] = t_dst + 8 * 8;

-  // Transpose 16x8

-  transpose(src, p, dst, 8, 2);

-  // Loop filtering

-  mb_lpf_horizontal_edge_w_sse2_8(t_dst + 8 * 8, 8, blimit, limit, thresh);

-  src[0] = t_dst;

-  src[1] = t_dst + 8 * 8;

-  dst[0] = s - 8;

-  dst[1] = s;

-  // Transpose back

-  transpose(src, 8, dst, p, 2);

-}

-void vp9_lpf_vertical_16_dual_sse2(unsigned char *s, int p,

-                                   const uint8_t *blimit, const uint8_t *limit,

-                                   const uint8_t *thresh) {

-  DECLARE_ALIGNED(16, unsigned char, t_dst[256]);

-  // Transpose 16x16

-  transpose8x16(s - 8, s - 8 + 8 * p, p, t_dst, 16);

-  transpose8x16(s, s + 8 * p, p, t_dst + 8 * 16, 16);

-  // Loop filtering

-  mb_lpf_horizontal_edge_w_sse2_16(t_dst + 8 * 16, 16, blimit, limit,

-                                   thresh);

-  // Transpose back

-  transpose8x16(t_dst, t_dst + 8 * 16, 16, s - 8, p);

-  transpose8x16(t_dst + 8, t_dst + 8 + 8 * 16, 16, s - 8 + 8 * p, p);

-}

--- a/vp9/common/x86/vp9_loopfilter_mmx.asm

+++ /dev/null

@@ -1,611 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-%include "vpx_ports/x86_abi_support.asm"

-;void vp9_lpf_horizontal_4_mmx

-;(

-;    unsigned char *src_ptr,

-;    int src_pixel_step,

-;    const char *blimit,

-;    const char *limit,

-;    const char *thresh,

-;    int  count

-;)

-global sym(vp9_lpf_horizontal_4_mmx) PRIVATE

-sym(vp9_lpf_horizontal_4_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    GET_GOT     rbx

-    push        rsi

-    push        rdi

-    ; end prolog

-    ALIGN_STACK 16, rax

-    sub         rsp, 32                         ; reserve 32 bytes

-    %define t0 [rsp + 0]    ;__declspec(align(16)) char t0[8];

-    %define t1 [rsp + 16]   ;__declspec(align(16)) char t1[8];

-        mov         rsi, arg(0) ;src_ptr

-        movsxd      rax, dword ptr arg(1) ;src_pixel_step     ; destination pitch?

-        movsxd      rcx, dword ptr arg(5) ;count

-.next8_h:

-        mov         rdx, arg(3) ;limit

-        movq        mm7, [rdx]

-        mov         rdi, rsi              ; rdi points to row +1 for indirect addressing

-        add         rdi, rax

-        ; calculate breakout conditions

-        movq        mm2, [rdi+2*rax]      ; q3

-        movq        mm1, [rsi+2*rax]      ; q2

-        movq        mm6, mm1              ; q2

-        psubusb     mm1, mm2              ; q2-=q3

-        psubusb     mm2, mm6              ; q3-=q2

-        por         mm1, mm2              ; abs(q3-q2)

-        psubusb     mm1, mm7              ;

-        movq        mm4, [rsi+rax]        ; q1

-        movq        mm3, mm4              ; q1

-        psubusb     mm4, mm6              ; q1-=q2

-        psubusb     mm6, mm3              ; q2-=q1

-        por         mm4, mm6              ; abs(q2-q1)

-        psubusb     mm4, mm7

-        por        mm1, mm4

-        movq        mm4, [rsi]            ; q0

-        movq        mm0, mm4              ; q0

-        psubusb     mm4, mm3              ; q0-=q1

-        psubusb     mm3, mm0              ; q1-=q0

-        por         mm4, mm3              ; abs(q0-q1)

-        movq        t0, mm4               ; save to t0

-        psubusb     mm4, mm7

-        por        mm1, mm4

-        neg         rax                   ; negate pitch to deal with above border

-        movq        mm2, [rsi+4*rax]      ; p3

-        movq        mm4, [rdi+4*rax]      ; p2

-        movq        mm5, mm4              ; p2

-        psubusb     mm4, mm2              ; p2-=p3

-        psubusb     mm2, mm5              ; p3-=p2

-        por         mm4, mm2              ; abs(p3 - p2)

-        psubusb     mm4, mm7

-        por        mm1, mm4

-        movq        mm4, [rsi+2*rax]      ; p1

-        movq        mm3, mm4              ; p1

-        psubusb     mm4, mm5              ; p1-=p2

-        psubusb     mm5, mm3              ; p2-=p1

-        por         mm4, mm5              ; abs(p2 - p1)

-        psubusb     mm4, mm7

-        por        mm1, mm4

-        movq        mm2, mm3              ; p1

-        movq        mm4, [rsi+rax]        ; p0

-        movq        mm5, mm4              ; p0

-        psubusb     mm4, mm3              ; p0-=p1

-        psubusb     mm3, mm5              ; p1-=p0

-        por         mm4, mm3              ; abs(p1 - p0)

-        movq        t1, mm4               ; save to t1

-        psubusb     mm4, mm7

-        por        mm1, mm4

-        movq        mm3, [rdi]            ; q1

-        movq        mm4, mm3              ; q1

-        psubusb     mm3, mm2              ; q1-=p1

-        psubusb     mm2, mm4              ; p1-=q1

-        por         mm2, mm3              ; abs(p1-q1)

-        pand        mm2, [GLOBAL(tfe)]    ; set lsb of each byte to zero

-        psrlw       mm2, 1                ; abs(p1-q1)/2

-        movq        mm6, mm5              ; p0

-        movq        mm3, [rsi]            ; q0

-        psubusb     mm5, mm3              ; p0-=q0

-        psubusb     mm3, mm6              ; q0-=p0

-        por         mm5, mm3              ; abs(p0 - q0)

-        paddusb     mm5, mm5              ; abs(p0-q0)*2

-        paddusb     mm5, mm2              ; abs (p0 - q0) *2 + abs(p1-q1)/2

-        mov         rdx, arg(2) ;blimit           ; get blimit

-        movq        mm7, [rdx]            ; blimit

-        psubusb     mm5,    mm7           ; abs (p0 - q0) *2 + abs(p1-q1)/2  > blimit

-        por         mm1,    mm5

-        pxor        mm5,    mm5

-        pcmpeqb     mm1,    mm5           ; mask mm1

-        ; calculate high edge variance

-        mov         rdx, arg(4) ;thresh           ; get thresh

-        movq        mm7, [rdx]            ;

-        movq        mm4, t0               ; get abs (q1 - q0)

-        psubusb     mm4, mm7

-        movq        mm3, t1               ; get abs (p1 - p0)

-        psubusb     mm3, mm7

-        paddb       mm4, mm3              ; abs(q1 - q0) > thresh || abs(p1 - p0) > thresh

-        pcmpeqb     mm4,        mm5

-        pcmpeqb     mm5,        mm5

-        pxor        mm4,        mm5

-        ; start work on filters

-        movq        mm2, [rsi+2*rax]      ; p1

-        movq        mm7, [rdi]            ; q1

-        pxor        mm2, [GLOBAL(t80)]    ; p1 offset to convert to signed values

-        pxor        mm7, [GLOBAL(t80)]    ; q1 offset to convert to signed values

-        psubsb      mm2, mm7              ; p1 - q1

-        pand        mm2, mm4              ; high var mask (hvm)(p1 - q1)

-        pxor        mm6, [GLOBAL(t80)]    ; offset to convert to signed values

-        pxor        mm0, [GLOBAL(t80)]    ; offset to convert to signed values

-        movq        mm3, mm0              ; q0

-        psubsb      mm0, mm6              ; q0 - p0

-        paddsb      mm2, mm0              ; 1 * (q0 - p0) + hvm(p1 - q1)

-        paddsb      mm2, mm0              ; 2 * (q0 - p0) + hvm(p1 - q1)

-        paddsb      mm2, mm0              ; 3 * (q0 - p0) + hvm(p1 - q1)

-        pand        mm1, mm2                  ; mask filter values we don't care about

-        movq        mm2, mm1

-        paddsb      mm1, [GLOBAL(t4)]     ; 3* (q0 - p0) + hvm(p1 - q1) + 4

-        paddsb      mm2, [GLOBAL(t3)]     ; 3* (q0 - p0) + hvm(p1 - q1) + 3

-        pxor        mm0, mm0             ;

-        pxor        mm5, mm5

-        punpcklbw   mm0, mm2            ;

-        punpckhbw   mm5, mm2            ;

-        psraw       mm0, 11             ;

-        psraw       mm5, 11

-        packsswb    mm0, mm5

-        movq        mm2, mm0            ;  (3* (q0 - p0) + hvm(p1 - q1) + 3) >> 3;

-        pxor        mm0, mm0              ; 0

-        movq        mm5, mm1              ; abcdefgh

-        punpcklbw   mm0, mm1              ; e0f0g0h0

-        psraw       mm0, 11               ; sign extended shift right by 3

-        pxor        mm1, mm1              ; 0

-        punpckhbw   mm1, mm5              ; a0b0c0d0

-        psraw       mm1, 11               ; sign extended shift right by 3

-        movq        mm5, mm0              ; save results

-        packsswb    mm0, mm1              ; (3* (q0 - p0) + hvm(p1 - q1) + 4) >>3

-        paddsw      mm5, [GLOBAL(ones)]

-        paddsw      mm1, [GLOBAL(ones)]

-        psraw       mm5, 1                ; partial shifted one more time for 2nd tap

-        psraw       mm1, 1                ; partial shifted one more time for 2nd tap

-        packsswb    mm5, mm1              ; (3* (q0 - p0) + hvm(p1 - q1) + 4) >>4

-        pandn       mm4, mm5              ; high edge variance additive

-        paddsb      mm6, mm2              ; p0+= p0 add

-        pxor        mm6, [GLOBAL(t80)]    ; unoffset

-        movq        [rsi+rax], mm6        ; write back

-        movq        mm6, [rsi+2*rax]      ; p1

-        pxor        mm6, [GLOBAL(t80)]    ; reoffset

-        paddsb      mm6, mm4              ; p1+= p1 add

-        pxor        mm6, [GLOBAL(t80)]    ; unoffset

-        movq        [rsi+2*rax], mm6      ; write back

-        psubsb      mm3, mm0              ; q0-= q0 add

-        pxor        mm3, [GLOBAL(t80)]    ; unoffset

-        movq        [rsi], mm3            ; write back

-        psubsb      mm7, mm4              ; q1-= q1 add

-        pxor        mm7, [GLOBAL(t80)]    ; unoffset

-        movq        [rdi], mm7            ; write back

-        add         rsi,8

-        neg         rax

-        dec         rcx

-        jnz         .next8_h

-    add rsp, 32

-    pop rsp

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp9_lpf_vertical_4_mmx

-;(

-;    unsigned char *src_ptr,

-;    int  src_pixel_step,

-;    const char *blimit,

-;    const char *limit,

-;    const char *thresh,

-;    int count

-;)

-global sym(vp9_lpf_vertical_4_mmx) PRIVATE

-sym(vp9_lpf_vertical_4_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 6

-    GET_GOT     rbx

-    push        rsi

-    push        rdi

-    ; end prolog

-    ALIGN_STACK 16, rax

-    sub          rsp, 64      ; reserve 64 bytes

-    %define t0   [rsp + 0]    ;__declspec(align(16)) char t0[8];

-    %define t1   [rsp + 16]   ;__declspec(align(16)) char t1[8];

-    %define srct [rsp + 32]   ;__declspec(align(16)) char srct[32];

-        mov         rsi,        arg(0) ;src_ptr

-        movsxd      rax,        dword ptr arg(1) ;src_pixel_step     ; destination pitch?

-        lea         rsi,        [rsi + rax*4 - 4]

-        movsxd      rcx,        dword ptr arg(5) ;count

-.next8_v:

-        mov         rdi,        rsi           ; rdi points to row +1 for indirect addressing

-        add         rdi,        rax

-        ;transpose

-        movq        mm6,        [rsi+2*rax]                 ; 67 66 65 64 63 62 61 60

-        movq        mm7,        mm6                         ; 77 76 75 74 73 72 71 70

-        punpckhbw   mm7,        [rdi+2*rax]                 ; 77 67 76 66 75 65 74 64

-        punpcklbw   mm6,        [rdi+2*rax]                 ; 73 63 72 62 71 61 70 60

-        movq        mm4,        [rsi]                       ; 47 46 45 44 43 42 41 40

-        movq        mm5,        mm4                         ; 47 46 45 44 43 42 41 40

-        punpckhbw   mm5,        [rsi+rax]                   ; 57 47 56 46 55 45 54 44

-        punpcklbw   mm4,        [rsi+rax]                   ; 53 43 52 42 51 41 50 40

-        movq        mm3,        mm5                         ; 57 47 56 46 55 45 54 44

-        punpckhwd   mm5,        mm7                         ; 77 67 57 47 76 66 56 46

-        punpcklwd   mm3,        mm7                         ; 75 65 55 45 74 64 54 44

-        movq        mm2,        mm4                         ; 53 43 52 42 51 41 50 40

-        punpckhwd   mm4,        mm6                         ; 73 63 53 43 72 62 52 42

-        punpcklwd   mm2,        mm6                         ; 71 61 51 41 70 60 50 40

-        neg         rax

-        movq        mm6,        [rsi+rax*2]                 ; 27 26 25 24 23 22 21 20

-        movq        mm1,        mm6                         ; 27 26 25 24 23 22 21 20

-        punpckhbw   mm6,        [rsi+rax]                   ; 37 27 36 36 35 25 34 24

-        punpcklbw   mm1,        [rsi+rax]                   ; 33 23 32 22 31 21 30 20

-        movq        mm7,        [rsi+rax*4];                ; 07 06 05 04 03 02 01 00

-        punpckhbw   mm7,        [rdi+rax*4]                 ; 17 07 16 06 15 05 14 04

-        movq        mm0,        mm7                         ; 17 07 16 06 15 05 14 04

-        punpckhwd   mm7,        mm6                         ; 37 27 17 07 36 26 16 06

-        punpcklwd   mm0,        mm6                         ; 35 25 15 05 34 24 14 04

-        movq        mm6,        mm7                         ; 37 27 17 07 36 26 16 06

-        punpckhdq   mm7,        mm5                         ; 77 67 57 47 37 27 17 07  = q3

-        punpckldq   mm6,        mm5                         ; 76 66 56 46 36 26 16 06  = q2

-        movq        mm5,        mm6                         ; 76 66 56 46 36 26 16 06

-        psubusb     mm5,        mm7                         ; q2-q3

-        psubusb     mm7,        mm6                         ; q3-q2

-        por         mm7,        mm5;                        ; mm7=abs (q3-q2)

-        movq        mm5,        mm0                         ; 35 25 15 05 34 24 14 04

-        punpckhdq   mm5,        mm3                         ; 75 65 55 45 35 25 15 05 = q1

-        punpckldq   mm0,        mm3                         ; 74 64 54 44 34 24 15 04 = q0

-        movq        mm3,        mm5                         ; 75 65 55 45 35 25 15 05 = q1

-        psubusb     mm3,        mm6                         ; q1-q2

-        psubusb     mm6,        mm5                         ; q2-q1

-        por         mm6,        mm3                         ; mm6=abs(q2-q1)

-        lea         rdx,        srct

-        movq        [rdx+24],   mm5                         ; save q1

-        movq        [rdx+16],   mm0                         ; save q0

-        movq        mm3,        [rsi+rax*4]                 ; 07 06 05 04 03 02 01 00

-        punpcklbw   mm3,        [rdi+rax*4]                 ; 13 03 12 02 11 01 10 00

-        movq        mm0,        mm3                         ; 13 03 12 02 11 01 10 00

-        punpcklwd   mm0,        mm1                         ; 31 21 11 01 30 20 10 00

-        punpckhwd   mm3,        mm1                         ; 33 23 13 03 32 22 12 02

-        movq        mm1,        mm0                         ; 31 21 11 01 30 20 10 00

-        punpckldq   mm0,        mm2                         ; 70 60 50 40 30 20 10 00  =p3

-        punpckhdq   mm1,        mm2                         ; 71 61 51 41 31 21 11 01  =p2

-        movq        mm2,        mm1                         ; 71 61 51 41 31 21 11 01  =p2

-        psubusb     mm2,        mm0                         ; p2-p3

-        psubusb     mm0,        mm1                         ; p3-p2

-        por         mm0,        mm2                         ; mm0=abs(p3-p2)

-        movq        mm2,        mm3                         ; 33 23 13 03 32 22 12 02

-        punpckldq   mm2,        mm4                         ; 72 62 52 42 32 22 12 02 = p1

-        punpckhdq   mm3,        mm4                         ; 73 63 53 43 33 23 13 03 = p0

-        movq        [rdx+8],    mm3                         ; save p0

-        movq        [rdx],      mm2                         ; save p1

-        movq        mm5,        mm2                         ; mm5 = p1

-        psubusb     mm2,        mm1                         ; p1-p2

-        psubusb     mm1,        mm5                         ; p2-p1

-        por         mm1,        mm2                         ; mm1=abs(p2-p1)

-        mov         rdx,        arg(3) ;limit

-        movq        mm4,        [rdx]                       ; mm4 = limit

-        psubusb     mm7,        mm4

-        psubusb     mm0,        mm4

-        psubusb     mm1,        mm4

-        psubusb     mm6,        mm4

-        por         mm7,        mm6

-        por         mm0,        mm1

-        por         mm0,        mm7                         ;   abs(q3-q2) > limit || abs(p3-p2) > limit ||abs(p2-p1) > limit || abs(q2-q1) > limit

-        movq        mm1,        mm5                         ; p1

-        movq        mm7,        mm3                         ; mm3=mm7=p0

-        psubusb     mm7,        mm5                         ; p0 - p1

-        psubusb     mm5,        mm3                         ; p1 - p0

-        por         mm5,        mm7                         ; abs(p1-p0)

-        movq        t0,         mm5                         ; save abs(p1-p0)

-        lea         rdx,        srct

-        psubusb     mm5,        mm4

-        por         mm0,        mm5                         ; mm0=mask

-        movq        mm5,        [rdx+16]                    ; mm5=q0

-        movq        mm7,        [rdx+24]                    ; mm7=q1

-        movq        mm6,        mm5                         ; mm6=q0

-        movq        mm2,        mm7                         ; q1

-        psubusb     mm5,        mm7                         ; q0-q1

-        psubusb     mm7,        mm6                         ; q1-q0

-        por         mm7,        mm5                         ; abs(q1-q0)

-        movq        t1,         mm7                         ; save abs(q1-q0)

-        psubusb     mm7,        mm4

-        por         mm0,        mm7                         ; mask

-        movq        mm5,        mm2                         ; q1

-        psubusb     mm5,        mm1                         ; q1-=p1

-        psubusb     mm1,        mm2                         ; p1-=q1

-        por         mm5,        mm1                         ; abs(p1-q1)

-        pand        mm5,        [GLOBAL(tfe)]               ; set lsb of each byte to zero

-        psrlw       mm5,        1                           ; abs(p1-q1)/2

-        mov         rdx,        arg(2) ;blimit                      ;

-        movq        mm4,        [rdx]                       ;blimit

-        movq        mm1,        mm3                         ; mm1=mm3=p0

-        movq        mm7,        mm6                         ; mm7=mm6=q0

-        psubusb     mm1,        mm7                         ; p0-q0

-        psubusb     mm7,        mm3                         ; q0-p0

-        por         mm1,        mm7                         ; abs(q0-p0)

-        paddusb     mm1,        mm1                         ; abs(q0-p0)*2

-        paddusb     mm1,        mm5                         ; abs (p0 - q0) *2 + abs(p1-q1)/2

-        psubusb     mm1,        mm4                         ; abs (p0 - q0) *2 + abs(p1-q1)/2  > blimit

-        por         mm1,        mm0;                        ; mask

-        pxor        mm0,        mm0

-        pcmpeqb     mm1,        mm0

-        ; calculate high edge variance

-        mov         rdx,        arg(4) ;thresh            ; get thresh

-        movq        mm7,        [rdx]

-        ;

-        movq        mm4,        t0              ; get abs (q1 - q0)

-        psubusb     mm4,        mm7

-        movq        mm3,        t1              ; get abs (p1 - p0)

-        psubusb     mm3,        mm7

-        por         mm4,        mm3             ; abs(q1 - q0) > thresh || abs(p1 - p0) > thresh

-        pcmpeqb     mm4,        mm0

-        pcmpeqb     mm0,        mm0

-        pxor        mm4,        mm0

-        ; start work on filters

-        lea         rdx,        srct

-        movq        mm2,        [rdx]           ; p1

-        movq        mm7,        [rdx+24]        ; q1

-        movq        mm6,        [rdx+8]         ; p0

-        movq        mm0,        [rdx+16]        ; q0

-        pxor        mm2,        [GLOBAL(t80)]   ; p1 offset to convert to signed values

-        pxor        mm7,        [GLOBAL(t80)]   ; q1 offset to convert to signed values

-        psubsb      mm2,        mm7             ; p1 - q1

-        pand        mm2,        mm4             ; high var mask (hvm)(p1 - q1)

-        pxor        mm6,        [GLOBAL(t80)]   ; offset to convert to signed values

-        pxor        mm0,        [GLOBAL(t80)]   ; offset to convert to signed values

-        movq        mm3,        mm0             ; q0

-        psubsb      mm0,        mm6             ; q0 - p0

-        paddsb      mm2,        mm0             ; 1 * (q0 - p0) + hvm(p1 - q1)

-        paddsb      mm2,        mm0             ; 2 * (q0 - p0) + hvm(p1 - q1)

-        paddsb      mm2,        mm0             ; 3 * (q0 - p0) + hvm(p1 - q1)

-        pand       mm1,        mm2              ; mask filter values we don't care about

-        movq        mm2,        mm1

-        paddsb      mm1,        [GLOBAL(t4)]      ; 3* (q0 - p0) + hvm(p1 - q1) + 4

-        paddsb      mm2,        [GLOBAL(t3)]      ; 3* (q0 - p0) + hvm(p1 - q1) + 3

-        pxor        mm0,        mm0          ;

-        pxor        mm5,        mm5

-        punpcklbw   mm0,        mm2         ;

-        punpckhbw   mm5,        mm2         ;

-        psraw       mm0,        11              ;

-        psraw       mm5,        11

-        packsswb    mm0,        mm5

-        movq        mm2,        mm0         ;  (3* (q0 - p0) + hvm(p1 - q1) + 3) >> 3;

-        pxor        mm0,        mm0           ; 0

-        movq        mm5,        mm1           ; abcdefgh

-        punpcklbw   mm0,        mm1           ; e0f0g0h0

-        psraw       mm0,        11                ; sign extended shift right by 3

-        pxor        mm1,        mm1           ; 0

-        punpckhbw   mm1,        mm5           ; a0b0c0d0

-        psraw       mm1,        11                ; sign extended shift right by 3

-        movq        mm5,        mm0              ; save results

-        packsswb    mm0,        mm1           ; (3* (q0 - p0) + hvm(p1 - q1) + 4) >>3

-        paddsw      mm5,        [GLOBAL(ones)]

-        paddsw      mm1,        [GLOBAL(ones)]

-        psraw       mm5,        1                 ; partial shifted one more time for 2nd tap

-        psraw       mm1,        1                 ; partial shifted one more time for 2nd tap

-        packsswb    mm5,        mm1           ; (3* (q0 - p0) + hvm(p1 - q1) + 4) >>4

-        pandn       mm4,        mm5             ; high edge variance additive

-        paddsb      mm6,        mm2             ; p0+= p0 add

-        pxor        mm6,        [GLOBAL(t80)]   ; unoffset

-        ; mm6=p0                               ;

-        movq        mm1,        [rdx]           ; p1

-        pxor        mm1,        [GLOBAL(t80)]   ; reoffset

-        paddsb      mm1,        mm4                 ; p1+= p1 add

-        pxor        mm1,        [GLOBAL(t80)]       ; unoffset

-        ; mm6 = p0 mm1 = p1

-        psubsb      mm3,        mm0                 ; q0-= q0 add

-        pxor        mm3,        [GLOBAL(t80)]       ; unoffset

-        ; mm3 = q0

-        psubsb      mm7,        mm4                 ; q1-= q1 add

-        pxor        mm7,        [GLOBAL(t80)]       ; unoffset

-        ; mm7 = q1

-        ; transpose and write back

-        ; mm1 =    72 62 52 42 32 22 12 02

-        ; mm6 =    73 63 53 43 33 23 13 03

-        ; mm3 =    74 64 54 44 34 24 14 04

-        ; mm7 =    75 65 55 45 35 25 15 05

-        movq        mm2,        mm1             ; 72 62 52 42 32 22 12 02

-        punpcklbw   mm2,        mm6             ; 33 32 23 22 13 12 03 02

-        movq        mm4,        mm3             ; 74 64 54 44 34 24 14 04

-        punpckhbw   mm1,        mm6             ; 73 72 63 62 53 52 43 42

-        punpcklbw   mm4,        mm7             ; 35 34 25 24 15 14 05 04

-        punpckhbw   mm3,        mm7             ; 75 74 65 64 55 54 45 44

-        movq        mm6,        mm2             ; 33 32 23 22 13 12 03 02

-        punpcklwd   mm2,        mm4             ; 15 14 13 12 05 04 03 02

-        punpckhwd   mm6,        mm4             ; 35 34 33 32 25 24 23 22

-        movq        mm5,        mm1             ; 73 72 63 62 53 52 43 42

-        punpcklwd   mm1,        mm3             ; 55 54 53 52 45 44 43 42

-        punpckhwd   mm5,        mm3             ; 75 74 73 72 65 64 63 62

-        ; mm2 = 15 14 13 12 05 04 03 02

-        ; mm6 = 35 34 33 32 25 24 23 22

-        ; mm5 = 55 54 53 52 45 44 43 42

-        ; mm1 = 75 74 73 72 65 64 63 62

-        movd        [rsi+rax*4+2], mm2

-        psrlq       mm2,        32

-        movd        [rdi+rax*4+2], mm2

-        movd        [rsi+rax*2+2], mm6

-        psrlq       mm6,        32

-        movd        [rsi+rax+2],mm6

-        movd        [rsi+2],    mm1

-        psrlq       mm1,        32

-        movd        [rdi+2],    mm1

-        neg         rax

-        movd        [rdi+rax+2],mm5

-        psrlq       mm5,        32

-        movd        [rdi+rax*2+2], mm5

-        lea         rsi,        [rsi+rax*8]

-        dec         rcx

-        jnz         .next8_v

-    add rsp, 64

-    pop rsp

-    ; begin epilog

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-SECTION_RODATA

-align 16

-tfe:

-    times 8 db 0xfe

-align 16

-t80:

-    times 8 db 0x80

-align 16

-t3:

-    times 8 db 0x03

-align 16

-t4:

-    times 8 db 0x04

-align 16

-ones:

-    times 4 dw 0x0001

--- a/vp9/vp9_common.mk

+++ b/vp9/vp9_common.mk

@@ -54,7 +54,6 @@

 VP9_COMMON_SRCS-yes += common/vp9_tile_common.h

 VP9_COMMON_SRCS-yes += common/vp9_tile_common.c

 VP9_COMMON_SRCS-yes += common/vp9_loopfilter.c

-VP9_COMMON_SRCS-yes += common/vp9_loopfilter_filters.c

 VP9_COMMON_SRCS-yes += common/vp9_thread_common.c

 VP9_COMMON_SRCS-yes += common/vp9_mvref_common.c

 VP9_COMMON_SRCS-yes += common/vp9_mvref_common.h

@@ -69,14 +68,11 @@

 VP9_COMMON_SRCS-$(ARCH_X86)$(ARCH_X86_64) += common/x86/convolve.h

 VP9_COMMON_SRCS-$(ARCH_X86)$(ARCH_X86_64) += common/x86/vp9_asm_stubs.c

-VP9_COMMON_SRCS-$(ARCH_X86)$(ARCH_X86_64) += common/x86/vp9_loopfilter_intrin_sse2.c

-VP9_COMMON_SRCS-$(HAVE_AVX2) += common/x86/vp9_loopfilter_intrin_avx2.c

 VP9_COMMON_SRCS-$(CONFIG_VP9_POSTPROC) += common/vp9_postproc.h

 VP9_COMMON_SRCS-$(CONFIG_VP9_POSTPROC) += common/vp9_postproc.c

 VP9_COMMON_SRCS-$(CONFIG_VP9_POSTPROC) += common/vp9_mfqe.h

 VP9_COMMON_SRCS-$(CONFIG_VP9_POSTPROC) += common/vp9_mfqe.c

 VP9_COMMON_SRCS-$(HAVE_SSE2) += common/x86/vp9_idct_sse2.asm

-VP9_COMMON_SRCS-$(HAVE_MMX) += common/x86/vp9_loopfilter_mmx.asm

 VP9_COMMON_SRCS-$(HAVE_SSE2) += common/x86/vp9_subpixel_8t_sse2.asm

 VP9_COMMON_SRCS-$(HAVE_SSE2) += common/x86/vp9_subpixel_bilinear_sse2.asm

 VP9_COMMON_SRCS-$(HAVE_SSSE3) += common/x86/vp9_subpixel_8t_ssse3.asm

@@ -95,7 +91,6 @@

 endif

 ifeq ($(CONFIG_VP9_HIGHBITDEPTH),yes)

-VP9_COMMON_SRCS-$(HAVE_SSE2) += common/x86/vp9_high_loopfilter_intrin_sse2.c

 VP9_COMMON_SRCS-$(HAVE_SSE2) += common/x86/vp9_high_subpixel_8t_sse2.asm

 VP9_COMMON_SRCS-$(HAVE_SSE2) += common/x86/vp9_high_subpixel_bilinear_sse2.asm

 ifeq ($(CONFIG_USE_X86INC),yes)

@@ -147,10 +142,6 @@

 VP9_COMMON_SRCS-$(HAVE_MSA) += common/mips/msa/vp9_idct32x32_msa.c

 VP9_COMMON_SRCS-$(HAVE_MSA) += common/mips/msa/vp9_idct_msa.h

 VP9_COMMON_SRCS-$(HAVE_MSA) += common/mips/msa/vp9_intra_predict_msa.c

-VP9_COMMON_SRCS-$(HAVE_MSA) += common/mips/msa/vp9_loopfilter_4_msa.c

-VP9_COMMON_SRCS-$(HAVE_MSA) += common/mips/msa/vp9_loopfilter_8_msa.c

-VP9_COMMON_SRCS-$(HAVE_MSA) += common/mips/msa/vp9_loopfilter_16_msa.c

-VP9_COMMON_SRCS-$(HAVE_MSA) += common/mips/msa/vp9_loopfilter_msa.h

 ifeq ($(CONFIG_VP9_POSTPROC),yes)

 VP9_COMMON_SRCS-$(HAVE_MSA) += common/mips/msa/vp9_mfqe_msa.c

@@ -165,9 +156,6 @@

 endif

 endif

-VP9_COMMON_SRCS-$(HAVE_NEON_ASM) += common/arm/neon/vp9_loopfilter_16_neon_asm$(ASM)

-VP9_COMMON_SRCS-$(HAVE_NEON_ASM) += common/arm/neon/vp9_loopfilter_8_neon_asm$(ASM)

-VP9_COMMON_SRCS-$(HAVE_NEON_ASM) += common/arm/neon/vp9_mb_lpf_neon$(ASM)

 VP9_COMMON_SRCS-$(HAVE_NEON_ASM) += common/arm/neon/vp9_save_reg_neon$(ASM)

 ifneq ($(CONFIG_VP9_HIGHBITDEPTH),yes)

@@ -174,7 +162,6 @@

 VP9_COMMON_SRCS-$(HAVE_NEON) += common/arm/neon/vp9_iht4x4_add_neon.c

 VP9_COMMON_SRCS-$(HAVE_NEON) += common/arm/neon/vp9_iht8x8_add_neon.c

 endif

-VP9_COMMON_SRCS-$(HAVE_NEON) += common/arm/neon/vp9_loopfilter_neon.c

 # neon with assembly and intrinsics implementations. If both are available

 # prefer assembly.

@@ -193,7 +180,6 @@

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_idct4x4_add_neon_asm$(ASM)

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_idct8x8_1_add_neon_asm$(ASM)

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_idct8x8_add_neon_asm$(ASM)

-VP9_COMMON_SRCS-yes += common/arm/neon/vp9_loopfilter_4_neon_asm$(ASM)

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_reconintra_neon_asm$(ASM)

 else

 ifeq ($(HAVE_NEON), yes)

@@ -211,11 +197,6 @@

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_idct4x4_add_neon.c

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_idct8x8_1_add_neon.c

 VP9_COMMON_SRCS-yes += common/arm/neon/vp9_idct8x8_add_neon.c

-VP9_COMMON_SRCS-yes += common/arm/neon/vp9_loopfilter_16_neon.c

-VP9_COMMON_SRCS-yes += common/arm/neon/vp9_loopfilter_4_neon.c

-# TODO(johannkoenig): re-enable when chromium build is fixed

-# # https://code.google.com/p/chromium/issues/detail?id=443839

-#VP9_COMMON_SRCS-yes += common/arm/neon/vp9_loopfilter_8_neon.c

 endif  # HAVE_NEON

 endif  # HAVE_NEON_ASM

--- /dev/null

+++ b/vpx_dsp/arm/loopfilter_16_neon.asm

@@ -1,0 +1,199 @@

+;

+;  Copyright (c) 2013 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp9_lpf_horizontal_4_dual_neon|

+    ARM

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+;void vp9_lpf_horizontal_4_dual_neon(uint8_t *s, int p,

+;                                    const uint8_t *blimit0,

+;                                    const uint8_t *limit0,

+;                                    const uint8_t *thresh0,

+;                                    const uint8_t *blimit1,

+;                                    const uint8_t *limit1,

+;                                    const uint8_t *thresh1)

+; r0    uint8_t *s,

+; r1    int p,

+; r2    const uint8_t *blimit0,

+; r3    const uint8_t *limit0,

+; sp    const uint8_t *thresh0,

+; sp+4  const uint8_t *blimit1,

+; sp+8  const uint8_t *limit1,

+; sp+12 const uint8_t *thresh1,

+|vp9_lpf_horizontal_4_dual_neon| PROC

+    push        {lr}

+    ldr         r12, [sp, #4]              ; load thresh0

+    vld1.8      {d0}, [r2]                 ; load blimit0 to first half q

+    vld1.8      {d2}, [r3]                 ; load limit0 to first half q

+    add         r1, r1, r1                 ; double pitch

+    ldr         r2, [sp, #8]               ; load blimit1

+    vld1.8      {d4}, [r12]                ; load thresh0 to first half q

+    ldr         r3, [sp, #12]              ; load limit1

+    ldr         r12, [sp, #16]             ; load thresh1

+    vld1.8      {d1}, [r2]                 ; load blimit1 to 2nd half q

+    sub         r2, r0, r1, lsl #1         ; s[-4 * p]

+    vld1.8      {d3}, [r3]                 ; load limit1 to 2nd half q

+    vld1.8      {d5}, [r12]                ; load thresh1 to 2nd half q

+    vpush       {d8-d15}                   ; save neon registers

+    add         r3, r2, r1, lsr #1         ; s[-3 * p]

+    vld1.u8     {q3}, [r2@64], r1          ; p3

+    vld1.u8     {q4}, [r3@64], r1          ; p2

+    vld1.u8     {q5}, [r2@64], r1          ; p1

+    vld1.u8     {q6}, [r3@64], r1          ; p0

+    vld1.u8     {q7}, [r2@64], r1          ; q0

+    vld1.u8     {q8}, [r3@64], r1          ; q1

+    vld1.u8     {q9}, [r2@64]              ; q2

+    vld1.u8     {q10}, [r3@64]             ; q3

+    sub         r2, r2, r1, lsl #1

+    sub         r3, r3, r1, lsl #1

+    bl          vp9_loop_filter_neon_16

+    vst1.u8     {q5}, [r2@64], r1          ; store op1

+    vst1.u8     {q6}, [r3@64], r1          ; store op0

+    vst1.u8     {q7}, [r2@64], r1          ; store oq0

+    vst1.u8     {q8}, [r3@64], r1          ; store oq1

+    vpop        {d8-d15}                   ; restore neon registers

+    pop         {pc}

+    ENDP        ; |vp9_lpf_horizontal_4_dual_neon|

+; void vp9_loop_filter_neon_16();

+; This is a helper function for the loopfilters. The invidual functions do the

+; necessary load, transpose (if necessary) and store. This function uses

+; registers d8-d15, so the calling function must save those registers.

+;

+; r0-r3, r12 PRESERVE

+; q0    blimit

+; q1    limit

+; q2    thresh

+; q3    p3

+; q4    p2

+; q5    p1

+; q6    p0

+; q7    q0

+; q8    q1

+; q9    q2

+; q10   q3

+;

+; Outputs:

+; q5    op1

+; q6    op0

+; q7    oq0

+; q8    oq1

+|vp9_loop_filter_neon_16| PROC

+    ; filter_mask

+    vabd.u8     q11, q3, q4                 ; m1 = abs(p3 - p2)

+    vabd.u8     q12, q4, q5                 ; m2 = abs(p2 - p1)

+    vabd.u8     q13, q5, q6                 ; m3 = abs(p1 - p0)

+    vabd.u8     q14, q8, q7                 ; m4 = abs(q1 - q0)

+    vabd.u8     q3, q9, q8                  ; m5 = abs(q2 - q1)

+    vabd.u8     q4, q10, q9                 ; m6 = abs(q3 - q2)

+    ; only compare the largest value to limit

+    vmax.u8     q11, q11, q12               ; m7 = max(m1, m2)

+    vmax.u8     q12, q13, q14               ; m8 = max(m3, m4)

+    vabd.u8     q9, q6, q7                  ; abs(p0 - q0)

+    vmax.u8     q3, q3, q4                  ; m9 = max(m5, m6)

+    vmov.u8     q10, #0x80

+    vmax.u8     q15, q11, q12               ; m10 = max(m7, m8)

+    vcgt.u8     q13, q13, q2                ; (abs(p1 - p0) > thresh)*-1

+    vcgt.u8     q14, q14, q2                ; (abs(q1 - q0) > thresh)*-1

+    vmax.u8     q15, q15, q3                ; m11 = max(m10, m9)

+    vabd.u8     q2, q5, q8                  ; a = abs(p1 - q1)

+    vqadd.u8    q9, q9, q9                  ; b = abs(p0 - q0) * 2

+    veor        q7, q7, q10                 ; qs0

+    vcge.u8     q15, q1, q15                ; abs(m11) > limit

+    vshr.u8     q2, q2, #1                  ; a = a / 2

+    veor        q6, q6, q10                 ; ps0

+    veor        q5, q5, q10                 ; ps1

+    vqadd.u8    q9, q9, q2                  ; a = b + a

+    veor        q8, q8, q10                 ; qs1

+    vmov.u16    q4, #3

+    vsubl.s8    q2, d14, d12                ; ( qs0 - ps0)

+    vsubl.s8    q11, d15, d13

+    vcge.u8     q9, q0, q9                  ; a > blimit

+    vqsub.s8    q1, q5, q8                  ; filter = clamp(ps1-qs1)

+    vorr        q14, q13, q14               ; hev

+    vmul.i16    q2, q2, q4                  ; 3 * ( qs0 - ps0)

+    vmul.i16    q11, q11, q4

+    vand        q1, q1, q14                 ; filter &= hev

+    vand        q15, q15, q9                ; mask

+    vmov.u8     q4, #3

+    vaddw.s8    q2, q2, d2                  ; filter + 3 * (qs0 - ps0)

+    vaddw.s8    q11, q11, d3

+    vmov.u8     q9, #4

+    ; filter = clamp(filter + 3 * ( qs0 - ps0))

+    vqmovn.s16  d2, q2

+    vqmovn.s16  d3, q11

+    vand        q1, q1, q15                 ; filter &= mask

+    vqadd.s8    q2, q1, q4                  ; filter2 = clamp(filter+3)

+    vqadd.s8    q1, q1, q9                  ; filter1 = clamp(filter+4)

+    vshr.s8     q2, q2, #3                  ; filter2 >>= 3

+    vshr.s8     q1, q1, #3                  ; filter1 >>= 3

+    vqadd.s8    q11, q6, q2                 ; u = clamp(ps0 + filter2)

+    vqsub.s8    q0, q7, q1                  ; u = clamp(qs0 - filter1)

+    ; outer tap adjustments

+    vrshr.s8    q1, q1, #1                  ; filter = ++filter1 >> 1

+    veor        q7, q0,  q10                ; *oq0 = u^0x80

+    vbic        q1, q1, q14                 ; filter &= ~hev

+    vqadd.s8    q13, q5, q1                 ; u = clamp(ps1 + filter)

+    vqsub.s8    q12, q8, q1                 ; u = clamp(qs1 - filter)

+    veor        q6, q11, q10                ; *op0 = u^0x80

+    veor        q5, q13, q10                ; *op1 = u^0x80

+    veor        q8, q12, q10                ; *oq1 = u^0x80

+    bx          lr

+    ENDP        ; |vp9_loop_filter_neon_16|

+    END

--- /dev/null

+++ b/vpx_dsp/arm/loopfilter_16_neon.c

@@ -1,0 +1,179 @@

+/*

+ *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include <arm_neon.h>

+#include "./vpx_dsp_rtcd.h"

+#include "./vpx_config.h"

+#include "vpx/vpx_integer.h"

+static INLINE void vp9_loop_filter_neon_16(

+        uint8x16_t qblimit,  // blimit

+        uint8x16_t qlimit,   // limit

+        uint8x16_t qthresh,  // thresh

+        uint8x16_t q3,       // p3

+        uint8x16_t q4,       // p2

+        uint8x16_t q5,       // p1

+        uint8x16_t q6,       // p0

+        uint8x16_t q7,       // q0

+        uint8x16_t q8,       // q1

+        uint8x16_t q9,       // q2

+        uint8x16_t q10,      // q3

+        uint8x16_t *q5r,     // p1

+        uint8x16_t *q6r,     // p0

+        uint8x16_t *q7r,     // q0

+        uint8x16_t *q8r) {   // q1

+    uint8x16_t q1u8, q2u8, q11u8, q12u8, q13u8, q14u8, q15u8;

+    int16x8_t q2s16, q11s16;

+    uint16x8_t q4u16;

+    int8x16_t q0s8, q1s8, q2s8, q11s8, q12s8, q13s8;

+    int8x8_t d2s8, d3s8;

+    q11u8 = vabdq_u8(q3, q4);

+    q12u8 = vabdq_u8(q4, q5);

+    q13u8 = vabdq_u8(q5, q6);

+    q14u8 = vabdq_u8(q8, q7);

+    q3 = vabdq_u8(q9, q8);

+    q4 = vabdq_u8(q10, q9);

+    q11u8 = vmaxq_u8(q11u8, q12u8);

+    q12u8 = vmaxq_u8(q13u8, q14u8);

+    q3 = vmaxq_u8(q3, q4);

+    q15u8 = vmaxq_u8(q11u8, q12u8);

+    q9 = vabdq_u8(q6, q7);

+    // vp8_hevmask

+    q13u8 = vcgtq_u8(q13u8, qthresh);

+    q14u8 = vcgtq_u8(q14u8, qthresh);

+    q15u8 = vmaxq_u8(q15u8, q3);

+    q2u8 = vabdq_u8(q5, q8);

+    q9 = vqaddq_u8(q9, q9);

+    q15u8 = vcgeq_u8(qlimit, q15u8);

+    // vp8_filter() function

+    // convert to signed

+    q10 = vdupq_n_u8(0x80);

+    q8 = veorq_u8(q8, q10);

+    q7 = veorq_u8(q7, q10);

+    q6 = veorq_u8(q6, q10);

+    q5 = veorq_u8(q5, q10);

+    q2u8 = vshrq_n_u8(q2u8, 1);

+    q9 = vqaddq_u8(q9, q2u8);

+    q2s16 = vsubl_s8(vget_low_s8(vreinterpretq_s8_u8(q7)),

+                     vget_low_s8(vreinterpretq_s8_u8(q6)));

+    q11s16 = vsubl_s8(vget_high_s8(vreinterpretq_s8_u8(q7)),

+                      vget_high_s8(vreinterpretq_s8_u8(q6)));

+    q9 = vcgeq_u8(qblimit, q9);

+    q1s8 = vqsubq_s8(vreinterpretq_s8_u8(q5),

+                    vreinterpretq_s8_u8(q8));

+    q14u8 = vorrq_u8(q13u8, q14u8);

+    q4u16 = vdupq_n_u16(3);

+    q2s16 = vmulq_s16(q2s16, vreinterpretq_s16_u16(q4u16));

+    q11s16 = vmulq_s16(q11s16, vreinterpretq_s16_u16(q4u16));

+    q1u8 = vandq_u8(vreinterpretq_u8_s8(q1s8), q14u8);

+    q15u8 = vandq_u8(q15u8, q9);

+    q1s8 = vreinterpretq_s8_u8(q1u8);

+    q2s16 = vaddw_s8(q2s16, vget_low_s8(q1s8));

+    q11s16 = vaddw_s8(q11s16, vget_high_s8(q1s8));

+    q4 = vdupq_n_u8(3);

+    q9 = vdupq_n_u8(4);

+    // vp8_filter = clamp(vp8_filter + 3 * ( qs0 - ps0))

+    d2s8 = vqmovn_s16(q2s16);

+    d3s8 = vqmovn_s16(q11s16);

+    q1s8 = vcombine_s8(d2s8, d3s8);

+    q1u8 = vandq_u8(vreinterpretq_u8_s8(q1s8), q15u8);

+    q1s8 = vreinterpretq_s8_u8(q1u8);

+    q2s8 = vqaddq_s8(q1s8, vreinterpretq_s8_u8(q4));

+    q1s8 = vqaddq_s8(q1s8, vreinterpretq_s8_u8(q9));

+    q2s8 = vshrq_n_s8(q2s8, 3);

+    q1s8 = vshrq_n_s8(q1s8, 3);

+    q11s8 = vqaddq_s8(vreinterpretq_s8_u8(q6), q2s8);

+    q0s8 = vqsubq_s8(vreinterpretq_s8_u8(q7), q1s8);

+    q1s8 = vrshrq_n_s8(q1s8, 1);

+    q1s8 = vbicq_s8(q1s8, vreinterpretq_s8_u8(q14u8));

+    q13s8 = vqaddq_s8(vreinterpretq_s8_u8(q5), q1s8);

+    q12s8 = vqsubq_s8(vreinterpretq_s8_u8(q8), q1s8);

+    *q8r = veorq_u8(vreinterpretq_u8_s8(q12s8), q10);

+    *q7r = veorq_u8(vreinterpretq_u8_s8(q0s8),  q10);

+    *q6r = veorq_u8(vreinterpretq_u8_s8(q11s8), q10);

+    *q5r = veorq_u8(vreinterpretq_u8_s8(q13s8), q10);

+    return;

+}

+void vp9_lpf_horizontal_4_dual_neon(uint8_t *s, int p /* pitch */,

+                                    const uint8_t *blimit0,

+                                    const uint8_t *limit0,

+                                    const uint8_t *thresh0,

+                                    const uint8_t *blimit1,

+                                    const uint8_t *limit1,

+                                    const uint8_t *thresh1) {

+    uint8x8_t dblimit0, dlimit0, dthresh0, dblimit1, dlimit1, dthresh1;

+    uint8x16_t qblimit, qlimit, qthresh;

+    uint8x16_t q3u8, q4u8, q5u8, q6u8, q7u8, q8u8, q9u8, q10u8;

+    dblimit0 = vld1_u8(blimit0);

+    dlimit0 = vld1_u8(limit0);

+    dthresh0 = vld1_u8(thresh0);

+    dblimit1 = vld1_u8(blimit1);

+    dlimit1 = vld1_u8(limit1);

+    dthresh1 = vld1_u8(thresh1);

+    qblimit = vcombine_u8(dblimit0, dblimit1);

+    qlimit = vcombine_u8(dlimit0, dlimit1);

+    qthresh = vcombine_u8(dthresh0, dthresh1);

+    s -= (p << 2);

+    q3u8 = vld1q_u8(s);

+    s += p;

+    q4u8 = vld1q_u8(s);

+    s += p;

+    q5u8 = vld1q_u8(s);

+    s += p;

+    q6u8 = vld1q_u8(s);

+    s += p;

+    q7u8 = vld1q_u8(s);

+    s += p;

+    q8u8 = vld1q_u8(s);

+    s += p;

+    q9u8 = vld1q_u8(s);

+    s += p;

+    q10u8 = vld1q_u8(s);

+    vp9_loop_filter_neon_16(qblimit, qlimit, qthresh,

+                            q3u8, q4u8, q5u8, q6u8, q7u8, q8u8, q9u8, q10u8,

+                            &q5u8, &q6u8, &q7u8, &q8u8);

+    s -= (p * 5);

+    vst1q_u8(s, q5u8);

+    s += p;

+    vst1q_u8(s, q6u8);

+    s += p;

+    vst1q_u8(s, q7u8);

+    s += p;

+    vst1q_u8(s, q8u8);

+    return;

+}

--- /dev/null

+++ b/vpx_dsp/arm/loopfilter_4_neon.asm

@@ -1,0 +1,277 @@

+;

+;  Copyright (c) 2013 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp9_lpf_horizontal_4_neon|

+    EXPORT  |vp9_lpf_vertical_4_neon|

+    ARM

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; Currently vp9 only works on iterations 8 at a time. The vp8 loop filter

+; works on 16 iterations at a time.

+; TODO(fgalligan): See about removing the count code as this function is only

+; called with a count of 1.

+;

+; void vp9_lpf_horizontal_4_neon(uint8_t *s,

+;                                int p /* pitch */,

+;                                const uint8_t *blimit,

+;                                const uint8_t *limit,

+;                                const uint8_t *thresh,

+;                                int count)

+;

+; r0    uint8_t *s,

+; r1    int p, /* pitch */

+; r2    const uint8_t *blimit,

+; r3    const uint8_t *limit,

+; sp    const uint8_t *thresh,

+; sp+4  int count

+|vp9_lpf_horizontal_4_neon| PROC

+    push        {lr}

+    vld1.8      {d0[]}, [r2]               ; duplicate *blimit

+    ldr         r12, [sp, #8]              ; load count

+    ldr         r2, [sp, #4]               ; load thresh

+    add         r1, r1, r1                 ; double pitch

+    cmp         r12, #0

+    beq         end_vp9_lf_h_edge

+    vld1.8      {d1[]}, [r3]               ; duplicate *limit

+    vld1.8      {d2[]}, [r2]               ; duplicate *thresh

+count_lf_h_loop

+    sub         r2, r0, r1, lsl #1         ; move src pointer down by 4 lines

+    add         r3, r2, r1, lsr #1         ; set to 3 lines down

+    vld1.u8     {d3}, [r2@64], r1          ; p3

+    vld1.u8     {d4}, [r3@64], r1          ; p2

+    vld1.u8     {d5}, [r2@64], r1          ; p1

+    vld1.u8     {d6}, [r3@64], r1          ; p0

+    vld1.u8     {d7}, [r2@64], r1          ; q0

+    vld1.u8     {d16}, [r3@64], r1         ; q1

+    vld1.u8     {d17}, [r2@64]             ; q2

+    vld1.u8     {d18}, [r3@64]             ; q3

+    sub         r2, r2, r1, lsl #1

+    sub         r3, r3, r1, lsl #1

+    bl          vp9_loop_filter_neon

+    vst1.u8     {d4}, [r2@64], r1          ; store op1

+    vst1.u8     {d5}, [r3@64], r1          ; store op0

+    vst1.u8     {d6}, [r2@64], r1          ; store oq0

+    vst1.u8     {d7}, [r3@64], r1          ; store oq1

+    add         r0, r0, #8

+    subs        r12, r12, #1

+    bne         count_lf_h_loop

+end_vp9_lf_h_edge

+    pop         {pc}

+    ENDP        ; |vp9_lpf_horizontal_4_neon|

+; Currently vp9 only works on iterations 8 at a time. The vp8 loop filter

+; works on 16 iterations at a time.

+; TODO(fgalligan): See about removing the count code as this function is only

+; called with a count of 1.

+;

+; void vp9_lpf_vertical_4_neon(uint8_t *s,

+;                              int p /* pitch */,

+;                              const uint8_t *blimit,

+;                              const uint8_t *limit,

+;                              const uint8_t *thresh,

+;                              int count)

+;

+; r0    uint8_t *s,

+; r1    int p, /* pitch */

+; r2    const uint8_t *blimit,

+; r3    const uint8_t *limit,

+; sp    const uint8_t *thresh,

+; sp+4  int count

+|vp9_lpf_vertical_4_neon| PROC

+    push        {lr}

+    vld1.8      {d0[]}, [r2]              ; duplicate *blimit

+    ldr         r12, [sp, #8]             ; load count

+    vld1.8      {d1[]}, [r3]              ; duplicate *limit

+    ldr         r3, [sp, #4]              ; load thresh

+    sub         r2, r0, #4                ; move s pointer down by 4 columns

+    cmp         r12, #0

+    beq         end_vp9_lf_v_edge

+    vld1.8      {d2[]}, [r3]              ; duplicate *thresh

+count_lf_v_loop

+    vld1.u8     {d3}, [r2], r1             ; load s data

+    vld1.u8     {d4}, [r2], r1

+    vld1.u8     {d5}, [r2], r1

+    vld1.u8     {d6}, [r2], r1

+    vld1.u8     {d7}, [r2], r1

+    vld1.u8     {d16}, [r2], r1

+    vld1.u8     {d17}, [r2], r1

+    vld1.u8     {d18}, [r2]

+    ;transpose to 8x16 matrix

+    vtrn.32     d3, d7

+    vtrn.32     d4, d16

+    vtrn.32     d5, d17

+    vtrn.32     d6, d18

+    vtrn.16     d3, d5

+    vtrn.16     d4, d6

+    vtrn.16     d7, d17

+    vtrn.16     d16, d18

+    vtrn.8      d3, d4

+    vtrn.8      d5, d6

+    vtrn.8      d7, d16

+    vtrn.8      d17, d18

+    bl          vp9_loop_filter_neon

+    sub         r0, r0, #2

+    ;store op1, op0, oq0, oq1

+    vst4.8      {d4[0], d5[0], d6[0], d7[0]}, [r0], r1

+    vst4.8      {d4[1], d5[1], d6[1], d7[1]}, [r0], r1

+    vst4.8      {d4[2], d5[2], d6[2], d7[2]}, [r0], r1

+    vst4.8      {d4[3], d5[3], d6[3], d7[3]}, [r0], r1

+    vst4.8      {d4[4], d5[4], d6[4], d7[4]}, [r0], r1

+    vst4.8      {d4[5], d5[5], d6[5], d7[5]}, [r0], r1

+    vst4.8      {d4[6], d5[6], d6[6], d7[6]}, [r0], r1

+    vst4.8      {d4[7], d5[7], d6[7], d7[7]}, [r0]

+    add         r0, r0, r1, lsl #3         ; s += pitch * 8

+    subs        r12, r12, #1

+    subne       r2, r0, #4                 ; move s pointer down by 4 columns

+    bne         count_lf_v_loop

+end_vp9_lf_v_edge

+    pop         {pc}

+    ENDP        ; |vp9_lpf_vertical_4_neon|

+; void vp9_loop_filter_neon();

+; This is a helper function for the loopfilters. The invidual functions do the

+; necessary load, transpose (if necessary) and store. The function does not use

+; registers d8-d15.

+;

+; Inputs:

+; r0-r3, r12 PRESERVE

+; d0    blimit

+; d1    limit

+; d2    thresh

+; d3    p3

+; d4    p2

+; d5    p1

+; d6    p0

+; d7    q0

+; d16   q1

+; d17   q2

+; d18   q3

+;

+; Outputs:

+; d4    op1

+; d5    op0

+; d6    oq0

+; d7    oq1

+|vp9_loop_filter_neon| PROC

+    ; filter_mask

+    vabd.u8     d19, d3, d4                 ; m1 = abs(p3 - p2)

+    vabd.u8     d20, d4, d5                 ; m2 = abs(p2 - p1)

+    vabd.u8     d21, d5, d6                 ; m3 = abs(p1 - p0)

+    vabd.u8     d22, d16, d7                ; m4 = abs(q1 - q0)

+    vabd.u8     d3, d17, d16                ; m5 = abs(q2 - q1)

+    vabd.u8     d4, d18, d17                ; m6 = abs(q3 - q2)

+    ; only compare the largest value to limit

+    vmax.u8     d19, d19, d20               ; m1 = max(m1, m2)

+    vmax.u8     d20, d21, d22               ; m2 = max(m3, m4)

+    vabd.u8     d17, d6, d7                 ; abs(p0 - q0)

+    vmax.u8     d3, d3, d4                  ; m3 = max(m5, m6)

+    vmov.u8     d18, #0x80

+    vmax.u8     d23, d19, d20               ; m1 = max(m1, m2)

+    ; hevmask

+    vcgt.u8     d21, d21, d2                ; (abs(p1 - p0) > thresh)*-1

+    vcgt.u8     d22, d22, d2                ; (abs(q1 - q0) > thresh)*-1

+    vmax.u8     d23, d23, d3                ; m1 = max(m1, m3)

+    vabd.u8     d28, d5, d16                ; a = abs(p1 - q1)

+    vqadd.u8    d17, d17, d17               ; b = abs(p0 - q0) * 2

+    veor        d7, d7, d18                 ; qs0

+    vcge.u8     d23, d1, d23                ; abs(m1) > limit

+    ; filter() function

+    ; convert to signed

+    vshr.u8     d28, d28, #1                ; a = a / 2

+    veor        d6, d6, d18                 ; ps0

+    veor        d5, d5, d18                 ; ps1

+    vqadd.u8    d17, d17, d28               ; a = b + a

+    veor        d16, d16, d18               ; qs1

+    vmov.u8     d19, #3

+    vsub.s8     d28, d7, d6                 ; ( qs0 - ps0)

+    vcge.u8     d17, d0, d17                ; a > blimit

+    vqsub.s8    d27, d5, d16                ; filter = clamp(ps1-qs1)

+    vorr        d22, d21, d22               ; hevmask

+    vmull.s8    q12, d28, d19               ; 3 * ( qs0 - ps0)

+    vand        d27, d27, d22               ; filter &= hev

+    vand        d23, d23, d17               ; filter_mask

+    vaddw.s8    q12, q12, d27               ; filter + 3 * (qs0 - ps0)

+    vmov.u8     d17, #4

+    ; filter = clamp(filter + 3 * ( qs0 - ps0))

+    vqmovn.s16  d27, q12

+    vand        d27, d27, d23               ; filter &= mask

+    vqadd.s8    d28, d27, d19               ; filter2 = clamp(filter+3)

+    vqadd.s8    d27, d27, d17               ; filter1 = clamp(filter+4)

+    vshr.s8     d28, d28, #3                ; filter2 >>= 3

+    vshr.s8     d27, d27, #3                ; filter1 >>= 3

+    vqadd.s8    d19, d6, d28                ; u = clamp(ps0 + filter2)

+    vqsub.s8    d26, d7, d27                ; u = clamp(qs0 - filter1)

+    ; outer tap adjustments

+    vrshr.s8    d27, d27, #1                ; filter = ++filter1 >> 1

+    veor        d6, d26, d18                ; *oq0 = u^0x80

+    vbic        d27, d27, d22               ; filter &= ~hev

+    vqadd.s8    d21, d5, d27                ; u = clamp(ps1 + filter)

+    vqsub.s8    d20, d16, d27               ; u = clamp(qs1 - filter)

+    veor        d5, d19, d18                ; *op0 = u^0x80

+    veor        d4, d21, d18                ; *op1 = u^0x80

+    veor        d7, d20, d18                ; *oq1 = u^0x80

+    bx          lr

+    ENDP        ; |vp9_loop_filter_neon|

+    END

--- /dev/null

+++ b/vpx_dsp/arm/loopfilter_4_neon.c

@@ -1,0 +1,274 @@

+/*

+ *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include <arm_neon.h>

+#include "./vpx_dsp_rtcd.h"

+static INLINE void vp9_loop_filter_neon(

+        uint8x8_t dblimit,    // flimit

+        uint8x8_t dlimit,     // limit

+        uint8x8_t dthresh,    // thresh

+        uint8x8_t d3u8,       // p3

+        uint8x8_t d4u8,       // p2

+        uint8x8_t d5u8,       // p1

+        uint8x8_t d6u8,       // p0

+        uint8x8_t d7u8,       // q0

+        uint8x8_t d16u8,      // q1

+        uint8x8_t d17u8,      // q2

+        uint8x8_t d18u8,      // q3

+        uint8x8_t *d4ru8,     // p1

+        uint8x8_t *d5ru8,     // p0

+        uint8x8_t *d6ru8,     // q0

+        uint8x8_t *d7ru8) {   // q1

+    uint8x8_t d19u8, d20u8, d21u8, d22u8, d23u8, d27u8, d28u8;

+    int16x8_t q12s16;

+    int8x8_t d19s8, d20s8, d21s8, d26s8, d27s8, d28s8;

+    d19u8 = vabd_u8(d3u8, d4u8);

+    d20u8 = vabd_u8(d4u8, d5u8);

+    d21u8 = vabd_u8(d5u8, d6u8);

+    d22u8 = vabd_u8(d16u8, d7u8);

+    d3u8  = vabd_u8(d17u8, d16u8);

+    d4u8  = vabd_u8(d18u8, d17u8);

+    d19u8 = vmax_u8(d19u8, d20u8);

+    d20u8 = vmax_u8(d21u8, d22u8);

+    d3u8  = vmax_u8(d3u8,  d4u8);

+    d23u8 = vmax_u8(d19u8, d20u8);

+    d17u8 = vabd_u8(d6u8, d7u8);

+    d21u8 = vcgt_u8(d21u8, dthresh);

+    d22u8 = vcgt_u8(d22u8, dthresh);

+    d23u8 = vmax_u8(d23u8, d3u8);

+    d28u8 = vabd_u8(d5u8, d16u8);

+    d17u8 = vqadd_u8(d17u8, d17u8);

+    d23u8 = vcge_u8(dlimit, d23u8);

+    d18u8 = vdup_n_u8(0x80);

+    d5u8  = veor_u8(d5u8,  d18u8);

+    d6u8  = veor_u8(d6u8,  d18u8);

+    d7u8  = veor_u8(d7u8,  d18u8);

+    d16u8 = veor_u8(d16u8, d18u8);

+    d28u8 = vshr_n_u8(d28u8, 1);

+    d17u8 = vqadd_u8(d17u8, d28u8);

+    d19u8 = vdup_n_u8(3);

+    d28s8 = vsub_s8(vreinterpret_s8_u8(d7u8),

+                    vreinterpret_s8_u8(d6u8));

+    d17u8 = vcge_u8(dblimit, d17u8);

+    d27s8 = vqsub_s8(vreinterpret_s8_u8(d5u8),

+                     vreinterpret_s8_u8(d16u8));

+    d22u8 = vorr_u8(d21u8, d22u8);

+    q12s16 = vmull_s8(d28s8, vreinterpret_s8_u8(d19u8));

+    d27u8 = vand_u8(vreinterpret_u8_s8(d27s8), d22u8);

+    d23u8 = vand_u8(d23u8, d17u8);

+    q12s16 = vaddw_s8(q12s16, vreinterpret_s8_u8(d27u8));

+    d17u8 = vdup_n_u8(4);

+    d27s8 = vqmovn_s16(q12s16);

+    d27u8 = vand_u8(vreinterpret_u8_s8(d27s8), d23u8);

+    d27s8 = vreinterpret_s8_u8(d27u8);

+    d28s8 = vqadd_s8(d27s8, vreinterpret_s8_u8(d19u8));

+    d27s8 = vqadd_s8(d27s8, vreinterpret_s8_u8(d17u8));

+    d28s8 = vshr_n_s8(d28s8, 3);

+    d27s8 = vshr_n_s8(d27s8, 3);

+    d19s8 = vqadd_s8(vreinterpret_s8_u8(d6u8), d28s8);

+    d26s8 = vqsub_s8(vreinterpret_s8_u8(d7u8), d27s8);

+    d27s8 = vrshr_n_s8(d27s8, 1);

+    d27s8 = vbic_s8(d27s8, vreinterpret_s8_u8(d22u8));

+    d21s8 = vqadd_s8(vreinterpret_s8_u8(d5u8), d27s8);

+    d20s8 = vqsub_s8(vreinterpret_s8_u8(d16u8), d27s8);

+    *d4ru8 = veor_u8(vreinterpret_u8_s8(d21s8), d18u8);

+    *d5ru8 = veor_u8(vreinterpret_u8_s8(d19s8), d18u8);

+    *d6ru8 = veor_u8(vreinterpret_u8_s8(d26s8), d18u8);

+    *d7ru8 = veor_u8(vreinterpret_u8_s8(d20s8), d18u8);

+    return;

+}

+void vp9_lpf_horizontal_4_neon(

+        uint8_t *src,

+        int pitch,

+        const uint8_t *blimit,

+        const uint8_t *limit,

+        const uint8_t *thresh,

+        int count) {

+    int i;

+    uint8_t *s, *psrc;

+    uint8x8_t dblimit, dlimit, dthresh;

+    uint8x8_t d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8;

+    if (count == 0)  // end_vp9_lf_h_edge

+        return;

+    dblimit = vld1_u8(blimit);

+    dlimit = vld1_u8(limit);

+    dthresh = vld1_u8(thresh);

+    psrc = src - (pitch << 2);

+    for (i = 0; i < count; i++) {

+        s = psrc + i * 8;

+        d3u8 = vld1_u8(s);

+        s += pitch;

+        d4u8 = vld1_u8(s);

+        s += pitch;

+        d5u8 = vld1_u8(s);

+        s += pitch;

+        d6u8 = vld1_u8(s);

+        s += pitch;

+        d7u8 = vld1_u8(s);

+        s += pitch;

+        d16u8 = vld1_u8(s);

+        s += pitch;

+        d17u8 = vld1_u8(s);

+        s += pitch;

+        d18u8 = vld1_u8(s);

+        vp9_loop_filter_neon(dblimit, dlimit, dthresh,

+                             d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,

+                             &d4u8, &d5u8, &d6u8, &d7u8);

+        s -= (pitch * 5);

+        vst1_u8(s, d4u8);

+        s += pitch;

+        vst1_u8(s, d5u8);

+        s += pitch;

+        vst1_u8(s, d6u8);

+        s += pitch;

+        vst1_u8(s, d7u8);

+    }

+    return;

+}

+void vp9_lpf_vertical_4_neon(

+        uint8_t *src,

+        int pitch,

+        const uint8_t *blimit,

+        const uint8_t *limit,

+        const uint8_t *thresh,

+        int count) {

+    int i, pitch8;

+    uint8_t *s;

+    uint8x8_t dblimit, dlimit, dthresh;

+    uint8x8_t d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8;

+    uint32x2x2_t d2tmp0, d2tmp1, d2tmp2, d2tmp3;

+    uint16x4x2_t d2tmp4, d2tmp5, d2tmp6, d2tmp7;

+    uint8x8x2_t d2tmp8, d2tmp9, d2tmp10, d2tmp11;

+    uint8x8x4_t d4Result;

+    if (count == 0)  // end_vp9_lf_h_edge

+        return;

+    dblimit = vld1_u8(blimit);

+    dlimit = vld1_u8(limit);

+    dthresh = vld1_u8(thresh);

+    pitch8 = pitch * 8;

+    for (i = 0; i < count; i++, src += pitch8) {

+        s = src - (i + 1) * 4;

+        d3u8 = vld1_u8(s);

+        s += pitch;

+        d4u8 = vld1_u8(s);

+        s += pitch;

+        d5u8 = vld1_u8(s);

+        s += pitch;

+        d6u8 = vld1_u8(s);

+        s += pitch;

+        d7u8 = vld1_u8(s);

+        s += pitch;

+        d16u8 = vld1_u8(s);

+        s += pitch;

+        d17u8 = vld1_u8(s);

+        s += pitch;

+        d18u8 = vld1_u8(s);

+        d2tmp0 = vtrn_u32(vreinterpret_u32_u8(d3u8),

+                      vreinterpret_u32_u8(d7u8));

+        d2tmp1 = vtrn_u32(vreinterpret_u32_u8(d4u8),

+                      vreinterpret_u32_u8(d16u8));

+        d2tmp2 = vtrn_u32(vreinterpret_u32_u8(d5u8),

+                      vreinterpret_u32_u8(d17u8));

+        d2tmp3 = vtrn_u32(vreinterpret_u32_u8(d6u8),

+                      vreinterpret_u32_u8(d18u8));

+        d2tmp4 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[0]),

+                          vreinterpret_u16_u32(d2tmp2.val[0]));

+        d2tmp5 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[0]),

+                          vreinterpret_u16_u32(d2tmp3.val[0]));

+        d2tmp6 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[1]),

+                          vreinterpret_u16_u32(d2tmp2.val[1]));

+        d2tmp7 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[1]),

+                          vreinterpret_u16_u32(d2tmp3.val[1]));

+        d2tmp8 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[0]),

+                         vreinterpret_u8_u16(d2tmp5.val[0]));

+        d2tmp9 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[1]),

+                         vreinterpret_u8_u16(d2tmp5.val[1]));

+        d2tmp10 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[0]),

+                          vreinterpret_u8_u16(d2tmp7.val[0]));

+        d2tmp11 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[1]),

+                          vreinterpret_u8_u16(d2tmp7.val[1]));

+        d3u8 = d2tmp8.val[0];

+        d4u8 = d2tmp8.val[1];

+        d5u8 = d2tmp9.val[0];

+        d6u8 = d2tmp9.val[1];

+        d7u8 = d2tmp10.val[0];

+        d16u8 = d2tmp10.val[1];

+        d17u8 = d2tmp11.val[0];

+        d18u8 = d2tmp11.val[1];

+        vp9_loop_filter_neon(dblimit, dlimit, dthresh,

+                             d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,

+                             &d4u8, &d5u8, &d6u8, &d7u8);

+        d4Result.val[0] = d4u8;

+        d4Result.val[1] = d5u8;

+        d4Result.val[2] = d6u8;

+        d4Result.val[3] = d7u8;

+        src -= 2;

+        vst4_lane_u8(src, d4Result, 0);

+        src += pitch;

+        vst4_lane_u8(src, d4Result, 1);

+        src += pitch;

+        vst4_lane_u8(src, d4Result, 2);

+        src += pitch;

+        vst4_lane_u8(src, d4Result, 3);

+        src += pitch;

+        vst4_lane_u8(src, d4Result, 4);

+        src += pitch;

+        vst4_lane_u8(src, d4Result, 5);

+        src += pitch;

+        vst4_lane_u8(src, d4Result, 6);

+        src += pitch;

+        vst4_lane_u8(src, d4Result, 7);

+    }

+    return;

+}

--- /dev/null

+++ b/vpx_dsp/arm/loopfilter_8_neon.asm

@@ -1,0 +1,451 @@

+;

+;  Copyright (c) 2013 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp9_lpf_horizontal_8_neon|

+    EXPORT  |vp9_lpf_vertical_8_neon|

+    ARM

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; Currently vp9 only works on iterations 8 at a time. The vp8 loop filter

+; works on 16 iterations at a time.

+; TODO(fgalligan): See about removing the count code as this function is only

+; called with a count of 1.

+;

+; void vp9_lpf_horizontal_8_neon(uint8_t *s, int p,

+;                                const uint8_t *blimit,

+;                                const uint8_t *limit,

+;                                const uint8_t *thresh,

+;                                int count)

+; r0    uint8_t *s,

+; r1    int p, /* pitch */

+; r2    const uint8_t *blimit,

+; r3    const uint8_t *limit,

+; sp    const uint8_t *thresh,

+; sp+4  int count

+|vp9_lpf_horizontal_8_neon| PROC

+    push        {r4-r5, lr}

+    vld1.8      {d0[]}, [r2]               ; duplicate *blimit

+    ldr         r12, [sp, #16]             ; load count

+    ldr         r2, [sp, #12]              ; load thresh

+    add         r1, r1, r1                 ; double pitch

+    cmp         r12, #0

+    beq         end_vp9_mblf_h_edge

+    vld1.8      {d1[]}, [r3]               ; duplicate *limit

+    vld1.8      {d2[]}, [r2]               ; duplicate *thresh

+count_mblf_h_loop

+    sub         r3, r0, r1, lsl #1         ; move src pointer down by 4 lines

+    add         r2, r3, r1, lsr #1         ; set to 3 lines down

+    vld1.u8     {d3}, [r3@64], r1          ; p3

+    vld1.u8     {d4}, [r2@64], r1          ; p2

+    vld1.u8     {d5}, [r3@64], r1          ; p1

+    vld1.u8     {d6}, [r2@64], r1          ; p0

+    vld1.u8     {d7}, [r3@64], r1          ; q0

+    vld1.u8     {d16}, [r2@64], r1         ; q1

+    vld1.u8     {d17}, [r3@64]             ; q2

+    vld1.u8     {d18}, [r2@64], r1         ; q3

+    sub         r3, r3, r1, lsl #1

+    sub         r2, r2, r1, lsl #2

+    bl          vp9_mbloop_filter_neon

+    vst1.u8     {d0}, [r2@64], r1          ; store op2

+    vst1.u8     {d1}, [r3@64], r1          ; store op1

+    vst1.u8     {d2}, [r2@64], r1          ; store op0

+    vst1.u8     {d3}, [r3@64], r1          ; store oq0

+    vst1.u8     {d4}, [r2@64], r1          ; store oq1

+    vst1.u8     {d5}, [r3@64], r1          ; store oq2

+    add         r0, r0, #8

+    subs        r12, r12, #1

+    bne         count_mblf_h_loop

+end_vp9_mblf_h_edge

+    pop         {r4-r5, pc}

+    ENDP        ; |vp9_lpf_horizontal_8_neon|

+; void vp9_lpf_vertical_8_neon(uint8_t *s,

+;                              int pitch,

+;                              const uint8_t *blimit,

+;                              const uint8_t *limit,

+;                              const uint8_t *thresh,

+;                              int count)

+;

+; r0    uint8_t *s,

+; r1    int pitch,

+; r2    const uint8_t *blimit,

+; r3    const uint8_t *limit,

+; sp    const uint8_t *thresh,

+; sp+4  int count

+|vp9_lpf_vertical_8_neon| PROC

+    push        {r4-r5, lr}

+    vld1.8      {d0[]}, [r2]              ; duplicate *blimit

+    ldr         r12, [sp, #16]            ; load count

+    vld1.8      {d1[]}, [r3]              ; duplicate *limit

+    ldr         r3, [sp, #12]             ; load thresh

+    sub         r2, r0, #4                ; move s pointer down by 4 columns

+    cmp         r12, #0

+    beq         end_vp9_mblf_v_edge

+    vld1.8      {d2[]}, [r3]              ; duplicate *thresh

+count_mblf_v_loop

+    vld1.u8     {d3}, [r2], r1             ; load s data

+    vld1.u8     {d4}, [r2], r1

+    vld1.u8     {d5}, [r2], r1

+    vld1.u8     {d6}, [r2], r1

+    vld1.u8     {d7}, [r2], r1

+    vld1.u8     {d16}, [r2], r1

+    vld1.u8     {d17}, [r2], r1

+    vld1.u8     {d18}, [r2]

+    ;transpose to 8x16 matrix

+    vtrn.32     d3, d7

+    vtrn.32     d4, d16

+    vtrn.32     d5, d17

+    vtrn.32     d6, d18

+    vtrn.16     d3, d5

+    vtrn.16     d4, d6

+    vtrn.16     d7, d17

+    vtrn.16     d16, d18

+    vtrn.8      d3, d4

+    vtrn.8      d5, d6

+    vtrn.8      d7, d16

+    vtrn.8      d17, d18

+    sub         r2, r0, #3

+    add         r3, r0, #1

+    bl          vp9_mbloop_filter_neon

+    ;store op2, op1, op0, oq0

+    vst4.8      {d0[0], d1[0], d2[0], d3[0]}, [r2], r1

+    vst4.8      {d0[1], d1[1], d2[1], d3[1]}, [r2], r1

+    vst4.8      {d0[2], d1[2], d2[2], d3[2]}, [r2], r1

+    vst4.8      {d0[3], d1[3], d2[3], d3[3]}, [r2], r1

+    vst4.8      {d0[4], d1[4], d2[4], d3[4]}, [r2], r1

+    vst4.8      {d0[5], d1[5], d2[5], d3[5]}, [r2], r1

+    vst4.8      {d0[6], d1[6], d2[6], d3[6]}, [r2], r1

+    vst4.8      {d0[7], d1[7], d2[7], d3[7]}, [r2]

+    ;store oq1, oq2

+    vst2.8      {d4[0], d5[0]}, [r3], r1

+    vst2.8      {d4[1], d5[1]}, [r3], r1

+    vst2.8      {d4[2], d5[2]}, [r3], r1

+    vst2.8      {d4[3], d5[3]}, [r3], r1

+    vst2.8      {d4[4], d5[4]}, [r3], r1

+    vst2.8      {d4[5], d5[5]}, [r3], r1

+    vst2.8      {d4[6], d5[6]}, [r3], r1

+    vst2.8      {d4[7], d5[7]}, [r3]

+    add         r0, r0, r1, lsl #3         ; s += pitch * 8

+    subs        r12, r12, #1

+    subne       r2, r0, #4                 ; move s pointer down by 4 columns

+    bne         count_mblf_v_loop

+end_vp9_mblf_v_edge

+    pop         {r4-r5, pc}

+    ENDP        ; |vp9_lpf_vertical_8_neon|

+; void vp9_mbloop_filter_neon();

+; This is a helper function for the loopfilters. The invidual functions do the

+; necessary load, transpose (if necessary) and store. The function does not use

+; registers d8-d15.

+;

+; Inputs:

+; r0-r3, r12 PRESERVE

+; d0    blimit

+; d1    limit

+; d2    thresh

+; d3    p3

+; d4    p2

+; d5    p1

+; d6    p0

+; d7    q0

+; d16   q1

+; d17   q2

+; d18   q3

+;

+; Outputs:

+; d0    op2

+; d1    op1

+; d2    op0

+; d3    oq0

+; d4    oq1

+; d5    oq2

+|vp9_mbloop_filter_neon| PROC

+    ; filter_mask

+    vabd.u8     d19, d3, d4                ; m1 = abs(p3 - p2)

+    vabd.u8     d20, d4, d5                ; m2 = abs(p2 - p1)

+    vabd.u8     d21, d5, d6                ; m3 = abs(p1 - p0)

+    vabd.u8     d22, d16, d7               ; m4 = abs(q1 - q0)

+    vabd.u8     d23, d17, d16              ; m5 = abs(q2 - q1)

+    vabd.u8     d24, d18, d17              ; m6 = abs(q3 - q2)

+    ; only compare the largest value to limit

+    vmax.u8     d19, d19, d20              ; m1 = max(m1, m2)

+    vmax.u8     d20, d21, d22              ; m2 = max(m3, m4)

+    vabd.u8     d25, d6, d4                ; m7 = abs(p0 - p2)

+    vmax.u8     d23, d23, d24              ; m3 = max(m5, m6)

+    vabd.u8     d26, d7, d17               ; m8 = abs(q0 - q2)

+    vmax.u8     d19, d19, d20

+    vabd.u8     d24, d6, d7                ; m9 = abs(p0 - q0)

+    vabd.u8     d27, d3, d6                ; m10 = abs(p3 - p0)

+    vabd.u8     d28, d18, d7               ; m11 = abs(q3 - q0)

+    vmax.u8     d19, d19, d23

+    vabd.u8     d23, d5, d16               ; a = abs(p1 - q1)

+    vqadd.u8    d24, d24, d24              ; b = abs(p0 - q0) * 2

+    ; abs () > limit

+    vcge.u8     d19, d1, d19

+    ; only compare the largest value to thresh

+    vmax.u8     d25, d25, d26              ; m4 = max(m7, m8)

+    vmax.u8     d26, d27, d28              ; m5 = max(m10, m11)

+    vshr.u8     d23, d23, #1               ; a = a / 2

+    vmax.u8     d25, d25, d26              ; m4 = max(m4, m5)

+    vqadd.u8    d24, d24, d23              ; a = b + a

+    vmax.u8     d20, d20, d25              ; m2 = max(m2, m4)

+    vmov.u8     d23, #1

+    vcge.u8     d24, d0, d24               ; a > blimit

+    vcgt.u8     d21, d21, d2               ; (abs(p1 - p0) > thresh)*-1

+    vcge.u8     d20, d23, d20              ; flat

+    vand        d19, d19, d24              ; mask

+    vcgt.u8     d23, d22, d2               ; (abs(q1 - q0) > thresh)*-1

+    vand        d20, d20, d19              ; flat & mask

+    vmov.u8     d22, #0x80

+    vorr        d23, d21, d23              ; hev

+    ; This instruction will truncate the "flat & mask" masks down to 4 bits

+    ; each to fit into one 32 bit arm register. The values are stored in

+    ; q10.64[0].

+    vshrn.u16   d30, q10, #4

+    vmov.u32    r4, d30[0]                 ; flat & mask 4bits

+    adds        r5, r4, #1                 ; Check for all 1's

+    ; If mask and flat are 1's for all vectors, then we only need to execute

+    ; the power branch for all vectors.

+    beq         power_branch_only

+    cmp         r4, #0                     ; Check for 0, set flag for later

+    ; mbfilter() function

+    ; filter() function

+    ; convert to signed

+    veor        d21, d7, d22               ; qs0

+    veor        d24, d6, d22               ; ps0

+    veor        d25, d5, d22               ; ps1

+    veor        d26, d16, d22              ; qs1

+    vmov.u8     d27, #3

+    vsub.s8     d28, d21, d24              ; ( qs0 - ps0)

+    vqsub.s8    d29, d25, d26              ; filter = clamp(ps1-qs1)

+    vmull.s8    q15, d28, d27              ; 3 * ( qs0 - ps0)

+    vand        d29, d29, d23              ; filter &= hev

+    vaddw.s8    q15, q15, d29              ; filter + 3 * (qs0 - ps0)

+    vmov.u8     d29, #4

+    ; filter = clamp(filter + 3 * ( qs0 - ps0))

+    vqmovn.s16  d28, q15

+    vand        d28, d28, d19              ; filter &= mask

+    vqadd.s8    d30, d28, d27              ; filter2 = clamp(filter+3)

+    vqadd.s8    d29, d28, d29              ; filter1 = clamp(filter+4)

+    vshr.s8     d30, d30, #3               ; filter2 >>= 3

+    vshr.s8     d29, d29, #3               ; filter1 >>= 3

+    vqadd.s8    d24, d24, d30              ; op0 = clamp(ps0 + filter2)

+    vqsub.s8    d21, d21, d29              ; oq0 = clamp(qs0 - filter1)

+    ; outer tap adjustments: ++filter1 >> 1

+    vrshr.s8    d29, d29, #1

+    vbic        d29, d29, d23              ; filter &= ~hev

+    vqadd.s8    d25, d25, d29              ; op1 = clamp(ps1 + filter)

+    vqsub.s8    d26, d26, d29              ; oq1 = clamp(qs1 - filter)

+    ; If mask and flat are 0's for all vectors, then we only need to execute

+    ; the filter branch for all vectors.

+    beq         filter_branch_only

+    ; If mask and flat are mixed then we must perform both branches and

+    ; combine the data.

+    veor        d24, d24, d22              ; *f_op0 = u^0x80

+    veor        d21, d21, d22              ; *f_oq0 = u^0x80

+    veor        d25, d25, d22              ; *f_op1 = u^0x80

+    veor        d26, d26, d22              ; *f_oq1 = u^0x80

+    ; At this point we have already executed the filter branch. The filter

+    ; branch does not set op2 or oq2, so use p2 and q2. Execute the power

+    ; branch and combine the data.

+    vmov.u8     d23, #2

+    vaddl.u8    q14, d6, d7                ; r_op2 = p0 + q0

+    vmlal.u8    q14, d3, d27               ; r_op2 += p3 * 3

+    vmlal.u8    q14, d4, d23               ; r_op2 += p2 * 2

+    vbif        d0, d4, d20                ; op2 |= p2 & ~(flat & mask)

+    vaddw.u8    q14, d5                    ; r_op2 += p1

+    vbif        d1, d25, d20               ; op1 |= f_op1 & ~(flat & mask)

+    vqrshrn.u16 d30, q14, #3               ; r_op2

+    vsubw.u8    q14, d3                    ; r_op1 = r_op2 - p3

+    vsubw.u8    q14, d4                    ; r_op1 -= p2

+    vaddw.u8    q14, d5                    ; r_op1 += p1

+    vaddw.u8    q14, d16                   ; r_op1 += q1

+    vbif        d2, d24, d20               ; op0 |= f_op0 & ~(flat & mask)

+    vqrshrn.u16 d31, q14, #3               ; r_op1

+    vsubw.u8    q14, d3                    ; r_op0 = r_op1 - p3

+    vsubw.u8    q14, d5                    ; r_op0 -= p1

+    vaddw.u8    q14, d6                    ; r_op0 += p0

+    vaddw.u8    q14, d17                   ; r_op0 += q2

+    vbit        d0, d30, d20               ; op2 |= r_op2 & (flat & mask)

+    vqrshrn.u16 d23, q14, #3               ; r_op0

+    vsubw.u8    q14, d3                    ; r_oq0 = r_op0 - p3

+    vsubw.u8    q14, d6                    ; r_oq0 -= p0

+    vaddw.u8    q14, d7                    ; r_oq0 += q0

+    vbit        d1, d31, d20               ; op1 |= r_op1 & (flat & mask)

+    vaddw.u8    q14, d18                   ; oq0 += q3

+    vbit        d2, d23, d20               ; op0 |= r_op0 & (flat & mask)

+    vqrshrn.u16 d22, q14, #3               ; r_oq0

+    vsubw.u8    q14, d4                    ; r_oq1 = r_oq0 - p2

+    vsubw.u8    q14, d7                    ; r_oq1 -= q0

+    vaddw.u8    q14, d16                   ; r_oq1 += q1

+    vbif        d3, d21, d20               ; oq0 |= f_oq0 & ~(flat & mask)

+    vaddw.u8    q14, d18                   ; r_oq1 += q3

+    vbif        d4, d26, d20               ; oq1 |= f_oq1 & ~(flat & mask)

+    vqrshrn.u16 d6, q14, #3                ; r_oq1

+    vsubw.u8    q14, d5                    ; r_oq2 = r_oq1 - p1

+    vsubw.u8    q14, d16                   ; r_oq2 -= q1

+    vaddw.u8    q14, d17                   ; r_oq2 += q2

+    vaddw.u8    q14, d18                   ; r_oq2 += q3

+    vbif        d5, d17, d20               ; oq2 |= q2 & ~(flat & mask)

+    vqrshrn.u16 d7, q14, #3                ; r_oq2

+    vbit        d3, d22, d20               ; oq0 |= r_oq0 & (flat & mask)

+    vbit        d4, d6, d20                ; oq1 |= r_oq1 & (flat & mask)

+    vbit        d5, d7, d20                ; oq2 |= r_oq2 & (flat & mask)

+    bx          lr

+power_branch_only

+    vmov.u8     d27, #3

+    vmov.u8     d21, #2

+    vaddl.u8    q14, d6, d7                ; op2 = p0 + q0

+    vmlal.u8    q14, d3, d27               ; op2 += p3 * 3

+    vmlal.u8    q14, d4, d21               ; op2 += p2 * 2

+    vaddw.u8    q14, d5                    ; op2 += p1

+    vqrshrn.u16 d0, q14, #3                ; op2

+    vsubw.u8    q14, d3                    ; op1 = op2 - p3

+    vsubw.u8    q14, d4                    ; op1 -= p2

+    vaddw.u8    q14, d5                    ; op1 += p1

+    vaddw.u8    q14, d16                   ; op1 += q1

+    vqrshrn.u16 d1, q14, #3                ; op1

+    vsubw.u8    q14, d3                    ; op0 = op1 - p3

+    vsubw.u8    q14, d5                    ; op0 -= p1

+    vaddw.u8    q14, d6                    ; op0 += p0

+    vaddw.u8    q14, d17                   ; op0 += q2

+    vqrshrn.u16 d2, q14, #3                ; op0

+    vsubw.u8    q14, d3                    ; oq0 = op0 - p3

+    vsubw.u8    q14, d6                    ; oq0 -= p0

+    vaddw.u8    q14, d7                    ; oq0 += q0

+    vaddw.u8    q14, d18                   ; oq0 += q3

+    vqrshrn.u16 d3, q14, #3                ; oq0

+    vsubw.u8    q14, d4                    ; oq1 = oq0 - p2

+    vsubw.u8    q14, d7                    ; oq1 -= q0

+    vaddw.u8    q14, d16                   ; oq1 += q1

+    vaddw.u8    q14, d18                   ; oq1 += q3

+    vqrshrn.u16 d4, q14, #3                ; oq1

+    vsubw.u8    q14, d5                    ; oq2 = oq1 - p1

+    vsubw.u8    q14, d16                   ; oq2 -= q1

+    vaddw.u8    q14, d17                   ; oq2 += q2

+    vaddw.u8    q14, d18                   ; oq2 += q3

+    vqrshrn.u16 d5, q14, #3                ; oq2

+    bx          lr

+filter_branch_only

+    ; TODO(fgalligan): See if we can rearange registers so we do not need to

+    ; do the 2 vswp.

+    vswp        d0, d4                      ; op2

+    vswp        d5, d17                     ; oq2

+    veor        d2, d24, d22                ; *op0 = u^0x80

+    veor        d3, d21, d22                ; *oq0 = u^0x80

+    veor        d1, d25, d22                ; *op1 = u^0x80

+    veor        d4, d26, d22                ; *oq1 = u^0x80

+    bx          lr

+    ENDP        ; |vp9_mbloop_filter_neon|

+    END

--- /dev/null

+++ b/vpx_dsp/arm/loopfilter_8_neon.c

@@ -1,0 +1,453 @@

+/*

+ *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include <arm_neon.h>

+#include "./vpx_dsp_rtcd.h"

+static INLINE void vp9_mbloop_filter_neon(

+        uint8x8_t dblimit,   // mblimit

+        uint8x8_t dlimit,    // limit

+        uint8x8_t dthresh,   // thresh

+        uint8x8_t d3u8,      // p2

+        uint8x8_t d4u8,      // p2

+        uint8x8_t d5u8,      // p1

+        uint8x8_t d6u8,      // p0

+        uint8x8_t d7u8,      // q0

+        uint8x8_t d16u8,     // q1

+        uint8x8_t d17u8,     // q2

+        uint8x8_t d18u8,     // q3

+        uint8x8_t *d0ru8,    // p1

+        uint8x8_t *d1ru8,    // p1

+        uint8x8_t *d2ru8,    // p0

+        uint8x8_t *d3ru8,    // q0

+        uint8x8_t *d4ru8,    // q1

+        uint8x8_t *d5ru8) {  // q1

+    uint32_t flat;

+    uint8x8_t d0u8, d1u8, d2u8, d19u8, d20u8, d21u8, d22u8, d23u8, d24u8;

+    uint8x8_t d25u8, d26u8, d27u8, d28u8, d29u8, d30u8, d31u8;

+    int16x8_t q15s16;

+    uint16x8_t q10u16, q14u16;

+    int8x8_t d21s8, d24s8, d25s8, d26s8, d28s8, d29s8, d30s8;

+    d19u8 = vabd_u8(d3u8, d4u8);

+    d20u8 = vabd_u8(d4u8, d5u8);

+    d21u8 = vabd_u8(d5u8, d6u8);

+    d22u8 = vabd_u8(d16u8, d7u8);

+    d23u8 = vabd_u8(d17u8, d16u8);

+    d24u8 = vabd_u8(d18u8, d17u8);

+    d19u8 = vmax_u8(d19u8, d20u8);

+    d20u8 = vmax_u8(d21u8, d22u8);

+    d25u8 = vabd_u8(d6u8, d4u8);

+    d23u8 = vmax_u8(d23u8, d24u8);

+    d26u8 = vabd_u8(d7u8, d17u8);

+    d19u8 = vmax_u8(d19u8, d20u8);

+    d24u8 = vabd_u8(d6u8, d7u8);

+    d27u8 = vabd_u8(d3u8, d6u8);

+    d28u8 = vabd_u8(d18u8, d7u8);

+    d19u8 = vmax_u8(d19u8, d23u8);

+    d23u8 = vabd_u8(d5u8, d16u8);

+    d24u8 = vqadd_u8(d24u8, d24u8);

+    d19u8 = vcge_u8(dlimit, d19u8);

+    d25u8 = vmax_u8(d25u8, d26u8);

+    d26u8 = vmax_u8(d27u8, d28u8);

+    d23u8 = vshr_n_u8(d23u8, 1);

+    d25u8 = vmax_u8(d25u8, d26u8);

+    d24u8 = vqadd_u8(d24u8, d23u8);

+    d20u8 = vmax_u8(d20u8, d25u8);

+    d23u8 = vdup_n_u8(1);

+    d24u8 = vcge_u8(dblimit, d24u8);

+    d21u8 = vcgt_u8(d21u8, dthresh);

+    d20u8 = vcge_u8(d23u8, d20u8);

+    d19u8 = vand_u8(d19u8, d24u8);

+    d23u8 = vcgt_u8(d22u8, dthresh);

+    d20u8 = vand_u8(d20u8, d19u8);

+    d22u8 = vdup_n_u8(0x80);

+    d23u8 = vorr_u8(d21u8, d23u8);

+    q10u16 = vcombine_u16(vreinterpret_u16_u8(d20u8),

+                          vreinterpret_u16_u8(d21u8));

+    d30u8 = vshrn_n_u16(q10u16, 4);

+    flat = vget_lane_u32(vreinterpret_u32_u8(d30u8), 0);

+    if (flat == 0xffffffff) {  // Check for all 1's, power_branch_only

+        d27u8 = vdup_n_u8(3);

+        d21u8 = vdup_n_u8(2);

+        q14u16 = vaddl_u8(d6u8, d7u8);

+        q14u16 = vmlal_u8(q14u16, d3u8, d27u8);

+        q14u16 = vmlal_u8(q14u16, d4u8, d21u8);

+        q14u16 = vaddw_u8(q14u16, d5u8);

+        *d0ru8 = vqrshrn_n_u16(q14u16, 3);

+        q14u16 = vsubw_u8(q14u16, d3u8);

+        q14u16 = vsubw_u8(q14u16, d4u8);

+        q14u16 = vaddw_u8(q14u16, d5u8);

+        q14u16 = vaddw_u8(q14u16, d16u8);

+        *d1ru8 = vqrshrn_n_u16(q14u16, 3);

+        q14u16 = vsubw_u8(q14u16, d3u8);

+        q14u16 = vsubw_u8(q14u16, d5u8);

+        q14u16 = vaddw_u8(q14u16, d6u8);

+        q14u16 = vaddw_u8(q14u16, d17u8);

+        *d2ru8 = vqrshrn_n_u16(q14u16, 3);

+        q14u16 = vsubw_u8(q14u16, d3u8);

+        q14u16 = vsubw_u8(q14u16, d6u8);

+        q14u16 = vaddw_u8(q14u16, d7u8);

+        q14u16 = vaddw_u8(q14u16, d18u8);

+        *d3ru8 = vqrshrn_n_u16(q14u16, 3);

+        q14u16 = vsubw_u8(q14u16, d4u8);

+        q14u16 = vsubw_u8(q14u16, d7u8);

+        q14u16 = vaddw_u8(q14u16, d16u8);

+        q14u16 = vaddw_u8(q14u16, d18u8);

+        *d4ru8 = vqrshrn_n_u16(q14u16, 3);

+        q14u16 = vsubw_u8(q14u16, d5u8);

+        q14u16 = vsubw_u8(q14u16, d16u8);

+        q14u16 = vaddw_u8(q14u16, d17u8);

+        q14u16 = vaddw_u8(q14u16, d18u8);

+        *d5ru8 = vqrshrn_n_u16(q14u16, 3);

+    } else {

+        d21u8 = veor_u8(d7u8,  d22u8);

+        d24u8 = veor_u8(d6u8,  d22u8);

+        d25u8 = veor_u8(d5u8,  d22u8);

+        d26u8 = veor_u8(d16u8, d22u8);

+        d27u8 = vdup_n_u8(3);

+        d28s8 = vsub_s8(vreinterpret_s8_u8(d21u8), vreinterpret_s8_u8(d24u8));

+        d29s8 = vqsub_s8(vreinterpret_s8_u8(d25u8), vreinterpret_s8_u8(d26u8));

+        q15s16 = vmull_s8(d28s8, vreinterpret_s8_u8(d27u8));

+        d29s8 = vand_s8(d29s8, vreinterpret_s8_u8(d23u8));

+        q15s16 = vaddw_s8(q15s16, d29s8);

+        d29u8 = vdup_n_u8(4);

+        d28s8 = vqmovn_s16(q15s16);

+        d28s8 = vand_s8(d28s8, vreinterpret_s8_u8(d19u8));

+        d30s8 = vqadd_s8(d28s8, vreinterpret_s8_u8(d27u8));

+        d29s8 = vqadd_s8(d28s8, vreinterpret_s8_u8(d29u8));

+        d30s8 = vshr_n_s8(d30s8, 3);

+        d29s8 = vshr_n_s8(d29s8, 3);

+        d24s8 = vqadd_s8(vreinterpret_s8_u8(d24u8), d30s8);

+        d21s8 = vqsub_s8(vreinterpret_s8_u8(d21u8), d29s8);

+        d29s8 = vrshr_n_s8(d29s8, 1);

+        d29s8 = vbic_s8(d29s8, vreinterpret_s8_u8(d23u8));

+        d25s8 = vqadd_s8(vreinterpret_s8_u8(d25u8), d29s8);

+        d26s8 = vqsub_s8(vreinterpret_s8_u8(d26u8), d29s8);

+        if (flat == 0) {  // filter_branch_only

+            *d0ru8 = d4u8;

+            *d1ru8 = veor_u8(vreinterpret_u8_s8(d25s8), d22u8);

+            *d2ru8 = veor_u8(vreinterpret_u8_s8(d24s8), d22u8);

+            *d3ru8 = veor_u8(vreinterpret_u8_s8(d21s8), d22u8);

+            *d4ru8 = veor_u8(vreinterpret_u8_s8(d26s8), d22u8);

+            *d5ru8 = d17u8;

+            return;

+        }

+        d21u8 = veor_u8(vreinterpret_u8_s8(d21s8), d22u8);

+        d24u8 = veor_u8(vreinterpret_u8_s8(d24s8), d22u8);

+        d25u8 = veor_u8(vreinterpret_u8_s8(d25s8), d22u8);

+        d26u8 = veor_u8(vreinterpret_u8_s8(d26s8), d22u8);

+        d23u8 = vdup_n_u8(2);

+        q14u16 = vaddl_u8(d6u8, d7u8);

+        q14u16 = vmlal_u8(q14u16, d3u8, d27u8);

+        q14u16 = vmlal_u8(q14u16, d4u8, d23u8);

+        d0u8 = vbsl_u8(d20u8, dblimit, d4u8);

+        q14u16 = vaddw_u8(q14u16, d5u8);

+        d1u8 = vbsl_u8(d20u8, dlimit, d25u8);

+        d30u8 = vqrshrn_n_u16(q14u16, 3);

+        q14u16 = vsubw_u8(q14u16, d3u8);

+        q14u16 = vsubw_u8(q14u16, d4u8);

+        q14u16 = vaddw_u8(q14u16, d5u8);

+        q14u16 = vaddw_u8(q14u16, d16u8);

+        d2u8 = vbsl_u8(d20u8, dthresh, d24u8);

+        d31u8 = vqrshrn_n_u16(q14u16, 3);

+        q14u16 = vsubw_u8(q14u16, d3u8);

+        q14u16 = vsubw_u8(q14u16, d5u8);

+        q14u16 = vaddw_u8(q14u16, d6u8);

+        q14u16 = vaddw_u8(q14u16, d17u8);

+        *d0ru8 = vbsl_u8(d20u8, d30u8, d0u8);

+        d23u8 = vqrshrn_n_u16(q14u16, 3);

+        q14u16 = vsubw_u8(q14u16, d3u8);

+        q14u16 = vsubw_u8(q14u16, d6u8);

+        q14u16 = vaddw_u8(q14u16, d7u8);

+        *d1ru8 = vbsl_u8(d20u8, d31u8, d1u8);

+        q14u16 = vaddw_u8(q14u16, d18u8);

+        *d2ru8 = vbsl_u8(d20u8, d23u8, d2u8);

+        d22u8 = vqrshrn_n_u16(q14u16, 3);

+        q14u16 = vsubw_u8(q14u16, d4u8);

+        q14u16 = vsubw_u8(q14u16, d7u8);

+        q14u16 = vaddw_u8(q14u16, d16u8);

+        d3u8 = vbsl_u8(d20u8, d3u8, d21u8);

+        q14u16 = vaddw_u8(q14u16, d18u8);

+        d4u8 = vbsl_u8(d20u8, d4u8, d26u8);

+        d6u8 = vqrshrn_n_u16(q14u16, 3);

+        q14u16 = vsubw_u8(q14u16, d5u8);

+        q14u16 = vsubw_u8(q14u16, d16u8);

+        q14u16 = vaddw_u8(q14u16, d17u8);

+        q14u16 = vaddw_u8(q14u16, d18u8);

+        d5u8 = vbsl_u8(d20u8, d5u8, d17u8);

+        d7u8 = vqrshrn_n_u16(q14u16, 3);

+        *d3ru8 = vbsl_u8(d20u8, d22u8, d3u8);

+        *d4ru8 = vbsl_u8(d20u8, d6u8, d4u8);

+        *d5ru8 = vbsl_u8(d20u8, d7u8, d5u8);

+    }

+    return;

+}

+void vp9_lpf_horizontal_8_neon(

+        uint8_t *src,

+        int pitch,

+        const uint8_t *blimit,

+        const uint8_t *limit,

+        const uint8_t *thresh,

+        int count) {

+    int i;

+    uint8_t *s, *psrc;

+    uint8x8_t dblimit, dlimit, dthresh;

+    uint8x8_t d0u8, d1u8, d2u8, d3u8, d4u8, d5u8, d6u8, d7u8;

+    uint8x8_t d16u8, d17u8, d18u8;

+    if (count == 0)  // end_vp9_mblf_h_edge

+        return;

+    dblimit = vld1_u8(blimit);

+    dlimit = vld1_u8(limit);

+    dthresh = vld1_u8(thresh);

+    psrc = src - (pitch << 2);

+    for (i = 0; i < count; i++) {

+        s = psrc + i * 8;

+        d3u8  = vld1_u8(s);

+        s += pitch;

+        d4u8  = vld1_u8(s);

+        s += pitch;

+        d5u8  = vld1_u8(s);

+        s += pitch;

+        d6u8  = vld1_u8(s);

+        s += pitch;

+        d7u8  = vld1_u8(s);

+        s += pitch;

+        d16u8 = vld1_u8(s);

+        s += pitch;

+        d17u8 = vld1_u8(s);

+        s += pitch;

+        d18u8 = vld1_u8(s);

+        vp9_mbloop_filter_neon(dblimit, dlimit, dthresh,

+                             d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,

+                             &d0u8, &d1u8, &d2u8, &d3u8, &d4u8, &d5u8);

+        s -= (pitch * 6);

+        vst1_u8(s, d0u8);

+        s += pitch;

+        vst1_u8(s, d1u8);

+        s += pitch;

+        vst1_u8(s, d2u8);

+        s += pitch;

+        vst1_u8(s, d3u8);

+        s += pitch;

+        vst1_u8(s, d4u8);

+        s += pitch;

+        vst1_u8(s, d5u8);

+    }

+    return;

+}

+void vp9_lpf_vertical_8_neon(

+        uint8_t *src,

+        int pitch,

+        const uint8_t *blimit,

+        const uint8_t *limit,

+        const uint8_t *thresh,

+        int count) {

+    int i;

+    uint8_t *s;

+    uint8x8_t dblimit, dlimit, dthresh;

+    uint8x8_t d0u8, d1u8, d2u8, d3u8, d4u8, d5u8, d6u8, d7u8;

+    uint8x8_t d16u8, d17u8, d18u8;

+    uint32x2x2_t d2tmp0, d2tmp1, d2tmp2, d2tmp3;

+    uint16x4x2_t d2tmp4, d2tmp5, d2tmp6, d2tmp7;

+    uint8x8x2_t d2tmp8, d2tmp9, d2tmp10, d2tmp11;

+    uint8x8x4_t d4Result;

+    uint8x8x2_t d2Result;

+    if (count == 0)

+        return;

+    dblimit = vld1_u8(blimit);

+    dlimit = vld1_u8(limit);

+    dthresh = vld1_u8(thresh);

+    for (i = 0; i < count; i++) {

+        s = src + (i * (pitch << 3)) - 4;

+        d3u8 = vld1_u8(s);

+        s += pitch;

+        d4u8 = vld1_u8(s);

+        s += pitch;

+        d5u8 = vld1_u8(s);

+        s += pitch;

+        d6u8 = vld1_u8(s);

+        s += pitch;

+        d7u8 = vld1_u8(s);

+        s += pitch;

+        d16u8 = vld1_u8(s);

+        s += pitch;

+        d17u8 = vld1_u8(s);

+        s += pitch;

+        d18u8 = vld1_u8(s);

+        d2tmp0 = vtrn_u32(vreinterpret_u32_u8(d3u8),

+                          vreinterpret_u32_u8(d7u8));

+        d2tmp1 = vtrn_u32(vreinterpret_u32_u8(d4u8),

+                          vreinterpret_u32_u8(d16u8));

+        d2tmp2 = vtrn_u32(vreinterpret_u32_u8(d5u8),

+                          vreinterpret_u32_u8(d17u8));

+        d2tmp3 = vtrn_u32(vreinterpret_u32_u8(d6u8),

+                          vreinterpret_u32_u8(d18u8));

+        d2tmp4 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[0]),

+                          vreinterpret_u16_u32(d2tmp2.val[0]));

+        d2tmp5 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[0]),

+                          vreinterpret_u16_u32(d2tmp3.val[0]));

+        d2tmp6 = vtrn_u16(vreinterpret_u16_u32(d2tmp0.val[1]),

+                          vreinterpret_u16_u32(d2tmp2.val[1]));

+        d2tmp7 = vtrn_u16(vreinterpret_u16_u32(d2tmp1.val[1]),

+                          vreinterpret_u16_u32(d2tmp3.val[1]));

+        d2tmp8 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[0]),

+                         vreinterpret_u8_u16(d2tmp5.val[0]));

+        d2tmp9 = vtrn_u8(vreinterpret_u8_u16(d2tmp4.val[1]),

+                         vreinterpret_u8_u16(d2tmp5.val[1]));

+        d2tmp10 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[0]),

+                          vreinterpret_u8_u16(d2tmp7.val[0]));

+        d2tmp11 = vtrn_u8(vreinterpret_u8_u16(d2tmp6.val[1]),

+                          vreinterpret_u8_u16(d2tmp7.val[1]));

+        d3u8 = d2tmp8.val[0];

+        d4u8 = d2tmp8.val[1];

+        d5u8 = d2tmp9.val[0];

+        d6u8 = d2tmp9.val[1];

+        d7u8 = d2tmp10.val[0];

+        d16u8 = d2tmp10.val[1];

+        d17u8 = d2tmp11.val[0];

+        d18u8 = d2tmp11.val[1];

+        vp9_mbloop_filter_neon(dblimit, dlimit, dthresh,

+                             d3u8, d4u8, d5u8, d6u8, d7u8, d16u8, d17u8, d18u8,

+                             &d0u8, &d1u8, &d2u8, &d3u8, &d4u8, &d5u8);

+        d4Result.val[0] = d0u8;

+        d4Result.val[1] = d1u8;

+        d4Result.val[2] = d2u8;

+        d4Result.val[3] = d3u8;

+        d2Result.val[0] = d4u8;

+        d2Result.val[1] = d5u8;

+        s = src - 3;

+        vst4_lane_u8(s, d4Result, 0);

+        s += pitch;

+        vst4_lane_u8(s, d4Result, 1);

+        s += pitch;

+        vst4_lane_u8(s, d4Result, 2);

+        s += pitch;

+        vst4_lane_u8(s, d4Result, 3);

+        s += pitch;

+        vst4_lane_u8(s, d4Result, 4);

+        s += pitch;

+        vst4_lane_u8(s, d4Result, 5);

+        s += pitch;

+        vst4_lane_u8(s, d4Result, 6);

+        s += pitch;

+        vst4_lane_u8(s, d4Result, 7);

+        s = src + 1;

+        vst2_lane_u8(s, d2Result, 0);

+        s += pitch;

+        vst2_lane_u8(s, d2Result, 1);

+        s += pitch;

+        vst2_lane_u8(s, d2Result, 2);

+        s += pitch;

+        vst2_lane_u8(s, d2Result, 3);

+        s += pitch;

+        vst2_lane_u8(s, d2Result, 4);

+        s += pitch;

+        vst2_lane_u8(s, d2Result, 5);

+        s += pitch;

+        vst2_lane_u8(s, d2Result, 6);

+        s += pitch;

+        vst2_lane_u8(s, d2Result, 7);

+    }

+    return;

+}

--- /dev/null

+++ b/vpx_dsp/arm/loopfilter_mb_neon.asm

@@ -1,0 +1,606 @@

+;

+;  Copyright (c) 2013 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+    EXPORT  |vp9_lpf_horizontal_16_neon|

+    EXPORT  |vp9_lpf_vertical_16_neon|

+    ARM

+    AREA ||.text||, CODE, READONLY, ALIGN=2

+; void vp9_lpf_horizontal_16_neon(uint8_t *s, int p,

+;                                 const uint8_t *blimit,

+;                                 const uint8_t *limit,

+;                                 const uint8_t *thresh

+;                                 int count)

+; r0    uint8_t *s,

+; r1    int p, /* pitch */

+; r2    const uint8_t *blimit,

+; r3    const uint8_t *limit,

+; sp    const uint8_t *thresh,

+|vp9_lpf_horizontal_16_neon| PROC

+    push        {r4-r8, lr}

+    vpush       {d8-d15}

+    ldr         r4, [sp, #88]              ; load thresh

+    ldr         r12, [sp, #92]             ; load count

+h_count

+    vld1.8      {d16[]}, [r2]              ; load *blimit

+    vld1.8      {d17[]}, [r3]              ; load *limit

+    vld1.8      {d18[]}, [r4]              ; load *thresh

+    sub         r8, r0, r1, lsl #3         ; move src pointer down by 8 lines

+    vld1.u8     {d0}, [r8@64], r1          ; p7

+    vld1.u8     {d1}, [r8@64], r1          ; p6

+    vld1.u8     {d2}, [r8@64], r1          ; p5

+    vld1.u8     {d3}, [r8@64], r1          ; p4

+    vld1.u8     {d4}, [r8@64], r1          ; p3

+    vld1.u8     {d5}, [r8@64], r1          ; p2

+    vld1.u8     {d6}, [r8@64], r1          ; p1

+    vld1.u8     {d7}, [r8@64], r1          ; p0

+    vld1.u8     {d8}, [r8@64], r1          ; q0

+    vld1.u8     {d9}, [r8@64], r1          ; q1

+    vld1.u8     {d10}, [r8@64], r1         ; q2

+    vld1.u8     {d11}, [r8@64], r1         ; q3

+    vld1.u8     {d12}, [r8@64], r1         ; q4

+    vld1.u8     {d13}, [r8@64], r1         ; q5

+    vld1.u8     {d14}, [r8@64], r1         ; q6

+    vld1.u8     {d15}, [r8@64], r1         ; q7

+    bl          vp9_wide_mbfilter_neon

+    tst         r7, #1

+    beq         h_mbfilter

+    ; flat && mask were not set for any of the channels. Just store the values

+    ; from filter.

+    sub         r8, r0, r1, lsl #1

+    vst1.u8     {d25}, [r8@64], r1         ; store op1

+    vst1.u8     {d24}, [r8@64], r1         ; store op0

+    vst1.u8     {d23}, [r8@64], r1         ; store oq0

+    vst1.u8     {d26}, [r8@64], r1         ; store oq1

+    b           h_next

+h_mbfilter

+    tst         r7, #2

+    beq         h_wide_mbfilter

+    ; flat2 was not set for any of the channels. Just store the values from

+    ; mbfilter.

+    sub         r8, r0, r1, lsl #1

+    sub         r8, r8, r1

+    vst1.u8     {d18}, [r8@64], r1         ; store op2

+    vst1.u8     {d19}, [r8@64], r1         ; store op1

+    vst1.u8     {d20}, [r8@64], r1         ; store op0

+    vst1.u8     {d21}, [r8@64], r1         ; store oq0

+    vst1.u8     {d22}, [r8@64], r1         ; store oq1

+    vst1.u8     {d23}, [r8@64], r1         ; store oq2

+    b           h_next

+h_wide_mbfilter

+    sub         r8, r0, r1, lsl #3

+    add         r8, r8, r1

+    vst1.u8     {d16}, [r8@64], r1         ; store op6

+    vst1.u8     {d24}, [r8@64], r1         ; store op5

+    vst1.u8     {d25}, [r8@64], r1         ; store op4

+    vst1.u8     {d26}, [r8@64], r1         ; store op3

+    vst1.u8     {d27}, [r8@64], r1         ; store op2

+    vst1.u8     {d18}, [r8@64], r1         ; store op1

+    vst1.u8     {d19}, [r8@64], r1         ; store op0

+    vst1.u8     {d20}, [r8@64], r1         ; store oq0

+    vst1.u8     {d21}, [r8@64], r1         ; store oq1

+    vst1.u8     {d22}, [r8@64], r1         ; store oq2

+    vst1.u8     {d23}, [r8@64], r1         ; store oq3

+    vst1.u8     {d1}, [r8@64], r1          ; store oq4

+    vst1.u8     {d2}, [r8@64], r1          ; store oq5

+    vst1.u8     {d3}, [r8@64], r1          ; store oq6

+h_next

+    add         r0, r0, #8

+    subs        r12, r12, #1

+    bne         h_count

+    vpop        {d8-d15}

+    pop         {r4-r8, pc}

+    ENDP        ; |vp9_lpf_horizontal_16_neon|

+; void vp9_lpf_vertical_16_neon(uint8_t *s, int p,

+;                               const uint8_t *blimit,

+;                               const uint8_t *limit,

+;                               const uint8_t *thresh)

+; r0    uint8_t *s,

+; r1    int p, /* pitch */

+; r2    const uint8_t *blimit,

+; r3    const uint8_t *limit,

+; sp    const uint8_t *thresh,

+|vp9_lpf_vertical_16_neon| PROC

+    push        {r4-r8, lr}

+    vpush       {d8-d15}

+    ldr         r4, [sp, #88]              ; load thresh

+    vld1.8      {d16[]}, [r2]              ; load *blimit

+    vld1.8      {d17[]}, [r3]              ; load *limit

+    vld1.8      {d18[]}, [r4]              ; load *thresh

+    sub         r8, r0, #8

+    vld1.8      {d0}, [r8@64], r1

+    vld1.8      {d8}, [r0@64], r1

+    vld1.8      {d1}, [r8@64], r1

+    vld1.8      {d9}, [r0@64], r1

+    vld1.8      {d2}, [r8@64], r1

+    vld1.8      {d10}, [r0@64], r1

+    vld1.8      {d3}, [r8@64], r1

+    vld1.8      {d11}, [r0@64], r1

+    vld1.8      {d4}, [r8@64], r1

+    vld1.8      {d12}, [r0@64], r1

+    vld1.8      {d5}, [r8@64], r1

+    vld1.8      {d13}, [r0@64], r1

+    vld1.8      {d6}, [r8@64], r1

+    vld1.8      {d14}, [r0@64], r1

+    vld1.8      {d7}, [r8@64], r1

+    vld1.8      {d15}, [r0@64], r1

+    sub         r0, r0, r1, lsl #3

+    vtrn.32     q0, q2

+    vtrn.32     q1, q3

+    vtrn.32     q4, q6

+    vtrn.32     q5, q7

+    vtrn.16     q0, q1

+    vtrn.16     q2, q3

+    vtrn.16     q4, q5

+    vtrn.16     q6, q7

+    vtrn.8      d0, d1

+    vtrn.8      d2, d3

+    vtrn.8      d4, d5

+    vtrn.8      d6, d7

+    vtrn.8      d8, d9

+    vtrn.8      d10, d11

+    vtrn.8      d12, d13

+    vtrn.8      d14, d15

+    bl          vp9_wide_mbfilter_neon

+    tst         r7, #1

+    beq         v_mbfilter

+    ; flat && mask were not set for any of the channels. Just store the values

+    ; from filter.

+    sub         r8, r0, #2

+    vswp        d23, d25

+    vst4.8      {d23[0], d24[0], d25[0], d26[0]}, [r8], r1

+    vst4.8      {d23[1], d24[1], d25[1], d26[1]}, [r8], r1

+    vst4.8      {d23[2], d24[2], d25[2], d26[2]}, [r8], r1

+    vst4.8      {d23[3], d24[3], d25[3], d26[3]}, [r8], r1

+    vst4.8      {d23[4], d24[4], d25[4], d26[4]}, [r8], r1

+    vst4.8      {d23[5], d24[5], d25[5], d26[5]}, [r8], r1

+    vst4.8      {d23[6], d24[6], d25[6], d26[6]}, [r8], r1

+    vst4.8      {d23[7], d24[7], d25[7], d26[7]}, [r8], r1

+    b           v_end

+v_mbfilter

+    tst         r7, #2

+    beq         v_wide_mbfilter

+    ; flat2 was not set for any of the channels. Just store the values from

+    ; mbfilter.

+    sub         r8, r0, #3

+    vst3.8      {d18[0], d19[0], d20[0]}, [r8], r1

+    vst3.8      {d21[0], d22[0], d23[0]}, [r0], r1

+    vst3.8      {d18[1], d19[1], d20[1]}, [r8], r1

+    vst3.8      {d21[1], d22[1], d23[1]}, [r0], r1

+    vst3.8      {d18[2], d19[2], d20[2]}, [r8], r1

+    vst3.8      {d21[2], d22[2], d23[2]}, [r0], r1

+    vst3.8      {d18[3], d19[3], d20[3]}, [r8], r1

+    vst3.8      {d21[3], d22[3], d23[3]}, [r0], r1

+    vst3.8      {d18[4], d19[4], d20[4]}, [r8], r1

+    vst3.8      {d21[4], d22[4], d23[4]}, [r0], r1

+    vst3.8      {d18[5], d19[5], d20[5]}, [r8], r1

+    vst3.8      {d21[5], d22[5], d23[5]}, [r0], r1

+    vst3.8      {d18[6], d19[6], d20[6]}, [r8], r1

+    vst3.8      {d21[6], d22[6], d23[6]}, [r0], r1

+    vst3.8      {d18[7], d19[7], d20[7]}, [r8], r1

+    vst3.8      {d21[7], d22[7], d23[7]}, [r0], r1

+    b           v_end

+v_wide_mbfilter

+    sub         r8, r0, #8

+    vtrn.32     d0,  d26

+    vtrn.32     d16, d27

+    vtrn.32     d24, d18

+    vtrn.32     d25, d19

+    vtrn.16     d0,  d24

+    vtrn.16     d16, d25

+    vtrn.16     d26, d18

+    vtrn.16     d27, d19

+    vtrn.8      d0,  d16

+    vtrn.8      d24, d25

+    vtrn.8      d26, d27

+    vtrn.8      d18, d19

+    vtrn.32     d20, d1

+    vtrn.32     d21, d2

+    vtrn.32     d22, d3

+    vtrn.32     d23, d15

+    vtrn.16     d20, d22

+    vtrn.16     d21, d23

+    vtrn.16     d1,  d3

+    vtrn.16     d2,  d15

+    vtrn.8      d20, d21

+    vtrn.8      d22, d23

+    vtrn.8      d1,  d2

+    vtrn.8      d3,  d15

+    vst1.8      {d0}, [r8@64], r1

+    vst1.8      {d20}, [r0@64], r1

+    vst1.8      {d16}, [r8@64], r1

+    vst1.8      {d21}, [r0@64], r1

+    vst1.8      {d24}, [r8@64], r1

+    vst1.8      {d22}, [r0@64], r1

+    vst1.8      {d25}, [r8@64], r1

+    vst1.8      {d23}, [r0@64], r1

+    vst1.8      {d26}, [r8@64], r1

+    vst1.8      {d1}, [r0@64], r1

+    vst1.8      {d27}, [r8@64], r1

+    vst1.8      {d2}, [r0@64], r1

+    vst1.8      {d18}, [r8@64], r1

+    vst1.8      {d3}, [r0@64], r1

+    vst1.8      {d19}, [r8@64], r1

+    vst1.8      {d15}, [r0@64], r1

+v_end

+    vpop        {d8-d15}

+    pop         {r4-r8, pc}

+    ENDP        ; |vp9_lpf_vertical_16_neon|

+; void vp9_wide_mbfilter_neon();

+; This is a helper function for the loopfilters. The invidual functions do the

+; necessary load, transpose (if necessary) and store.

+;

+; r0-r3 PRESERVE

+; d16    blimit

+; d17    limit

+; d18    thresh

+; d0    p7

+; d1    p6

+; d2    p5

+; d3    p4

+; d4    p3

+; d5    p2

+; d6    p1

+; d7    p0

+; d8    q0

+; d9    q1

+; d10   q2

+; d11   q3

+; d12   q4

+; d13   q5

+; d14   q6

+; d15   q7

+|vp9_wide_mbfilter_neon| PROC

+    mov         r7, #0

+    ; filter_mask

+    vabd.u8     d19, d4, d5                ; abs(p3 - p2)

+    vabd.u8     d20, d5, d6                ; abs(p2 - p1)

+    vabd.u8     d21, d6, d7                ; abs(p1 - p0)

+    vabd.u8     d22, d9, d8                ; abs(q1 - q0)

+    vabd.u8     d23, d10, d9               ; abs(q2 - q1)

+    vabd.u8     d24, d11, d10              ; abs(q3 - q2)

+    ; only compare the largest value to limit

+    vmax.u8     d19, d19, d20              ; max(abs(p3 - p2), abs(p2 - p1))

+    vmax.u8     d20, d21, d22              ; max(abs(p1 - p0), abs(q1 - q0))

+    vmax.u8     d23, d23, d24              ; max(abs(q2 - q1), abs(q3 - q2))

+    vmax.u8     d19, d19, d20

+    vabd.u8     d24, d7, d8                ; abs(p0 - q0)

+    vmax.u8     d19, d19, d23

+    vabd.u8     d23, d6, d9                ; a = abs(p1 - q1)

+    vqadd.u8    d24, d24, d24              ; b = abs(p0 - q0) * 2

+    ; abs () > limit

+    vcge.u8     d19, d17, d19

+    ; flatmask4

+    vabd.u8     d25, d7, d5                ; abs(p0 - p2)

+    vabd.u8     d26, d8, d10               ; abs(q0 - q2)

+    vabd.u8     d27, d4, d7                ; abs(p3 - p0)

+    vabd.u8     d28, d11, d8               ; abs(q3 - q0)

+    ; only compare the largest value to thresh

+    vmax.u8     d25, d25, d26              ; max(abs(p0 - p2), abs(q0 - q2))

+    vmax.u8     d26, d27, d28              ; max(abs(p3 - p0), abs(q3 - q0))

+    vmax.u8     d25, d25, d26

+    vmax.u8     d20, d20, d25

+    vshr.u8     d23, d23, #1               ; a = a / 2

+    vqadd.u8    d24, d24, d23              ; a = b + a

+    vmov.u8     d30, #1

+    vcge.u8     d24, d16, d24              ; (a > blimit * 2 + limit) * -1

+    vcge.u8     d20, d30, d20              ; flat

+    vand        d19, d19, d24              ; mask

+    ; hevmask

+    vcgt.u8     d21, d21, d18              ; (abs(p1 - p0) > thresh)*-1

+    vcgt.u8     d22, d22, d18              ; (abs(q1 - q0) > thresh)*-1

+    vorr        d21, d21, d22              ; hev

+    vand        d16, d20, d19              ; flat && mask

+    vmov        r5, r6, d16

+    ; flatmask5(1, p7, p6, p5, p4, p0, q0, q4, q5, q6, q7)

+    vabd.u8     d22, d3, d7                ; abs(p4 - p0)

+    vabd.u8     d23, d12, d8               ; abs(q4 - q0)

+    vabd.u8     d24, d7, d2                ; abs(p0 - p5)

+    vabd.u8     d25, d8, d13               ; abs(q0 - q5)

+    vabd.u8     d26, d1, d7                ; abs(p6 - p0)

+    vabd.u8     d27, d14, d8               ; abs(q6 - q0)

+    vabd.u8     d28, d0, d7                ; abs(p7 - p0)

+    vabd.u8     d29, d15, d8               ; abs(q7 - q0)

+    ; only compare the largest value to thresh

+    vmax.u8     d22, d22, d23              ; max(abs(p4 - p0), abs(q4 - q0))

+    vmax.u8     d23, d24, d25              ; max(abs(p0 - p5), abs(q0 - q5))

+    vmax.u8     d24, d26, d27              ; max(abs(p6 - p0), abs(q6 - q0))

+    vmax.u8     d25, d28, d29              ; max(abs(p7 - p0), abs(q7 - q0))

+    vmax.u8     d26, d22, d23

+    vmax.u8     d27, d24, d25

+    vmax.u8     d23, d26, d27

+    vcge.u8     d18, d30, d23              ; flat2

+    vmov.u8     d22, #0x80

+    orrs        r5, r5, r6                 ; Check for 0

+    orreq       r7, r7, #1                 ; Only do filter branch

+    vand        d17, d18, d16              ; flat2 && flat && mask

+    vmov        r5, r6, d17

+    ; mbfilter() function

+    ; filter() function

+    ; convert to signed

+    veor        d23, d8, d22               ; qs0

+    veor        d24, d7, d22               ; ps0

+    veor        d25, d6, d22               ; ps1

+    veor        d26, d9, d22               ; qs1

+    vmov.u8     d27, #3

+    vsub.s8     d28, d23, d24              ; ( qs0 - ps0)

+    vqsub.s8    d29, d25, d26              ; filter = clamp(ps1-qs1)

+    vmull.s8    q15, d28, d27              ; 3 * ( qs0 - ps0)

+    vand        d29, d29, d21              ; filter &= hev

+    vaddw.s8    q15, q15, d29              ; filter + 3 * (qs0 - ps0)

+    vmov.u8     d29, #4

+    ; filter = clamp(filter + 3 * ( qs0 - ps0))

+    vqmovn.s16  d28, q15

+    vand        d28, d28, d19              ; filter &= mask

+    vqadd.s8    d30, d28, d27              ; filter2 = clamp(filter+3)

+    vqadd.s8    d29, d28, d29              ; filter1 = clamp(filter+4)

+    vshr.s8     d30, d30, #3               ; filter2 >>= 3

+    vshr.s8     d29, d29, #3               ; filter1 >>= 3

+    vqadd.s8    d24, d24, d30              ; op0 = clamp(ps0 + filter2)

+    vqsub.s8    d23, d23, d29              ; oq0 = clamp(qs0 - filter1)

+    ; outer tap adjustments: ++filter1 >> 1

+    vrshr.s8    d29, d29, #1

+    vbic        d29, d29, d21              ; filter &= ~hev

+    vqadd.s8    d25, d25, d29              ; op1 = clamp(ps1 + filter)

+    vqsub.s8    d26, d26, d29              ; oq1 = clamp(qs1 - filter)

+    veor        d24, d24, d22              ; *f_op0 = u^0x80

+    veor        d23, d23, d22              ; *f_oq0 = u^0x80

+    veor        d25, d25, d22              ; *f_op1 = u^0x80

+    veor        d26, d26, d22              ; *f_oq1 = u^0x80

+    tst         r7, #1

+    bxne        lr

+    orrs        r5, r5, r6                 ; Check for 0

+    orreq       r7, r7, #2                 ; Only do mbfilter branch

+    ; mbfilter flat && mask branch

+    ; TODO(fgalligan): Can I decrease the cycles shifting to consective d's

+    ; and using vibt on the q's?

+    vmov.u8     d29, #2

+    vaddl.u8    q15, d7, d8                ; op2 = p0 + q0

+    vmlal.u8    q15, d4, d27               ; op2 = p0 + q0 + p3 * 3

+    vmlal.u8    q15, d5, d29               ; op2 = p0 + q0 + p3 * 3 + p2 * 2

+    vaddl.u8    q10, d4, d5

+    vaddw.u8    q15, d6                    ; op2=p1 + p0 + q0 + p3 * 3 + p2 *2

+    vaddl.u8    q14, d6, d9

+    vqrshrn.u16 d18, q15, #3               ; r_op2

+    vsub.i16    q15, q10

+    vaddl.u8    q10, d4, d6

+    vadd.i16    q15, q14

+    vaddl.u8    q14, d7, d10

+    vqrshrn.u16 d19, q15, #3               ; r_op1

+    vsub.i16    q15, q10

+    vadd.i16    q15, q14

+    vaddl.u8    q14, d8, d11

+    vqrshrn.u16 d20, q15, #3               ; r_op0

+    vsubw.u8    q15, d4                    ; oq0 = op0 - p3

+    vsubw.u8    q15, d7                    ; oq0 -= p0

+    vadd.i16    q15, q14

+    vaddl.u8    q14, d9, d11

+    vqrshrn.u16 d21, q15, #3               ; r_oq0

+    vsubw.u8    q15, d5                    ; oq1 = oq0 - p2

+    vsubw.u8    q15, d8                    ; oq1 -= q0

+    vadd.i16    q15, q14

+    vaddl.u8    q14, d10, d11

+    vqrshrn.u16 d22, q15, #3               ; r_oq1

+    vsubw.u8    q15, d6                    ; oq2 = oq0 - p1

+    vsubw.u8    q15, d9                    ; oq2 -= q1

+    vadd.i16    q15, q14

+    vqrshrn.u16 d27, q15, #3               ; r_oq2

+    ; Filter does not set op2 or oq2, so use p2 and q2.

+    vbif        d18, d5, d16               ; t_op2 |= p2 & ~(flat & mask)

+    vbif        d19, d25, d16              ; t_op1 |= f_op1 & ~(flat & mask)

+    vbif        d20, d24, d16              ; t_op0 |= f_op0 & ~(flat & mask)

+    vbif        d21, d23, d16              ; t_oq0 |= f_oq0 & ~(flat & mask)

+    vbif        d22, d26, d16              ; t_oq1 |= f_oq1 & ~(flat & mask)

+    vbit        d23, d27, d16              ; t_oq2 |= r_oq2 & (flat & mask)

+    vbif        d23, d10, d16              ; t_oq2 |= q2 & ~(flat & mask)

+    tst         r7, #2

+    bxne        lr

+    ; wide_mbfilter flat2 && flat && mask branch

+    vmov.u8     d16, #7

+    vaddl.u8    q15, d7, d8                ; op6 = p0 + q0

+    vaddl.u8    q12, d2, d3

+    vaddl.u8    q13, d4, d5

+    vaddl.u8    q14, d1, d6

+    vmlal.u8    q15, d0, d16               ; op6 += p7 * 3

+    vadd.i16    q12, q13

+    vadd.i16    q15, q14

+    vaddl.u8    q14, d2, d9

+    vadd.i16    q15, q12

+    vaddl.u8    q12, d0, d1

+    vaddw.u8    q15, d1

+    vaddl.u8    q13, d0, d2

+    vadd.i16    q14, q15, q14

+    vqrshrn.u16 d16, q15, #4               ; w_op6

+    vsub.i16    q15, q14, q12

+    vaddl.u8    q14, d3, d10

+    vqrshrn.u16 d24, q15, #4               ; w_op5

+    vsub.i16    q15, q13

+    vaddl.u8    q13, d0, d3

+    vadd.i16    q15, q14

+    vaddl.u8    q14, d4, d11

+    vqrshrn.u16 d25, q15, #4               ; w_op4

+    vadd.i16    q15, q14

+    vaddl.u8    q14, d0, d4

+    vsub.i16    q15, q13

+    vsub.i16    q14, q15, q14

+    vqrshrn.u16 d26, q15, #4               ; w_op3

+    vaddw.u8    q15, q14, d5               ; op2 += p2

+    vaddl.u8    q14, d0, d5

+    vaddw.u8    q15, d12                   ; op2 += q4

+    vbif        d26, d4, d17               ; op3 |= p3 & ~(f2 & f & m)

+    vqrshrn.u16 d27, q15, #4               ; w_op2

+    vsub.i16    q15, q14

+    vaddl.u8    q14, d0, d6

+    vaddw.u8    q15, d6                    ; op1 += p1

+    vaddw.u8    q15, d13                   ; op1 += q5

+    vbif        d27, d18, d17              ; op2 |= t_op2 & ~(f2 & f & m)

+    vqrshrn.u16 d18, q15, #4               ; w_op1

+    vsub.i16    q15, q14

+    vaddl.u8    q14, d0, d7

+    vaddw.u8    q15, d7                    ; op0 += p0

+    vaddw.u8    q15, d14                   ; op0 += q6

+    vbif        d18, d19, d17              ; op1 |= t_op1 & ~(f2 & f & m)

+    vqrshrn.u16 d19, q15, #4               ; w_op0

+    vsub.i16    q15, q14

+    vaddl.u8    q14, d1, d8

+    vaddw.u8    q15, d8                    ; oq0 += q0

+    vaddw.u8    q15, d15                   ; oq0 += q7

+    vbif        d19, d20, d17              ; op0 |= t_op0 & ~(f2 & f & m)

+    vqrshrn.u16 d20, q15, #4               ; w_oq0

+    vsub.i16    q15, q14

+    vaddl.u8    q14, d2, d9

+    vaddw.u8    q15, d9                    ; oq1 += q1

+    vaddl.u8    q4, d10, d15

+    vaddw.u8    q15, d15                   ; oq1 += q7

+    vbif        d20, d21, d17              ; oq0 |= t_oq0 & ~(f2 & f & m)

+    vqrshrn.u16 d21, q15, #4               ; w_oq1

+    vsub.i16    q15, q14

+    vaddl.u8    q14, d3, d10

+    vadd.i16    q15, q4

+    vaddl.u8    q4, d11, d15

+    vbif        d21, d22, d17              ; oq1 |= t_oq1 & ~(f2 & f & m)

+    vqrshrn.u16 d22, q15, #4               ; w_oq2

+    vsub.i16    q15, q14

+    vaddl.u8    q14, d4, d11

+    vadd.i16    q15, q4

+    vaddl.u8    q4, d12, d15

+    vbif        d22, d23, d17              ; oq2 |= t_oq2 & ~(f2 & f & m)

+    vqrshrn.u16 d23, q15, #4               ; w_oq3

+    vsub.i16    q15, q14

+    vaddl.u8    q14, d5, d12

+    vadd.i16    q15, q4

+    vaddl.u8    q4, d13, d15

+    vbif        d16, d1, d17               ; op6 |= p6 & ~(f2 & f & m)

+    vqrshrn.u16 d1, q15, #4                ; w_oq4

+    vsub.i16    q15, q14

+    vaddl.u8    q14, d6, d13

+    vadd.i16    q15, q4

+    vaddl.u8    q4, d14, d15

+    vbif        d24, d2, d17               ; op5 |= p5 & ~(f2 & f & m)

+    vqrshrn.u16 d2, q15, #4                ; w_oq5

+    vsub.i16    q15, q14

+    vbif        d25, d3, d17               ; op4 |= p4 & ~(f2 & f & m)

+    vadd.i16    q15, q4

+    vbif        d23, d11, d17              ; oq3 |= q3 & ~(f2 & f & m)

+    vqrshrn.u16 d3, q15, #4                ; w_oq6

+    vbif        d1, d12, d17               ; oq4 |= q4 & ~(f2 & f & m)

+    vbif        d2, d13, d17               ; oq5 |= q5 & ~(f2 & f & m)

+    vbif        d3, d14, d17               ; oq6 |= q6 & ~(f2 & f & m)

+    bx          lr

+    ENDP        ; |vp9_wide_mbfilter_neon|

+    END

--- /dev/null

+++ b/vpx_dsp/arm/loopfilter_neon.c

@@ -1,0 +1,58 @@

+/*

+ *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include <arm_neon.h>

+#include "./vpx_dsp_rtcd.h"

+#include "./vpx_config.h"

+#include "vpx/vpx_integer.h"

+void vp9_lpf_vertical_4_dual_neon(uint8_t *s, int p,

+                                  const uint8_t *blimit0,

+                                  const uint8_t *limit0,

+                                  const uint8_t *thresh0,

+                                  const uint8_t *blimit1,

+                                  const uint8_t *limit1,

+                                  const uint8_t *thresh1) {

+  vp9_lpf_vertical_4_neon(s, p, blimit0, limit0, thresh0, 1);

+  vp9_lpf_vertical_4_neon(s + 8 * p, p, blimit1, limit1, thresh1, 1);

+}

+#if HAVE_NEON_ASM

+void vp9_lpf_horizontal_8_dual_neon(uint8_t *s, int p /* pitch */,

+                                    const uint8_t *blimit0,

+                                    const uint8_t *limit0,

+                                    const uint8_t *thresh0,

+                                    const uint8_t *blimit1,

+                                    const uint8_t *limit1,

+                                    const uint8_t *thresh1) {

+  vp9_lpf_horizontal_8_neon(s, p, blimit0, limit0, thresh0, 1);

+  vp9_lpf_horizontal_8_neon(s + 8, p, blimit1, limit1, thresh1, 1);

+}

+void vp9_lpf_vertical_8_dual_neon(uint8_t *s, int p,

+                                  const uint8_t *blimit0,

+                                  const uint8_t *limit0,

+                                  const uint8_t *thresh0,

+                                  const uint8_t *blimit1,

+                                  const uint8_t *limit1,

+                                  const uint8_t *thresh1) {

+  vp9_lpf_vertical_8_neon(s, p, blimit0, limit0, thresh0, 1);

+  vp9_lpf_vertical_8_neon(s + 8 * p, p, blimit1, limit1, thresh1, 1);

+}

+void vp9_lpf_vertical_16_dual_neon(uint8_t *s, int p,

+                                   const uint8_t *blimit,

+                                   const uint8_t *limit,

+                                   const uint8_t *thresh) {

+  vp9_lpf_vertical_16_neon(s, p, blimit, limit, thresh);

+  vp9_lpf_vertical_16_neon(s + 8 * p, p, blimit, limit, thresh);

+}

+#endif  // HAVE_NEON_ASM

--- /dev/null

+++ b/vpx_dsp/loopfilter.c

@@ -1,0 +1,743 @@

+/*

+ *  Copyright (c) 2015 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "./vpx_config.h"

+#include "vpx_dsp/vpx_dsp_common.h"

+#include "vpx_ports/mem.h"

+static INLINE int8_t signed_char_clamp(int t) {

+  return (int8_t)clamp(t, -128, 127);

+}

+#if CONFIG_VP9_HIGHBITDEPTH

+static INLINE int16_t signed_char_clamp_high(int t, int bd) {

+  switch (bd) {

+    case 10:

+      return (int16_t)clamp(t, -128*4, 128*4-1);

+    case 12:

+      return (int16_t)clamp(t, -128*16, 128*16-1);

+    case 8:

+    default:

+      return (int16_t)clamp(t, -128, 128-1);

+  }

+}

+#endif

+// should we apply any filter at all: 11111111 yes, 00000000 no

+static INLINE int8_t filter_mask(uint8_t limit, uint8_t blimit,

+                                 uint8_t p3, uint8_t p2,

+                                 uint8_t p1, uint8_t p0,

+                                 uint8_t q0, uint8_t q1,

+                                 uint8_t q2, uint8_t q3) {

+  int8_t mask = 0;

+  mask |= (abs(p3 - p2) > limit) * -1;

+  mask |= (abs(p2 - p1) > limit) * -1;

+  mask |= (abs(p1 - p0) > limit) * -1;

+  mask |= (abs(q1 - q0) > limit) * -1;

+  mask |= (abs(q2 - q1) > limit) * -1;

+  mask |= (abs(q3 - q2) > limit) * -1;

+  mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

+  return ~mask;

+}

+static INLINE int8_t flat_mask4(uint8_t thresh,

+                                uint8_t p3, uint8_t p2,

+                                uint8_t p1, uint8_t p0,

+                                uint8_t q0, uint8_t q1,

+                                uint8_t q2, uint8_t q3) {

+  int8_t mask = 0;

+  mask |= (abs(p1 - p0) > thresh) * -1;

+  mask |= (abs(q1 - q0) > thresh) * -1;

+  mask |= (abs(p2 - p0) > thresh) * -1;

+  mask |= (abs(q2 - q0) > thresh) * -1;

+  mask |= (abs(p3 - p0) > thresh) * -1;

+  mask |= (abs(q3 - q0) > thresh) * -1;

+  return ~mask;

+}

+static INLINE int8_t flat_mask5(uint8_t thresh,

+                                uint8_t p4, uint8_t p3,

+                                uint8_t p2, uint8_t p1,

+                                uint8_t p0, uint8_t q0,

+                                uint8_t q1, uint8_t q2,

+                                uint8_t q3, uint8_t q4) {

+  int8_t mask = ~flat_mask4(thresh, p3, p2, p1, p0, q0, q1, q2, q3);

+  mask |= (abs(p4 - p0) > thresh) * -1;

+  mask |= (abs(q4 - q0) > thresh) * -1;

+  return ~mask;

+}

+// is there high edge variance internal edge: 11111111 yes, 00000000 no

+static INLINE int8_t hev_mask(uint8_t thresh, uint8_t p1, uint8_t p0,

+                              uint8_t q0, uint8_t q1) {

+  int8_t hev = 0;

+  hev  |= (abs(p1 - p0) > thresh) * -1;

+  hev  |= (abs(q1 - q0) > thresh) * -1;

+  return hev;

+}

+static INLINE void filter4(int8_t mask, uint8_t thresh, uint8_t *op1,

+                           uint8_t *op0, uint8_t *oq0, uint8_t *oq1) {

+  int8_t filter1, filter2;

+  const int8_t ps1 = (int8_t) *op1 ^ 0x80;

+  const int8_t ps0 = (int8_t) *op0 ^ 0x80;

+  const int8_t qs0 = (int8_t) *oq0 ^ 0x80;

+  const int8_t qs1 = (int8_t) *oq1 ^ 0x80;

+  const uint8_t hev = hev_mask(thresh, *op1, *op0, *oq0, *oq1);

+  // add outer taps if we have high edge variance

+  int8_t filter = signed_char_clamp(ps1 - qs1) & hev;

+  // inner taps

+  filter = signed_char_clamp(filter + 3 * (qs0 - ps0)) & mask;

+  // save bottom 3 bits so that we round one side +4 and the other +3

+  // if it equals 4 we'll set to adjust by -1 to account for the fact

+  // we'd round 3 the other way

+  filter1 = signed_char_clamp(filter + 4) >> 3;

+  filter2 = signed_char_clamp(filter + 3) >> 3;

+  *oq0 = signed_char_clamp(qs0 - filter1) ^ 0x80;

+  *op0 = signed_char_clamp(ps0 + filter2) ^ 0x80;

+  // outer tap adjustments

+  filter = ROUND_POWER_OF_TWO(filter1, 1) & ~hev;

+  *oq1 = signed_char_clamp(qs1 - filter) ^ 0x80;

+  *op1 = signed_char_clamp(ps1 + filter) ^ 0x80;

+}

+void vp9_lpf_horizontal_4_c(uint8_t *s, int p /* pitch */,

+                            const uint8_t *blimit, const uint8_t *limit,

+                            const uint8_t *thresh, int count) {

+  int i;

+  // loop filter designed to work using chars so that we can make maximum use

+  // of 8 bit simd instructions.

+  for (i = 0; i < 8 * count; ++i) {

+    const uint8_t p3 = s[-4 * p], p2 = s[-3 * p], p1 = s[-2 * p], p0 = s[-p];

+    const uint8_t q0 = s[0 * p],  q1 = s[1 * p],  q2 = s[2 * p],  q3 = s[3 * p];

+    const int8_t mask = filter_mask(*limit, *blimit,

+                                    p3, p2, p1, p0, q0, q1, q2, q3);

+    filter4(mask, *thresh, s - 2 * p, s - 1 * p, s, s + 1 * p);

+    ++s;

+  }

+}

+void vp9_lpf_horizontal_4_dual_c(uint8_t *s, int p, const uint8_t *blimit0,

+                                 const uint8_t *limit0, const uint8_t *thresh0,

+                                 const uint8_t *blimit1, const uint8_t *limit1,

+                                 const uint8_t *thresh1) {

+  vp9_lpf_horizontal_4_c(s, p, blimit0, limit0, thresh0, 1);

+  vp9_lpf_horizontal_4_c(s + 8, p, blimit1, limit1, thresh1, 1);

+}

+void vp9_lpf_vertical_4_c(uint8_t *s, int pitch, const uint8_t *blimit,

+                          const uint8_t *limit, const uint8_t *thresh,

+                          int count) {

+  int i;

+  // loop filter designed to work using chars so that we can make maximum use

+  // of 8 bit simd instructions.

+  for (i = 0; i < 8 * count; ++i) {

+    const uint8_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

+    const uint8_t q0 = s[0],  q1 = s[1],  q2 = s[2],  q3 = s[3];

+    const int8_t mask = filter_mask(*limit, *blimit,

+                                    p3, p2, p1, p0, q0, q1, q2, q3);

+    filter4(mask, *thresh, s - 2, s - 1, s, s + 1);

+    s += pitch;

+  }

+}

+void vp9_lpf_vertical_4_dual_c(uint8_t *s, int pitch, const uint8_t *blimit0,

+                               const uint8_t *limit0, const uint8_t *thresh0,

+                               const uint8_t *blimit1, const uint8_t *limit1,

+                               const uint8_t *thresh1) {

+  vp9_lpf_vertical_4_c(s, pitch, blimit0, limit0, thresh0, 1);

+  vp9_lpf_vertical_4_c(s + 8 * pitch, pitch, blimit1, limit1,

+                                  thresh1, 1);

+}

+static INLINE void filter8(int8_t mask, uint8_t thresh, uint8_t flat,

+                           uint8_t *op3, uint8_t *op2,

+                           uint8_t *op1, uint8_t *op0,

+                           uint8_t *oq0, uint8_t *oq1,

+                           uint8_t *oq2, uint8_t *oq3) {

+  if (flat && mask) {

+    const uint8_t p3 = *op3, p2 = *op2, p1 = *op1, p0 = *op0;

+    const uint8_t q0 = *oq0, q1 = *oq1, q2 = *oq2, q3 = *oq3;

+    // 7-tap filter [1, 1, 1, 2, 1, 1, 1]

+    *op2 = ROUND_POWER_OF_TWO(p3 + p3 + p3 + 2 * p2 + p1 + p0 + q0, 3);

+    *op1 = ROUND_POWER_OF_TWO(p3 + p3 + p2 + 2 * p1 + p0 + q0 + q1, 3);

+    *op0 = ROUND_POWER_OF_TWO(p3 + p2 + p1 + 2 * p0 + q0 + q1 + q2, 3);

+    *oq0 = ROUND_POWER_OF_TWO(p2 + p1 + p0 + 2 * q0 + q1 + q2 + q3, 3);

+    *oq1 = ROUND_POWER_OF_TWO(p1 + p0 + q0 + 2 * q1 + q2 + q3 + q3, 3);

+    *oq2 = ROUND_POWER_OF_TWO(p0 + q0 + q1 + 2 * q2 + q3 + q3 + q3, 3);

+  } else {

+    filter4(mask, thresh, op1,  op0, oq0, oq1);

+  }

+}

+void vp9_lpf_horizontal_8_c(uint8_t *s, int p, const uint8_t *blimit,

+                            const uint8_t *limit, const uint8_t *thresh,

+                            int count) {

+  int i;

+  // loop filter designed to work using chars so that we can make maximum use

+  // of 8 bit simd instructions.

+  for (i = 0; i < 8 * count; ++i) {

+    const uint8_t p3 = s[-4 * p], p2 = s[-3 * p], p1 = s[-2 * p], p0 = s[-p];

+    const uint8_t q0 = s[0 * p], q1 = s[1 * p], q2 = s[2 * p], q3 = s[3 * p];

+    const int8_t mask = filter_mask(*limit, *blimit,

+                                    p3, p2, p1, p0, q0, q1, q2, q3);

+    const int8_t flat = flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3);

+    filter8(mask, *thresh, flat, s - 4 * p, s - 3 * p, s - 2 * p, s - 1 * p,

+                                 s,         s + 1 * p, s + 2 * p, s + 3 * p);

+    ++s;

+  }

+}

+void vp9_lpf_horizontal_8_dual_c(uint8_t *s, int p, const uint8_t *blimit0,

+                                 const uint8_t *limit0, const uint8_t *thresh0,

+                                 const uint8_t *blimit1, const uint8_t *limit1,

+                                 const uint8_t *thresh1) {

+  vp9_lpf_horizontal_8_c(s, p, blimit0, limit0, thresh0, 1);

+  vp9_lpf_horizontal_8_c(s + 8, p, blimit1, limit1, thresh1, 1);

+}

+void vp9_lpf_vertical_8_c(uint8_t *s, int pitch, const uint8_t *blimit,

+                          const uint8_t *limit, const uint8_t *thresh,

+                          int count) {

+  int i;

+  for (i = 0; i < 8 * count; ++i) {

+    const uint8_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

+    const uint8_t q0 = s[0], q1 = s[1], q2 = s[2], q3 = s[3];

+    const int8_t mask = filter_mask(*limit, *blimit,

+                                    p3, p2, p1, p0, q0, q1, q2, q3);

+    const int8_t flat = flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3);

+    filter8(mask, *thresh, flat, s - 4, s - 3, s - 2, s - 1,

+                                 s,     s + 1, s + 2, s + 3);

+    s += pitch;

+  }

+}

+void vp9_lpf_vertical_8_dual_c(uint8_t *s, int pitch, const uint8_t *blimit0,

+                               const uint8_t *limit0, const uint8_t *thresh0,

+                               const uint8_t *blimit1, const uint8_t *limit1,

+                               const uint8_t *thresh1) {

+  vp9_lpf_vertical_8_c(s, pitch, blimit0, limit0, thresh0, 1);

+  vp9_lpf_vertical_8_c(s + 8 * pitch, pitch, blimit1, limit1,

+                                    thresh1, 1);

+}

+static INLINE void filter16(int8_t mask, uint8_t thresh,

+                            uint8_t flat, uint8_t flat2,

+                            uint8_t *op7, uint8_t *op6,

+                            uint8_t *op5, uint8_t *op4,

+                            uint8_t *op3, uint8_t *op2,

+                            uint8_t *op1, uint8_t *op0,

+                            uint8_t *oq0, uint8_t *oq1,

+                            uint8_t *oq2, uint8_t *oq3,

+                            uint8_t *oq4, uint8_t *oq5,

+                            uint8_t *oq6, uint8_t *oq7) {

+  if (flat2 && flat && mask) {

+    const uint8_t p7 = *op7, p6 = *op6, p5 = *op5, p4 = *op4,

+                  p3 = *op3, p2 = *op2, p1 = *op1, p0 = *op0;

+    const uint8_t q0 = *oq0, q1 = *oq1, q2 = *oq2, q3 = *oq3,

+                  q4 = *oq4, q5 = *oq5, q6 = *oq6, q7 = *oq7;

+    // 15-tap filter [1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1]

+    *op6 = ROUND_POWER_OF_TWO(p7 * 7 + p6 * 2 + p5 + p4 + p3 + p2 + p1 + p0 +

+                              q0, 4);

+    *op5 = ROUND_POWER_OF_TWO(p7 * 6 + p6 + p5 * 2 + p4 + p3 + p2 + p1 + p0 +

+                              q0 + q1, 4);

+    *op4 = ROUND_POWER_OF_TWO(p7 * 5 + p6 + p5 + p4 * 2 + p3 + p2 + p1 + p0 +

+                              q0 + q1 + q2, 4);

+    *op3 = ROUND_POWER_OF_TWO(p7 * 4 + p6 + p5 + p4 + p3 * 2 + p2 + p1 + p0 +

+                              q0 + q1 + q2 + q3, 4);

+    *op2 = ROUND_POWER_OF_TWO(p7 * 3 + p6 + p5 + p4 + p3 + p2 * 2 + p1 + p0 +

+                              q0 + q1 + q2 + q3 + q4, 4);

+    *op1 = ROUND_POWER_OF_TWO(p7 * 2 + p6 + p5 + p4 + p3 + p2 + p1 * 2 + p0 +

+                              q0 + q1 + q2 + q3 + q4 + q5, 4);

+    *op0 = ROUND_POWER_OF_TWO(p7 + p6 + p5 + p4 + p3 + p2 + p1 + p0 * 2 +

+                              q0 + q1 + q2 + q3 + q4 + q5 + q6, 4);

+    *oq0 = ROUND_POWER_OF_TWO(p6 + p5 + p4 + p3 + p2 + p1 + p0 +

+                              q0 * 2 + q1 + q2 + q3 + q4 + q5 + q6 + q7, 4);

+    *oq1 = ROUND_POWER_OF_TWO(p5 + p4 + p3 + p2 + p1 + p0 +

+                              q0 + q1 * 2 + q2 + q3 + q4 + q5 + q6 + q7 * 2, 4);

+    *oq2 = ROUND_POWER_OF_TWO(p4 + p3 + p2 + p1 + p0 +

+                              q0 + q1 + q2 * 2 + q3 + q4 + q5 + q6 + q7 * 3, 4);

+    *oq3 = ROUND_POWER_OF_TWO(p3 + p2 + p1 + p0 +

+                              q0 + q1 + q2 + q3 * 2 + q4 + q5 + q6 + q7 * 4, 4);

+    *oq4 = ROUND_POWER_OF_TWO(p2 + p1 + p0 +

+                              q0 + q1 + q2 + q3 + q4 * 2 + q5 + q6 + q7 * 5, 4);

+    *oq5 = ROUND_POWER_OF_TWO(p1 + p0 +

+                              q0 + q1 + q2 + q3 + q4 + q5 * 2 + q6 + q7 * 6, 4);

+    *oq6 = ROUND_POWER_OF_TWO(p0 +

+                              q0 + q1 + q2 + q3 + q4 + q5 + q6 * 2 + q7 * 7, 4);

+  } else {

+    filter8(mask, thresh, flat, op3, op2, op1, op0, oq0, oq1, oq2, oq3);

+  }

+}

+void vp9_lpf_horizontal_16_c(uint8_t *s, int p, const uint8_t *blimit,

+                             const uint8_t *limit, const uint8_t *thresh,

+                             int count) {

+  int i;

+  // loop filter designed to work using chars so that we can make maximum use

+  // of 8 bit simd instructions.

+  for (i = 0; i < 8 * count; ++i) {

+    const uint8_t p3 = s[-4 * p], p2 = s[-3 * p], p1 = s[-2 * p], p0 = s[-p];

+    const uint8_t q0 = s[0 * p], q1 = s[1 * p], q2 = s[2 * p], q3 = s[3 * p];

+    const int8_t mask = filter_mask(*limit, *blimit,

+                                    p3, p2, p1, p0, q0, q1, q2, q3);

+    const int8_t flat = flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3);

+    const int8_t flat2 = flat_mask5(1,

+                             s[-8 * p], s[-7 * p], s[-6 * p], s[-5 * p], p0,

+                             q0, s[4 * p], s[5 * p], s[6 * p], s[7 * p]);

+    filter16(mask, *thresh, flat, flat2,

+             s - 8 * p, s - 7 * p, s - 6 * p, s - 5 * p,

+             s - 4 * p, s - 3 * p, s - 2 * p, s - 1 * p,

+             s,         s + 1 * p, s + 2 * p, s + 3 * p,

+             s + 4 * p, s + 5 * p, s + 6 * p, s + 7 * p);

+    ++s;

+  }

+}

+static void mb_lpf_vertical_edge_w(uint8_t *s, int p,

+                                   const uint8_t *blimit,

+                                   const uint8_t *limit,

+                                   const uint8_t *thresh,

+                                   int count) {

+  int i;

+  for (i = 0; i < count; ++i) {

+    const uint8_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

+    const uint8_t q0 = s[0], q1 = s[1],  q2 = s[2], q3 = s[3];

+    const int8_t mask = filter_mask(*limit, *blimit,

+                                    p3, p2, p1, p0, q0, q1, q2, q3);

+    const int8_t flat = flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3);

+    const int8_t flat2 = flat_mask5(1, s[-8], s[-7], s[-6], s[-5], p0,

+                                    q0, s[4], s[5], s[6], s[7]);

+    filter16(mask, *thresh, flat, flat2,

+             s - 8, s - 7, s - 6, s - 5, s - 4, s - 3, s - 2, s - 1,

+             s,     s + 1, s + 2, s + 3, s + 4, s + 5, s + 6, s + 7);

+    s += p;

+  }

+}

+void vp9_lpf_vertical_16_c(uint8_t *s, int p, const uint8_t *blimit,

+                           const uint8_t *limit, const uint8_t *thresh) {

+  mb_lpf_vertical_edge_w(s, p, blimit, limit, thresh, 8);

+}

+void vp9_lpf_vertical_16_dual_c(uint8_t *s, int p, const uint8_t *blimit,

+                                const uint8_t *limit, const uint8_t *thresh) {

+  mb_lpf_vertical_edge_w(s, p, blimit, limit, thresh, 16);

+}

+#if CONFIG_VP9_HIGHBITDEPTH

+// Should we apply any filter at all: 11111111 yes, 00000000 no ?

+static INLINE int8_t highbd_filter_mask(uint8_t limit, uint8_t blimit,

+                                        uint16_t p3, uint16_t p2,

+                                        uint16_t p1, uint16_t p0,

+                                        uint16_t q0, uint16_t q1,

+                                        uint16_t q2, uint16_t q3, int bd) {

+  int8_t mask = 0;

+  int16_t limit16 = (uint16_t)limit << (bd - 8);

+  int16_t blimit16 = (uint16_t)blimit << (bd - 8);

+  mask |= (abs(p3 - p2) > limit16) * -1;

+  mask |= (abs(p2 - p1) > limit16) * -1;

+  mask |= (abs(p1 - p0) > limit16) * -1;

+  mask |= (abs(q1 - q0) > limit16) * -1;

+  mask |= (abs(q2 - q1) > limit16) * -1;

+  mask |= (abs(q3 - q2) > limit16) * -1;

+  mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit16) * -1;

+  return ~mask;

+}

+static INLINE int8_t highbd_flat_mask4(uint8_t thresh,

+                                       uint16_t p3, uint16_t p2,

+                                       uint16_t p1, uint16_t p0,

+                                       uint16_t q0, uint16_t q1,

+                                       uint16_t q2, uint16_t q3, int bd) {

+  int8_t mask = 0;

+  int16_t thresh16 = (uint16_t)thresh << (bd - 8);

+  mask |= (abs(p1 - p0) > thresh16) * -1;

+  mask |= (abs(q1 - q0) > thresh16) * -1;

+  mask |= (abs(p2 - p0) > thresh16) * -1;

+  mask |= (abs(q2 - q0) > thresh16) * -1;

+  mask |= (abs(p3 - p0) > thresh16) * -1;

+  mask |= (abs(q3 - q0) > thresh16) * -1;

+  return ~mask;

+}

+static INLINE int8_t highbd_flat_mask5(uint8_t thresh,

+                                       uint16_t p4, uint16_t p3,

+                                       uint16_t p2, uint16_t p1,

+                                       uint16_t p0, uint16_t q0,

+                                       uint16_t q1, uint16_t q2,

+                                       uint16_t q3, uint16_t q4, int bd) {

+  int8_t mask = ~highbd_flat_mask4(thresh, p3, p2, p1, p0, q0, q1, q2, q3, bd);

+  int16_t thresh16 = (uint16_t)thresh << (bd - 8);

+  mask |= (abs(p4 - p0) > thresh16) * -1;

+  mask |= (abs(q4 - q0) > thresh16) * -1;

+  return ~mask;

+}

+// Is there high edge variance internal edge:

+// 11111111_11111111 yes, 00000000_00000000 no ?

+static INLINE int16_t highbd_hev_mask(uint8_t thresh, uint16_t p1, uint16_t p0,

+                                      uint16_t q0, uint16_t q1, int bd) {

+  int16_t hev = 0;

+  int16_t thresh16 = (uint16_t)thresh << (bd - 8);

+  hev |= (abs(p1 - p0) > thresh16) * -1;

+  hev |= (abs(q1 - q0) > thresh16) * -1;

+  return hev;

+}

+static INLINE void highbd_filter4(int8_t mask, uint8_t thresh, uint16_t *op1,

+                                  uint16_t *op0, uint16_t *oq0, uint16_t *oq1,

+                                  int bd) {

+  int16_t filter1, filter2;

+  // ^0x80 equivalent to subtracting 0x80 from the values to turn them

+  // into -128 to +127 instead of 0 to 255.

+  int shift = bd - 8;

+  const int16_t ps1 = (int16_t)*op1 - (0x80 << shift);

+  const int16_t ps0 = (int16_t)*op0 - (0x80 << shift);

+  const int16_t qs0 = (int16_t)*oq0 - (0x80 << shift);

+  const int16_t qs1 = (int16_t)*oq1 - (0x80 << shift);

+  const uint16_t hev = highbd_hev_mask(thresh, *op1, *op0, *oq0, *oq1, bd);

+  // Add outer taps if we have high edge variance.

+  int16_t filter = signed_char_clamp_high(ps1 - qs1, bd) & hev;

+  // Inner taps.

+  filter = signed_char_clamp_high(filter + 3 * (qs0 - ps0), bd) & mask;

+  // Save bottom 3 bits so that we round one side +4 and the other +3

+  // if it equals 4 we'll set to adjust by -1 to account for the fact

+  // we'd round 3 the other way.

+  filter1 = signed_char_clamp_high(filter + 4, bd) >> 3;

+  filter2 = signed_char_clamp_high(filter + 3, bd) >> 3;

+  *oq0 = signed_char_clamp_high(qs0 - filter1, bd) + (0x80 << shift);

+  *op0 = signed_char_clamp_high(ps0 + filter2, bd) + (0x80 << shift);

+  // Outer tap adjustments.

+  filter = ROUND_POWER_OF_TWO(filter1, 1) & ~hev;

+  *oq1 = signed_char_clamp_high(qs1 - filter, bd) + (0x80 << shift);

+  *op1 = signed_char_clamp_high(ps1 + filter, bd) + (0x80 << shift);

+}

+void vp9_highbd_lpf_horizontal_4_c(uint16_t *s, int p /* pitch */,

+                                   const uint8_t *blimit, const uint8_t *limit,

+                                   const uint8_t *thresh, int count, int bd) {

+  int i;

+  // loop filter designed to work using chars so that we can make maximum use

+  // of 8 bit simd instructions.

+  for (i = 0; i < 8 * count; ++i) {

+    const uint16_t p3 = s[-4 * p];

+    const uint16_t p2 = s[-3 * p];

+    const uint16_t p1 = s[-2 * p];

+    const uint16_t p0 = s[-p];

+    const uint16_t q0 = s[0 * p];

+    const uint16_t q1 = s[1 * p];

+    const uint16_t q2 = s[2 * p];

+    const uint16_t q3 = s[3 * p];

+    const int8_t mask = highbd_filter_mask(*limit, *blimit,

+                                           p3, p2, p1, p0, q0, q1, q2, q3, bd);

+    highbd_filter4(mask, *thresh, s - 2 * p, s - 1 * p, s, s + 1 * p, bd);

+    ++s;

+  }

+}

+void vp9_highbd_lpf_horizontal_4_dual_c(uint16_t *s, int p,

+                                        const uint8_t *blimit0,

+                                        const uint8_t *limit0,

+                                        const uint8_t *thresh0,

+                                        const uint8_t *blimit1,

+                                        const uint8_t *limit1,

+                                        const uint8_t *thresh1,

+                                        int bd) {

+  vp9_highbd_lpf_horizontal_4_c(s, p, blimit0, limit0, thresh0, 1, bd);

+  vp9_highbd_lpf_horizontal_4_c(s + 8, p, blimit1, limit1, thresh1, 1, bd);

+}

+void vp9_highbd_lpf_vertical_4_c(uint16_t *s, int pitch, const uint8_t *blimit,

+                                 const uint8_t *limit, const uint8_t *thresh,

+                                 int count, int bd) {

+  int i;

+  // loop filter designed to work using chars so that we can make maximum use

+  // of 8 bit simd instructions.

+  for (i = 0; i < 8 * count; ++i) {

+    const uint16_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

+    const uint16_t q0 = s[0],  q1 = s[1],  q2 = s[2],  q3 = s[3];

+    const int8_t mask = highbd_filter_mask(*limit, *blimit,

+                                           p3, p2, p1, p0, q0, q1, q2, q3, bd);

+    highbd_filter4(mask, *thresh, s - 2, s - 1, s, s + 1, bd);

+    s += pitch;

+  }

+}

+void vp9_highbd_lpf_vertical_4_dual_c(uint16_t *s, int pitch,

+                                      const uint8_t *blimit0,

+                                      const uint8_t *limit0,

+                                      const uint8_t *thresh0,

+                                      const uint8_t *blimit1,

+                                      const uint8_t *limit1,

+                                      const uint8_t *thresh1,

+                                      int bd) {

+  vp9_highbd_lpf_vertical_4_c(s, pitch, blimit0, limit0, thresh0, 1, bd);

+  vp9_highbd_lpf_vertical_4_c(s + 8 * pitch, pitch, blimit1, limit1,

+                              thresh1, 1, bd);

+}

+static INLINE void highbd_filter8(int8_t mask, uint8_t thresh, uint8_t flat,

+                                  uint16_t *op3, uint16_t *op2,

+                                  uint16_t *op1, uint16_t *op0,

+                                  uint16_t *oq0, uint16_t *oq1,

+                                  uint16_t *oq2, uint16_t *oq3, int bd) {

+  if (flat && mask) {

+    const uint16_t p3 = *op3, p2 = *op2, p1 = *op1, p0 = *op0;

+    const uint16_t q0 = *oq0, q1 = *oq1, q2 = *oq2, q3 = *oq3;

+    // 7-tap filter [1, 1, 1, 2, 1, 1, 1]

+    *op2 = ROUND_POWER_OF_TWO(p3 + p3 + p3 + 2 * p2 + p1 + p0 + q0, 3);

+    *op1 = ROUND_POWER_OF_TWO(p3 + p3 + p2 + 2 * p1 + p0 + q0 + q1, 3);

+    *op0 = ROUND_POWER_OF_TWO(p3 + p2 + p1 + 2 * p0 + q0 + q1 + q2, 3);

+    *oq0 = ROUND_POWER_OF_TWO(p2 + p1 + p0 + 2 * q0 + q1 + q2 + q3, 3);

+    *oq1 = ROUND_POWER_OF_TWO(p1 + p0 + q0 + 2 * q1 + q2 + q3 + q3, 3);

+    *oq2 = ROUND_POWER_OF_TWO(p0 + q0 + q1 + 2 * q2 + q3 + q3 + q3, 3);

+  } else {

+    highbd_filter4(mask, thresh, op1,  op0, oq0, oq1, bd);

+  }

+}

+void vp9_highbd_lpf_horizontal_8_c(uint16_t *s, int p, const uint8_t *blimit,

+                                   const uint8_t *limit, const uint8_t *thresh,

+                                   int count, int bd) {

+  int i;

+  // loop filter designed to work using chars so that we can make maximum use

+  // of 8 bit simd instructions.

+  for (i = 0; i < 8 * count; ++i) {

+    const uint16_t p3 = s[-4 * p], p2 = s[-3 * p], p1 = s[-2 * p], p0 = s[-p];

+    const uint16_t q0 = s[0 * p], q1 = s[1 * p], q2 = s[2 * p], q3 = s[3 * p];

+    const int8_t mask = highbd_filter_mask(*limit, *blimit,

+                                         p3, p2, p1, p0, q0, q1, q2, q3, bd);

+    const int8_t flat = highbd_flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3,

+                                          bd);

+    highbd_filter8(mask, *thresh, flat,

+                 s - 4 * p, s - 3 * p, s - 2 * p, s - 1 * p,

+                 s, s + 1 * p, s + 2 * p, s + 3 * p, bd);

+    ++s;

+  }

+}

+void vp9_highbd_lpf_horizontal_8_dual_c(uint16_t *s, int p,

+                                        const uint8_t *blimit0,

+                                        const uint8_t *limit0,

+                                        const uint8_t *thresh0,

+                                        const uint8_t *blimit1,

+                                        const uint8_t *limit1,

+                                        const uint8_t *thresh1,

+                                        int bd) {

+  vp9_highbd_lpf_horizontal_8_c(s, p, blimit0, limit0, thresh0, 1, bd);

+  vp9_highbd_lpf_horizontal_8_c(s + 8, p, blimit1, limit1, thresh1, 1, bd);

+}

+void vp9_highbd_lpf_vertical_8_c(uint16_t *s, int pitch, const uint8_t *blimit,

+                                 const uint8_t *limit, const uint8_t *thresh,

+                                 int count, int bd) {

+  int i;

+  for (i = 0; i < 8 * count; ++i) {

+    const uint16_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

+    const uint16_t q0 = s[0], q1 = s[1], q2 = s[2], q3 = s[3];

+    const int8_t mask = highbd_filter_mask(*limit, *blimit,

+                                           p3, p2, p1, p0, q0, q1, q2, q3, bd);

+    const int8_t flat = highbd_flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3,

+                                          bd);

+    highbd_filter8(mask, *thresh, flat,

+                 s - 4, s - 3, s - 2, s - 1,

+                 s, s + 1, s + 2, s + 3,

+                 bd);

+    s += pitch;

+  }

+}

+void vp9_highbd_lpf_vertical_8_dual_c(uint16_t *s, int pitch,

+                                      const uint8_t *blimit0,

+                                      const uint8_t *limit0,

+                                      const uint8_t *thresh0,

+                                      const uint8_t *blimit1,

+                                      const uint8_t *limit1,

+                                      const uint8_t *thresh1,

+                                      int bd) {

+  vp9_highbd_lpf_vertical_8_c(s, pitch, blimit0, limit0, thresh0, 1, bd);

+  vp9_highbd_lpf_vertical_8_c(s + 8 * pitch, pitch, blimit1, limit1,

+                              thresh1, 1, bd);

+}

+static INLINE void highbd_filter16(int8_t mask, uint8_t thresh,

+                                   uint8_t flat, uint8_t flat2,

+                                   uint16_t *op7, uint16_t *op6,

+                                   uint16_t *op5, uint16_t *op4,

+                                   uint16_t *op3, uint16_t *op2,

+                                   uint16_t *op1, uint16_t *op0,

+                                   uint16_t *oq0, uint16_t *oq1,

+                                   uint16_t *oq2, uint16_t *oq3,

+                                   uint16_t *oq4, uint16_t *oq5,

+                                   uint16_t *oq6, uint16_t *oq7, int bd) {

+  if (flat2 && flat && mask) {

+    const uint16_t p7 = *op7;

+    const uint16_t p6 = *op6;

+    const uint16_t p5 = *op5;

+    const uint16_t p4 = *op4;

+    const uint16_t p3 = *op3;

+    const uint16_t p2 = *op2;

+    const uint16_t p1 = *op1;

+    const uint16_t p0 = *op0;

+    const uint16_t q0 = *oq0;

+    const uint16_t q1 = *oq1;

+    const uint16_t q2 = *oq2;

+    const uint16_t q3 = *oq3;

+    const uint16_t q4 = *oq4;

+    const uint16_t q5 = *oq5;

+    const uint16_t q6 = *oq6;

+    const uint16_t q7 = *oq7;

+    // 15-tap filter [1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1]

+    *op6 = ROUND_POWER_OF_TWO(p7 * 7 + p6 * 2 + p5 + p4 + p3 + p2 + p1 + p0 +

+                              q0, 4);

+    *op5 = ROUND_POWER_OF_TWO(p7 * 6 + p6 + p5 * 2 + p4 + p3 + p2 + p1 + p0 +

+                              q0 + q1, 4);

+    *op4 = ROUND_POWER_OF_TWO(p7 * 5 + p6 + p5 + p4 * 2 + p3 + p2 + p1 + p0 +

+                              q0 + q1 + q2, 4);

+    *op3 = ROUND_POWER_OF_TWO(p7 * 4 + p6 + p5 + p4 + p3 * 2 + p2 + p1 + p0 +

+                              q0 + q1 + q2 + q3, 4);

+    *op2 = ROUND_POWER_OF_TWO(p7 * 3 + p6 + p5 + p4 + p3 + p2 * 2 + p1 + p0 +

+                              q0 + q1 + q2 + q3 + q4, 4);

+    *op1 = ROUND_POWER_OF_TWO(p7 * 2 + p6 + p5 + p4 + p3 + p2 + p1 * 2 + p0 +

+                              q0 + q1 + q2 + q3 + q4 + q5, 4);

+    *op0 = ROUND_POWER_OF_TWO(p7 + p6 + p5 + p4 + p3 + p2 + p1 + p0 * 2 +

+                              q0 + q1 + q2 + q3 + q4 + q5 + q6, 4);

+    *oq0 = ROUND_POWER_OF_TWO(p6 + p5 + p4 + p3 + p2 + p1 + p0 +

+                              q0 * 2 + q1 + q2 + q3 + q4 + q5 + q6 + q7, 4);

+    *oq1 = ROUND_POWER_OF_TWO(p5 + p4 + p3 + p2 + p1 + p0 +

+                              q0 + q1 * 2 + q2 + q3 + q4 + q5 + q6 + q7 * 2, 4);

+    *oq2 = ROUND_POWER_OF_TWO(p4 + p3 + p2 + p1 + p0 +

+                              q0 + q1 + q2 * 2 + q3 + q4 + q5 + q6 + q7 * 3, 4);

+    *oq3 = ROUND_POWER_OF_TWO(p3 + p2 + p1 + p0 +

+                              q0 + q1 + q2 + q3 * 2 + q4 + q5 + q6 + q7 * 4, 4);

+    *oq4 = ROUND_POWER_OF_TWO(p2 + p1 + p0 +

+                              q0 + q1 + q2 + q3 + q4 * 2 + q5 + q6 + q7 * 5, 4);

+    *oq5 = ROUND_POWER_OF_TWO(p1 + p0 +

+                              q0 + q1 + q2 + q3 + q4 + q5 * 2 + q6 + q7 * 6, 4);

+    *oq6 = ROUND_POWER_OF_TWO(p0 +

+                              q0 + q1 + q2 + q3 + q4 + q5 + q6 * 2 + q7 * 7, 4);

+  } else {

+    highbd_filter8(mask, thresh, flat, op3, op2, op1, op0, oq0, oq1, oq2, oq3,

+                   bd);

+  }

+}

+void vp9_highbd_lpf_horizontal_16_c(uint16_t *s, int p, const uint8_t *blimit,

+                                    const uint8_t *limit, const uint8_t *thresh,

+                                    int count, int bd) {

+  int i;

+  // loop filter designed to work using chars so that we can make maximum use

+  // of 8 bit simd instructions.

+  for (i = 0; i < 8 * count; ++i) {

+    const uint16_t p3 = s[-4 * p];

+    const uint16_t p2 = s[-3 * p];

+    const uint16_t p1 = s[-2 * p];

+    const uint16_t p0 = s[-p];

+    const uint16_t q0 = s[0 * p];

+    const uint16_t q1 = s[1 * p];

+    const uint16_t q2 = s[2 * p];

+    const uint16_t q3 = s[3 * p];

+    const int8_t mask = highbd_filter_mask(*limit, *blimit,

+                                           p3, p2, p1, p0, q0, q1, q2, q3, bd);

+    const int8_t flat = highbd_flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3,

+                                          bd);

+    const int8_t flat2 = highbd_flat_mask5(

+        1, s[-8 * p], s[-7 * p], s[-6 * p], s[-5 * p], p0,

+        q0, s[4 * p], s[5 * p], s[6 * p], s[7 * p], bd);

+    highbd_filter16(mask, *thresh, flat, flat2,

+                    s - 8 * p, s - 7 * p, s - 6 * p, s - 5 * p,

+                    s - 4 * p, s - 3 * p, s - 2 * p, s - 1 * p,

+                    s, s + 1 * p, s + 2 * p, s + 3 * p,

+                    s + 4 * p, s + 5 * p, s + 6 * p, s + 7 * p,

+                    bd);

+    ++s;

+  }

+}

+static void highbd_mb_lpf_vertical_edge_w(uint16_t *s, int p,

+                                          const uint8_t *blimit,

+                                          const uint8_t *limit,

+                                          const uint8_t *thresh,

+                                          int count, int bd) {

+  int i;

+  for (i = 0; i < count; ++i) {

+    const uint16_t p3 = s[-4];

+    const uint16_t p2 = s[-3];

+    const uint16_t p1 = s[-2];

+    const uint16_t p0 = s[-1];

+    const uint16_t q0 = s[0];

+    const uint16_t q1 = s[1];

+    const uint16_t q2 = s[2];

+    const uint16_t q3 = s[3];

+    const int8_t mask = highbd_filter_mask(*limit, *blimit,

+                                           p3, p2, p1, p0, q0, q1, q2, q3, bd);

+    const int8_t flat = highbd_flat_mask4(1, p3, p2, p1, p0, q0, q1, q2, q3,

+                                          bd);

+    const int8_t flat2 = highbd_flat_mask5(1, s[-8], s[-7], s[-6], s[-5], p0,

+                                           q0, s[4], s[5], s[6], s[7], bd);

+    highbd_filter16(mask, *thresh, flat, flat2,

+                    s - 8, s - 7, s - 6, s - 5, s - 4, s - 3, s - 2, s - 1,

+                    s, s + 1, s + 2, s + 3, s + 4, s + 5, s + 6, s + 7,

+                    bd);

+    s += p;

+  }

+}

+void vp9_highbd_lpf_vertical_16_c(uint16_t *s, int p, const uint8_t *blimit,

+                                  const uint8_t *limit, const uint8_t *thresh,

+                                  int bd) {

+  highbd_mb_lpf_vertical_edge_w(s, p, blimit, limit, thresh, 8, bd);

+}

+void vp9_highbd_lpf_vertical_16_dual_c(uint16_t *s, int p,

+                                       const uint8_t *blimit,

+                                       const uint8_t *limit,

+                                       const uint8_t *thresh,

+                                       int bd) {

+  highbd_mb_lpf_vertical_edge_w(s, p, blimit, limit, thresh, 16, bd);

+}

+#endif  // CONFIG_VP9_HIGHBITDEPTH

--- /dev/null

+++ b/vpx_dsp/mips/loopfilter_16_msa.c

@@ -1,0 +1,1480 @@

+/*

+ *  Copyright (c) 2015 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "vpx_ports/mem.h"

+#include "vpx_dsp/mips/loopfilter_msa.h"

+int32_t vp9_hz_lpf_t4_and_t8_16w(uint8_t *src, int32_t pitch,

+                                 uint8_t *filter48,

+                                 const uint8_t *b_limit_ptr,

+                                 const uint8_t *limit_ptr,

+                                 const uint8_t *thresh_ptr) {

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

+  v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

+  v16u8 flat, mask, hev, thresh, b_limit, limit;

+  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

+  v8u16 p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l;

+  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

+  v8i16 p2_filt8_l, p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l;

+  v16u8 zero = { 0 };

+  /* load vector elements */

+  LD_UB8(src - (4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

+  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

+  limit = (v16u8)__msa_fill_b(*limit_ptr);

+  /* mask and hev */

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

+               hev, mask, flat);

+  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

+  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

+  if (__msa_test_bz_v(flat)) {

+    ST_UB4(p1_out, p0_out, q0_out, q1_out, (src - 2 * pitch), pitch);

+    return 1;

+  } else {

+    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

+               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r,

+               q2_r, q3_r);

+    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

+                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

+    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l, p2_l, p1_l, p0_l);

+    ILVL_B4_UH(zero, q0, zero, q1, zero, q2, zero, q3, q0_l, q1_l, q2_l, q3_l);

+    VP9_FILTER8(p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l, p2_filt8_l,

+                p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l);

+    /* convert 16 bit output data into 8 bit */

+    PCKEV_B4_SH(p2_filt8_l, p2_filt8_r, p1_filt8_l, p1_filt8_r, p0_filt8_l,

+                p0_filt8_r, q0_filt8_l, q0_filt8_r, p2_filt8_r, p1_filt8_r,

+                p0_filt8_r, q0_filt8_r);

+    PCKEV_B2_SH(q1_filt8_l, q1_filt8_r, q2_filt8_l, q2_filt8_r, q1_filt8_r,

+                q2_filt8_r);

+    /* store pixel values */

+    p2_out = __msa_bmnz_v(p2, (v16u8)p2_filt8_r, flat);

+    p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_filt8_r, flat);

+    p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_filt8_r, flat);

+    q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_filt8_r, flat);

+    q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_filt8_r, flat);

+    q2_out = __msa_bmnz_v(q2, (v16u8)q2_filt8_r, flat);

+    ST_UB4(p2_out, p1_out, p0_out, q0_out, filter48, 16);

+    filter48 += (4 * 16);

+    ST_UB2(q1_out, q2_out, filter48, 16);

+    filter48 += (2 * 16);

+    ST_UB(flat, filter48);

+    return 0;

+  }

+}

+void vp9_hz_lpf_t16_16w(uint8_t *src, int32_t pitch, uint8_t *filter48) {

+  v16u8 flat, flat2, filter8;

+  v16i8 zero = { 0 };

+  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

+  v8u16 p7_r_in, p6_r_in, p5_r_in, p4_r_in, p3_r_in, p2_r_in, p1_r_in, p0_r_in;

+  v8u16 q7_r_in, q6_r_in, q5_r_in, q4_r_in, q3_r_in, q2_r_in, q1_r_in, q0_r_in;

+  v8u16 p7_l_in, p6_l_in, p5_l_in, p4_l_in, p3_l_in, p2_l_in, p1_l_in, p0_l_in;

+  v8u16 q7_l_in, q6_l_in, q5_l_in, q4_l_in, q3_l_in, q2_l_in, q1_l_in, q0_l_in;

+  v8u16 tmp0_r, tmp1_r, tmp0_l, tmp1_l;

+  v8i16 l_out, r_out;

+  flat = LD_UB(filter48 + 96);

+  LD_UB8((src - 8 * pitch), pitch, p7, p6, p5, p4, p3, p2, p1, p0);

+  LD_UB8(src, pitch, q0, q1, q2, q3, q4, q5, q6, q7);

+  VP9_FLAT5(p7, p6, p5, p4, p0, q0, q4, q5, q6, q7, flat, flat2);

+  if (__msa_test_bz_v(flat2)) {

+    LD_UB4(filter48, 16, p2, p1, p0, q0);

+    LD_UB2(filter48 + 4 * 16, 16, q1, q2);

+    src -= 3 * pitch;

+    ST_UB4(p2, p1, p0, q0, src, pitch);

+    src += (4 * pitch);

+    ST_UB2(q1, q2, src, pitch);

+  } else {

+    src -= 7 * pitch;

+    ILVR_B8_UH(zero, p7, zero, p6, zero, p5, zero, p4, zero, p3, zero, p2,

+               zero, p1, zero, p0, p7_r_in, p6_r_in, p5_r_in, p4_r_in, p3_r_in,

+               p2_r_in, p1_r_in, p0_r_in);

+    q0_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q0);

+    tmp0_r = p7_r_in << 3;

+    tmp0_r -= p7_r_in;

+    tmp0_r += p6_r_in;

+    tmp0_r += q0_r_in;

+    tmp1_r = p6_r_in + p5_r_in;

+    tmp1_r += p4_r_in;

+    tmp1_r += p3_r_in;

+    tmp1_r += p2_r_in;

+    tmp1_r += p1_r_in;

+    tmp1_r += p0_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    ILVL_B4_UH(zero, p7, zero, p6, zero, p5, zero, p4, p7_l_in, p6_l_in,

+               p5_l_in, p4_l_in);

+    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l_in, p2_l_in,

+               p1_l_in, p0_l_in);

+    q0_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q0);

+    tmp0_l = p7_l_in << 3;

+    tmp0_l -= p7_l_in;

+    tmp0_l += p6_l_in;

+    tmp0_l += q0_l_in;

+    tmp1_l = p6_l_in + p5_l_in;

+    tmp1_l += p4_l_in;

+    tmp1_l += p3_l_in;

+    tmp1_l += p2_l_in;

+    tmp1_l += p1_l_in;

+    tmp1_l += p0_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    p6 = __msa_bmnz_v(p6, (v16u8)r_out, flat2);

+    ST_UB(p6, src);

+    src += pitch;

+    /* p5 */

+    q1_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q1);

+    tmp0_r = p5_r_in - p6_r_in;

+    tmp0_r += q1_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q1_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q1);

+    tmp0_l = p5_l_in - p6_l_in;

+    tmp0_l += q1_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    p5 = __msa_bmnz_v(p5, (v16u8)r_out, flat2);

+    ST_UB(p5, src);

+    src += pitch;

+    /* p4 */

+    q2_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q2);

+    tmp0_r = p4_r_in - p5_r_in;

+    tmp0_r += q2_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = (v8i16)__msa_srari_h((v8i16)tmp1_r, 4);

+    q2_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q2);

+    tmp0_l = p4_l_in - p5_l_in;

+    tmp0_l += q2_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    p4 = __msa_bmnz_v(p4, (v16u8)r_out, flat2);

+    ST_UB(p4, src);

+    src += pitch;

+    /* p3 */

+    q3_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q3);

+    tmp0_r = p3_r_in - p4_r_in;

+    tmp0_r += q3_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q3_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q3);

+    tmp0_l = p3_l_in - p4_l_in;

+    tmp0_l += q3_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    p3 = __msa_bmnz_v(p3, (v16u8)r_out, flat2);

+    ST_UB(p3, src);

+    src += pitch;

+    /* p2 */

+    q4_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q4);

+    filter8 = LD_UB(filter48);

+    tmp0_r = p2_r_in - p3_r_in;

+    tmp0_r += q4_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q4_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q4);

+    tmp0_l = p2_l_in - p3_l_in;

+    tmp0_l += q4_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += pitch;

+    /* p1 */

+    q5_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q5);

+    filter8 = LD_UB(filter48 + 16);

+    tmp0_r = p1_r_in - p2_r_in;

+    tmp0_r += q5_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q5_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q5);

+    tmp0_l = p1_l_in - p2_l_in;

+    tmp0_l += q5_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += pitch;

+    /* p0 */

+    q6_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q6);

+    filter8 = LD_UB(filter48 + 32);

+    tmp0_r = p0_r_in - p1_r_in;

+    tmp0_r += q6_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q6_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q6);

+    tmp0_l = p0_l_in - p1_l_in;

+    tmp0_l += q6_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += pitch;

+    /* q0 */

+    q7_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q7);

+    filter8 = LD_UB(filter48 + 48);

+    tmp0_r = q7_r_in - p0_r_in;

+    tmp0_r += q0_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q7_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q7);

+    tmp0_l = q7_l_in - p0_l_in;

+    tmp0_l += q0_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += pitch;

+    /* q1 */

+    filter8 = LD_UB(filter48 + 64);

+    tmp0_r = q7_r_in - q0_r_in;

+    tmp0_r += q1_r_in;

+    tmp0_r -= p6_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q0_l_in;

+    tmp0_l += q1_l_in;

+    tmp0_l -= p6_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += pitch;

+    /* q2 */

+    filter8 = LD_UB(filter48 + 80);

+    tmp0_r = q7_r_in - q1_r_in;

+    tmp0_r += q2_r_in;

+    tmp0_r -= p5_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q1_l_in;

+    tmp0_l += q2_l_in;

+    tmp0_l -= p5_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += pitch;

+    /* q3 */

+    tmp0_r = q7_r_in - q2_r_in;

+    tmp0_r += q3_r_in;

+    tmp0_r -= p4_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q2_l_in;

+    tmp0_l += q3_l_in;

+    tmp0_l -= p4_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    q3 = __msa_bmnz_v(q3, (v16u8)r_out, flat2);

+    ST_UB(q3, src);

+    src += pitch;

+    /* q4 */

+    tmp0_r = q7_r_in - q3_r_in;

+    tmp0_r += q4_r_in;

+    tmp0_r -= p3_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q3_l_in;

+    tmp0_l += q4_l_in;

+    tmp0_l -= p3_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    q4 = __msa_bmnz_v(q4, (v16u8)r_out, flat2);

+    ST_UB(q4, src);

+    src += pitch;

+    /* q5 */

+    tmp0_r = q7_r_in - q4_r_in;

+    tmp0_r += q5_r_in;

+    tmp0_r -= p2_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q4_l_in;

+    tmp0_l += q5_l_in;

+    tmp0_l -= p2_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    q5 = __msa_bmnz_v(q5, (v16u8)r_out, flat2);

+    ST_UB(q5, src);

+    src += pitch;

+    /* q6 */

+    tmp0_r = q7_r_in - q5_r_in;

+    tmp0_r += q6_r_in;

+    tmp0_r -= p1_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q5_l_in;

+    tmp0_l += q6_l_in;

+    tmp0_l -= p1_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    q6 = __msa_bmnz_v(q6, (v16u8)r_out, flat2);

+    ST_UB(q6, src);

+  }

+}

+void vp9_lpf_horizontal_16_dual_msa(uint8_t *src, int32_t pitch,

+                                    const uint8_t *b_limit_ptr,

+                                    const uint8_t *limit_ptr,

+                                    const uint8_t *thresh_ptr,

+                                    int32_t count) {

+  DECLARE_ALIGNED(32, uint8_t, filter48[16 * 8]);

+  uint8_t early_exit = 0;

+  (void)count;

+  early_exit = vp9_hz_lpf_t4_and_t8_16w(src, pitch, &filter48[0], b_limit_ptr,

+                                        limit_ptr, thresh_ptr);

+  if (0 == early_exit) {

+    vp9_hz_lpf_t16_16w(src, pitch, filter48);

+  }

+}

+void vp9_lpf_horizontal_16_msa(uint8_t *src, int32_t pitch,

+                               const uint8_t *b_limit_ptr,

+                               const uint8_t *limit_ptr,

+                               const uint8_t *thresh_ptr,

+                               int32_t count) {

+  if (1 == count) {

+    uint64_t p2_d, p1_d, p0_d, q0_d, q1_d, q2_d;

+    uint64_t dword0, dword1;

+    v16u8 flat2, mask, hev, flat, thresh, b_limit, limit;

+    v16u8 p3, p2, p1, p0, q3, q2, q1, q0, p7, p6, p5, p4, q4, q5, q6, q7;

+    v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

+    v16u8 p0_filter16, p1_filter16;

+    v8i16 p2_filter8, p1_filter8, p0_filter8;

+    v8i16 q0_filter8, q1_filter8, q2_filter8;

+    v8u16 p7_r, p6_r, p5_r, p4_r, q7_r, q6_r, q5_r, q4_r;

+    v8u16 p3_r, p2_r, p1_r, p0_r, q3_r, q2_r, q1_r, q0_r;

+    v16i8 zero = { 0 };

+    v8u16 tmp0, tmp1, tmp2;

+    /* load vector elements */

+    LD_UB8((src - 4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

+    thresh = (v16u8)__msa_fill_b(*thresh_ptr);

+    b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

+    limit = (v16u8)__msa_fill_b(*limit_ptr);

+    LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

+                 hev, mask, flat);

+    VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

+    VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out,

+                       q1_out);

+    flat = (v16u8)__msa_ilvr_d((v2i64)zero, (v2i64)flat);

+    if (__msa_test_bz_v(flat)) {

+      p1_d = __msa_copy_u_d((v2i64)p1_out, 0);

+      p0_d = __msa_copy_u_d((v2i64)p0_out, 0);

+      q0_d = __msa_copy_u_d((v2i64)q0_out, 0);

+      q1_d = __msa_copy_u_d((v2i64)q1_out, 0);

+      SD4(p1_d, p0_d, q0_d, q1_d, src - 2 * pitch, pitch);

+    } else {

+      /* convert 8 bit input data into 16 bit */

+      ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

+                 zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r,

+                 q3_r);

+      VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filter8,

+                  p1_filter8, p0_filter8, q0_filter8, q1_filter8, q2_filter8);

+      /* convert 16 bit output data into 8 bit */

+      PCKEV_B4_SH(zero, p2_filter8, zero, p1_filter8, zero, p0_filter8,

+                  zero, q0_filter8, p2_filter8, p1_filter8, p0_filter8,

+                  q0_filter8);

+      PCKEV_B2_SH(zero, q1_filter8, zero, q2_filter8, q1_filter8, q2_filter8);

+      /* store pixel values */

+      p2_out = __msa_bmnz_v(p2, (v16u8)p2_filter8, flat);

+      p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_filter8, flat);

+      p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_filter8, flat);

+      q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_filter8, flat);

+      q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_filter8, flat);

+      q2_out = __msa_bmnz_v(q2, (v16u8)q2_filter8, flat);

+      /* load 16 vector elements */

+      LD_UB4((src - 8 * pitch), pitch, p7, p6, p5, p4);

+      LD_UB4(src + (4 * pitch), pitch, q4, q5, q6, q7);

+      VP9_FLAT5(p7, p6, p5, p4, p0, q0, q4, q5, q6, q7, flat, flat2);

+      if (__msa_test_bz_v(flat2)) {

+        p2_d = __msa_copy_u_d((v2i64)p2_out, 0);

+        p1_d = __msa_copy_u_d((v2i64)p1_out, 0);

+        p0_d = __msa_copy_u_d((v2i64)p0_out, 0);

+        q0_d = __msa_copy_u_d((v2i64)q0_out, 0);

+        q1_d = __msa_copy_u_d((v2i64)q1_out, 0);

+        q2_d = __msa_copy_u_d((v2i64)q2_out, 0);

+        SD4(p2_d, p1_d, p0_d, q0_d, src - 3 * pitch, pitch);

+        SD(q1_d, src + pitch);

+        SD(q2_d, src + 2 * pitch);

+      } else {

+        /* LSB(right) 8 pixel operation */

+        ILVR_B8_UH(zero, p7, zero, p6, zero, p5, zero, p4, zero, q4, zero, q5,

+                   zero, q6, zero, q7, p7_r, p6_r, p5_r, p4_r, q4_r, q5_r, q6_r,

+                   q7_r);

+        tmp0 = p7_r << 3;

+        tmp0 -= p7_r;

+        tmp0 += p6_r;

+        tmp0 += q0_r;

+        src -= 7 * pitch;

+        /* calculation of p6 and p5 */

+        tmp1 = p6_r + p5_r + p4_r + p3_r;

+        tmp1 += (p2_r + p1_r + p0_r);

+        tmp1 += tmp0;

+        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        tmp0 = p5_r - p6_r + q1_r - p7_r;

+        tmp1 += tmp0;

+        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

+                    p1_filter16);

+        p0_filter16 = __msa_bmnz_v(p6, p0_filter16, flat2);

+        p1_filter16 = __msa_bmnz_v(p5, p1_filter16, flat2);

+        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

+        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

+        SD(dword0, src);

+        src += pitch;

+        SD(dword1, src);

+        src += pitch;

+        /* calculation of p4 and p3 */

+        tmp0 = p4_r - p5_r + q2_r - p7_r;

+        tmp2 = p3_r - p4_r + q3_r - p7_r;

+        tmp1 += tmp0;

+        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        tmp1 += tmp2;

+        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

+                    p1_filter16);

+        p0_filter16 = __msa_bmnz_v(p4, p0_filter16, flat2);

+        p1_filter16 = __msa_bmnz_v(p3, p1_filter16, flat2);

+        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

+        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

+        SD(dword0, src);

+        src += pitch;

+        SD(dword1, src);

+        src += pitch;

+        /* calculation of p2 and p1 */

+        tmp0 = p2_r - p3_r + q4_r - p7_r;

+        tmp2 = p1_r - p2_r + q5_r - p7_r;

+        tmp1 += tmp0;

+        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        tmp1 += tmp2;

+        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

+                    p1_filter16);

+        p0_filter16 = __msa_bmnz_v(p2_out, p0_filter16, flat2);

+        p1_filter16 = __msa_bmnz_v(p1_out, p1_filter16, flat2);

+        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

+        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

+        SD(dword0, src);

+        src += pitch;

+        SD(dword1, src);

+        src += pitch;

+        /* calculation of p0 and q0 */

+        tmp0 = (p0_r - p1_r) + (q6_r - p7_r);

+        tmp2 = (q7_r - p0_r) + (q0_r - p7_r);

+        tmp1 += tmp0;

+        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        tmp1 += tmp2;

+        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

+                    p1_filter16);

+        p0_filter16 = __msa_bmnz_v(p0_out, p0_filter16, flat2);

+        p1_filter16 = __msa_bmnz_v(q0_out, p1_filter16, flat2);

+        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

+        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

+        SD(dword0, src);

+        src += pitch;

+        SD(dword1, src);

+        src += pitch;

+        /* calculation of q1 and q2 */

+        tmp0 = q7_r - q0_r + q1_r - p6_r;

+        tmp2 = q7_r - q1_r + q2_r - p5_r;

+        tmp1 += tmp0;

+        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        tmp1 += tmp2;

+        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

+                    p1_filter16);

+        p0_filter16 = __msa_bmnz_v(q1_out, p0_filter16, flat2);

+        p1_filter16 = __msa_bmnz_v(q2_out, p1_filter16, flat2);

+        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

+        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

+        SD(dword0, src);

+        src += pitch;

+        SD(dword1, src);

+        src += pitch;

+        /* calculation of q3 and q4 */

+        tmp0 = (q7_r - q2_r) + (q3_r - p4_r);

+        tmp2 = (q7_r - q3_r) + (q4_r - p3_r);

+        tmp1 += tmp0;

+        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        tmp1 += tmp2;

+        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

+                    p1_filter16);

+        p0_filter16 = __msa_bmnz_v(q3, p0_filter16, flat2);

+        p1_filter16 = __msa_bmnz_v(q4, p1_filter16, flat2);

+        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

+        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

+        SD(dword0, src);

+        src += pitch;

+        SD(dword1, src);

+        src += pitch;

+        /* calculation of q5 and q6 */

+        tmp0 = (q7_r - q4_r) + (q5_r - p2_r);

+        tmp2 = (q7_r - q5_r) + (q6_r - p1_r);

+        tmp1 += tmp0;

+        p0_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        tmp1 += tmp2;

+        p1_filter16 = (v16u8)__msa_srari_h((v8i16)tmp1, 4);

+        PCKEV_B2_UB(zero, p0_filter16, zero, p1_filter16, p0_filter16,

+                    p1_filter16);

+        p0_filter16 = __msa_bmnz_v(q5, p0_filter16, flat2);

+        p1_filter16 = __msa_bmnz_v(q6, p1_filter16, flat2);

+        dword0 = __msa_copy_u_d((v2i64)p0_filter16, 0);

+        dword1 = __msa_copy_u_d((v2i64)p1_filter16, 0);

+        SD(dword0, src);

+        src += pitch;

+        SD(dword1, src);

+      }

+    }

+  } else {

+    vp9_lpf_horizontal_16_dual_msa(src, pitch, b_limit_ptr, limit_ptr,

+                                   thresh_ptr, count);

+  }

+}

+static void vp9_transpose_16x8_to_8x16(uint8_t *input, int32_t in_pitch,

+                                       uint8_t *output, int32_t out_pitch) {

+  v16u8 p7_org, p6_org, p5_org, p4_org, p3_org, p2_org, p1_org, p0_org;

+  v16i8 tmp0, tmp1, tmp2, tmp3, tmp4, tmp5, tmp6, tmp7;

+  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

+  LD_UB8(input, in_pitch,

+         p7_org, p6_org, p5_org, p4_org, p3_org, p2_org, p1_org, p0_org);

+  /* 8x8 transpose */

+  TRANSPOSE8x8_UB_UB(p7_org, p6_org, p5_org, p4_org, p3_org, p2_org, p1_org,

+                     p0_org, p7, p6, p5, p4, p3, p2, p1, p0);

+  /* 8x8 transpose */

+  ILVL_B4_SB(p5_org, p7_org, p4_org, p6_org, p1_org, p3_org, p0_org, p2_org,

+             tmp0, tmp1, tmp2, tmp3);

+  ILVR_B2_SB(tmp1, tmp0, tmp3, tmp2, tmp4, tmp6);

+  ILVL_B2_SB(tmp1, tmp0, tmp3, tmp2, tmp5, tmp7);

+  ILVR_W2_UB(tmp6, tmp4, tmp7, tmp5, q0, q4);

+  ILVL_W2_UB(tmp6, tmp4, tmp7, tmp5, q2, q6);

+  SLDI_B4_0_UB(q0, q2, q4, q6, q1, q3, q5, q7, 8);

+  ST_UB8(p7, p6, p5, p4, p3, p2, p1, p0, output, out_pitch);

+  output += (8 * out_pitch);

+  ST_UB8(q0, q1, q2, q3, q4, q5, q6, q7, output, out_pitch);

+}

+static void vp9_transpose_8x16_to_16x8(uint8_t *input, int32_t in_pitch,

+                                       uint8_t *output, int32_t out_pitch) {

+  v16u8 p7_o, p6_o, p5_o, p4_o, p3_o, p2_o, p1_o, p0_o;

+  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

+  LD_UB8(input, in_pitch, p7, p6, p5, p4, p3, p2, p1, p0);

+  LD_UB8(input + (8 * in_pitch), in_pitch, q0, q1, q2, q3, q4, q5, q6, q7);

+  TRANSPOSE16x8_UB_UB(p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5,

+                      q6, q7, p7_o, p6_o, p5_o, p4_o, p3_o, p2_o, p1_o, p0_o);

+  ST_UB8(p7_o, p6_o, p5_o, p4_o, p3_o, p2_o, p1_o, p0_o, output, out_pitch);

+}

+static void vp9_transpose_16x16(uint8_t *input, int32_t in_pitch,

+                                uint8_t *output, int32_t out_pitch) {

+  v16u8 row0, row1, row2, row3, row4, row5, row6, row7;

+  v16u8 row8, row9, row10, row11, row12, row13, row14, row15;

+  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

+  v8i16 tmp0, tmp1, tmp4, tmp5, tmp6, tmp7;

+  v4i32 tmp2, tmp3;

+  LD_UB8(input, in_pitch, row0, row1, row2, row3, row4, row5, row6, row7);

+  input += (8 * in_pitch);

+  LD_UB8(input, in_pitch,

+         row8, row9, row10, row11, row12, row13, row14, row15);

+  TRANSPOSE16x8_UB_UB(row0, row1, row2, row3, row4, row5, row6, row7,

+                      row8, row9, row10, row11, row12, row13, row14, row15,

+                      p7, p6, p5, p4, p3, p2, p1, p0);

+  /* transpose 16x8 matrix into 8x16 */

+  /* total 8 intermediate register and 32 instructions */

+  q7 = (v16u8)__msa_ilvod_d((v2i64)row8, (v2i64)row0);

+  q6 = (v16u8)__msa_ilvod_d((v2i64)row9, (v2i64)row1);

+  q5 = (v16u8)__msa_ilvod_d((v2i64)row10, (v2i64)row2);

+  q4 = (v16u8)__msa_ilvod_d((v2i64)row11, (v2i64)row3);

+  q3 = (v16u8)__msa_ilvod_d((v2i64)row12, (v2i64)row4);

+  q2 = (v16u8)__msa_ilvod_d((v2i64)row13, (v2i64)row5);

+  q1 = (v16u8)__msa_ilvod_d((v2i64)row14, (v2i64)row6);

+  q0 = (v16u8)__msa_ilvod_d((v2i64)row15, (v2i64)row7);

+  ILVEV_B2_SH(q7, q6, q5, q4, tmp0, tmp1);

+  tmp4 = (v8i16)__msa_ilvod_b((v16i8)q6, (v16i8)q7);

+  tmp5 = (v8i16)__msa_ilvod_b((v16i8)q4, (v16i8)q5);

+  ILVEV_B2_UB(q3, q2, q1, q0, q5, q7);

+  tmp6 = (v8i16)__msa_ilvod_b((v16i8)q2, (v16i8)q3);

+  tmp7 = (v8i16)__msa_ilvod_b((v16i8)q0, (v16i8)q1);

+  ILVEV_H2_SW(tmp0, tmp1, q5, q7, tmp2, tmp3);

+  q0 = (v16u8)__msa_ilvev_w(tmp3, tmp2);

+  q4 = (v16u8)__msa_ilvod_w(tmp3, tmp2);

+  tmp2 = (v4i32)__msa_ilvod_h(tmp1, tmp0);

+  tmp3 = (v4i32)__msa_ilvod_h((v8i16)q7, (v8i16)q5);

+  q2 = (v16u8)__msa_ilvev_w(tmp3, tmp2);

+  q6 = (v16u8)__msa_ilvod_w(tmp3, tmp2);

+  ILVEV_H2_SW(tmp4, tmp5, tmp6, tmp7, tmp2, tmp3);

+  q1 = (v16u8)__msa_ilvev_w(tmp3, tmp2);

+  q5 = (v16u8)__msa_ilvod_w(tmp3, tmp2);

+  tmp2 = (v4i32)__msa_ilvod_h(tmp5, tmp4);

+  tmp3 = (v4i32)__msa_ilvod_h(tmp7, tmp6);

+  q3 = (v16u8)__msa_ilvev_w(tmp3, tmp2);

+  q7 = (v16u8)__msa_ilvod_w(tmp3, tmp2);

+  ST_UB8(p7, p6, p5, p4, p3, p2, p1, p0, output, out_pitch);

+  output += (8 * out_pitch);

+  ST_UB8(q0, q1, q2, q3, q4, q5, q6, q7, output, out_pitch);

+}

+int32_t vp9_vt_lpf_t4_and_t8_8w(uint8_t *src, uint8_t *filter48,

+                                uint8_t *src_org, int32_t pitch_org,

+                                const uint8_t *b_limit_ptr,

+                                const uint8_t *limit_ptr,

+                                const uint8_t *thresh_ptr) {

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

+  v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

+  v16u8 flat, mask, hev, thresh, b_limit, limit;

+  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

+  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

+  v16i8 zero = { 0 };

+  v8i16 vec0, vec1, vec2, vec3;

+  /* load vector elements */

+  LD_UB8(src - (4 * 16), 16, p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

+  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

+  limit = (v16u8)__msa_fill_b(*limit_ptr);

+  /* mask and hev */

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

+               hev, mask, flat);

+  /* flat4 */

+  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

+  /* filter4 */

+  VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

+  flat = (v16u8)__msa_ilvr_d((v2i64)zero, (v2i64)flat);

+  if (__msa_test_bz_v(flat)) {

+    ILVR_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec2, vec3);

+    ST4x8_UB(vec2, vec3, (src_org - 2), pitch_org);

+    return 1;

+  } else {

+    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

+               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r,

+               q3_r);

+    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

+                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

+    /* convert 16 bit output data into 8 bit */

+    p2_r = (v8u16)__msa_pckev_b((v16i8)p2_filt8_r, (v16i8)p2_filt8_r);

+    p1_r = (v8u16)__msa_pckev_b((v16i8)p1_filt8_r, (v16i8)p1_filt8_r);

+    p0_r = (v8u16)__msa_pckev_b((v16i8)p0_filt8_r, (v16i8)p0_filt8_r);

+    q0_r = (v8u16)__msa_pckev_b((v16i8)q0_filt8_r, (v16i8)q0_filt8_r);

+    q1_r = (v8u16)__msa_pckev_b((v16i8)q1_filt8_r, (v16i8)q1_filt8_r);

+    q2_r = (v8u16)__msa_pckev_b((v16i8)q2_filt8_r, (v16i8)q2_filt8_r);

+    /* store pixel values */

+    p2_out = __msa_bmnz_v(p2, (v16u8)p2_r, flat);

+    p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_r, flat);

+    p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_r, flat);

+    q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_r, flat);

+    q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_r, flat);

+    q2_out = __msa_bmnz_v(q2, (v16u8)q2_r, flat);

+    ST_UB4(p2_out, p1_out, p0_out, q0_out, filter48, 16);

+    filter48 += (4 * 16);

+    ST_UB2(q1_out, q2_out, filter48, 16);

+    filter48 += (2 * 16);

+    ST_UB(flat, filter48);

+    return 0;

+  }

+}

+int32_t vp9_vt_lpf_t16_8w(uint8_t *src, uint8_t *src_org, int32_t pitch,

+                          uint8_t *filter48) {

+  v16i8 zero = { 0 };

+  v16u8 filter8, flat, flat2;

+  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

+  v8u16 p7_r_in, p6_r_in, p5_r_in, p4_r_in, p3_r_in, p2_r_in, p1_r_in, p0_r_in;

+  v8u16 q7_r_in, q6_r_in, q5_r_in, q4_r_in, q3_r_in, q2_r_in, q1_r_in, q0_r_in;

+  v8u16 tmp0_r, tmp1_r;

+  v8i16 r_out;

+  flat = LD_UB(filter48 + 6 * 16);

+  LD_UB8((src - 8 * 16), 16, p7, p6, p5, p4, p3, p2, p1, p0);

+  LD_UB8(src, 16, q0, q1, q2, q3, q4, q5, q6, q7);

+  VP9_FLAT5(p7, p6, p5, p4, p0, q0, q4, q5, q6, q7, flat, flat2);

+  if (__msa_test_bz_v(flat2)) {

+    v8i16 vec0, vec1, vec2, vec3, vec4;

+    LD_UB4(filter48, 16, p2, p1, p0, q0);

+    LD_UB2(filter48 + 4 * 16, 16, q1, q2);

+    ILVR_B2_SH(p1, p2, q0, p0, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec3, vec4);

+    vec2 = (v8i16)__msa_ilvr_b((v16i8)q2, (v16i8)q1);

+    src_org -= 3;

+    ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src_org, pitch);

+    ST2x4_UB(vec2, 0, (src_org + 4), pitch);

+    src_org += (4 * pitch);

+    ST4x4_UB(vec4, vec4, 0, 1, 2, 3, src_org, pitch);

+    ST2x4_UB(vec2, 4, (src_org + 4), pitch);

+    return 1;

+  } else {

+    src -= 7 * 16;

+    ILVR_B8_UH(zero, p7, zero, p6, zero, p5, zero, p4, zero, p3, zero, p2,

+               zero, p1, zero, p0, p7_r_in, p6_r_in, p5_r_in, p4_r_in,

+               p3_r_in, p2_r_in, p1_r_in, p0_r_in);

+    q0_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q0);

+    tmp0_r = p7_r_in << 3;

+    tmp0_r -= p7_r_in;

+    tmp0_r += p6_r_in;

+    tmp0_r += q0_r_in;

+    tmp1_r = p6_r_in + p5_r_in;

+    tmp1_r += p4_r_in;

+    tmp1_r += p3_r_in;

+    tmp1_r += p2_r_in;

+    tmp1_r += p1_r_in;

+    tmp1_r += p0_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    p6 = __msa_bmnz_v(p6, (v16u8)r_out, flat2);

+    ST8x1_UB(p6, src);

+    src += 16;

+    /* p5 */

+    q1_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q1);

+    tmp0_r = p5_r_in - p6_r_in;

+    tmp0_r += q1_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    p5 = __msa_bmnz_v(p5, (v16u8)r_out, flat2);

+    ST8x1_UB(p5, src);

+    src += 16;

+    /* p4 */

+    q2_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q2);

+    tmp0_r = p4_r_in - p5_r_in;

+    tmp0_r += q2_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    p4 = __msa_bmnz_v(p4, (v16u8)r_out, flat2);

+    ST8x1_UB(p4, src);

+    src += 16;

+    /* p3 */

+    q3_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q3);

+    tmp0_r = p3_r_in - p4_r_in;

+    tmp0_r += q3_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    p3 = __msa_bmnz_v(p3, (v16u8)r_out, flat2);

+    ST8x1_UB(p3, src);

+    src += 16;

+    /* p2 */

+    q4_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q4);

+    filter8 = LD_UB(filter48);

+    tmp0_r = p2_r_in - p3_r_in;

+    tmp0_r += q4_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST8x1_UB(filter8, src);

+    src += 16;

+    /* p1 */

+    q5_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q5);

+    filter8 = LD_UB(filter48 + 16);

+    tmp0_r = p1_r_in - p2_r_in;

+    tmp0_r += q5_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST8x1_UB(filter8, src);

+    src += 16;

+    /* p0 */

+    q6_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q6);

+    filter8 = LD_UB(filter48 + 32);

+    tmp0_r = p0_r_in - p1_r_in;

+    tmp0_r += q6_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST8x1_UB(filter8, src);

+    src += 16;

+    /* q0 */

+    q7_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q7);

+    filter8 = LD_UB(filter48 + 48);

+    tmp0_r = q7_r_in - p0_r_in;

+    tmp0_r += q0_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST8x1_UB(filter8, src);

+    src += 16;

+    /* q1 */

+    filter8 = LD_UB(filter48 + 64);

+    tmp0_r = q7_r_in - q0_r_in;

+    tmp0_r += q1_r_in;

+    tmp0_r -= p6_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST8x1_UB(filter8, src);

+    src += 16;

+    /* q2 */

+    filter8 = LD_UB(filter48 + 80);

+    tmp0_r = q7_r_in - q1_r_in;

+    tmp0_r += q2_r_in;

+    tmp0_r -= p5_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST8x1_UB(filter8, src);

+    src += 16;

+    /* q3 */

+    tmp0_r = q7_r_in - q2_r_in;

+    tmp0_r += q3_r_in;

+    tmp0_r -= p4_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    q3 = __msa_bmnz_v(q3, (v16u8)r_out, flat2);

+    ST8x1_UB(q3, src);

+    src += 16;

+    /* q4 */

+    tmp0_r = q7_r_in - q3_r_in;

+    tmp0_r += q4_r_in;

+    tmp0_r -= p3_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    q4 = __msa_bmnz_v(q4, (v16u8)r_out, flat2);

+    ST8x1_UB(q4, src);

+    src += 16;

+    /* q5 */

+    tmp0_r = q7_r_in - q4_r_in;

+    tmp0_r += q5_r_in;

+    tmp0_r -= p2_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    q5 = __msa_bmnz_v(q5, (v16u8)r_out, flat2);

+    ST8x1_UB(q5, src);

+    src += 16;

+    /* q6 */

+    tmp0_r = q7_r_in - q5_r_in;

+    tmp0_r += q6_r_in;

+    tmp0_r -= p1_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)r_out, (v16i8)r_out);

+    q6 = __msa_bmnz_v(q6, (v16u8)r_out, flat2);

+    ST8x1_UB(q6, src);

+    return 0;

+  }

+}

+void vp9_lpf_vertical_16_msa(uint8_t *src, int32_t pitch,

+                             const uint8_t *b_limit_ptr,

+                             const uint8_t *limit_ptr,

+                             const uint8_t *thresh_ptr) {

+  uint8_t early_exit = 0;

+  DECLARE_ALIGNED(32, uint8_t, transposed_input[16 * 24]);

+  uint8_t *filter48 = &transposed_input[16 * 16];

+  vp9_transpose_16x8_to_8x16(src - 8, pitch, transposed_input, 16);

+  early_exit = vp9_vt_lpf_t4_and_t8_8w((transposed_input + 16 * 8),

+                                       &filter48[0], src, pitch, b_limit_ptr,

+                                       limit_ptr, thresh_ptr);

+  if (0 == early_exit) {

+    early_exit = vp9_vt_lpf_t16_8w((transposed_input + 16 * 8), src, pitch,

+                                   &filter48[0]);

+    if (0 == early_exit) {

+      vp9_transpose_8x16_to_16x8(transposed_input, 16, src - 8, pitch);

+    }

+  }

+}

+int32_t vp9_vt_lpf_t4_and_t8_16w(uint8_t *src, uint8_t *filter48,

+                                 uint8_t *src_org, int32_t pitch,

+                                 const uint8_t *b_limit_ptr,

+                                 const uint8_t *limit_ptr,

+                                 const uint8_t *thresh_ptr) {

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

+  v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

+  v16u8 flat, mask, hev, thresh, b_limit, limit;

+  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

+  v8u16 p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l;

+  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

+  v8i16 p2_filt8_l, p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l;

+  v16i8 zero = { 0 };

+  v8i16 vec0, vec1, vec2, vec3, vec4, vec5;

+  /* load vector elements */

+  LD_UB8(src - (4 * 16), 16, p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

+  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

+  limit = (v16u8)__msa_fill_b(*limit_ptr);

+  /* mask and hev */

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

+               hev, mask, flat);

+  /* flat4 */

+  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

+  /* filter4 */

+  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

+  if (__msa_test_bz_v(flat)) {

+    ILVR_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec2, vec3);

+    ILVL_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec4, vec5);

+    src_org -= 2;

+    ST4x8_UB(vec2, vec3, src_org, pitch);

+    src_org += 8 * pitch;

+    ST4x8_UB(vec4, vec5, src_org, pitch);

+    return 1;

+  } else {

+    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

+               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r,

+               q3_r);

+    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

+                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

+    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l, p2_l, p1_l, p0_l);

+    ILVL_B4_UH(zero, q0, zero, q1, zero, q2, zero, q3, q0_l, q1_l, q2_l, q3_l);

+    VP9_FILTER8(p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l, p2_filt8_l,

+                p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l);

+    /* convert 16 bit output data into 8 bit */

+    PCKEV_B4_SH(p2_filt8_l, p2_filt8_r, p1_filt8_l, p1_filt8_r, p0_filt8_l,

+                p0_filt8_r, q0_filt8_l, q0_filt8_r, p2_filt8_r, p1_filt8_r,

+                p0_filt8_r, q0_filt8_r);

+    PCKEV_B2_SH(q1_filt8_l, q1_filt8_r, q2_filt8_l, q2_filt8_r, q1_filt8_r,

+                q2_filt8_r);

+    /* store pixel values */

+    p2_out = __msa_bmnz_v(p2, (v16u8)p2_filt8_r, flat);

+    p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_filt8_r, flat);

+    p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_filt8_r, flat);

+    q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_filt8_r, flat);

+    q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_filt8_r, flat);

+    q2_out = __msa_bmnz_v(q2, (v16u8)q2_filt8_r, flat);

+    ST_UB4(p2_out, p1_out, p0_out, q0_out, filter48, 16);

+    filter48 += (4 * 16);

+    ST_UB2(q1_out, q2_out, filter48, 16);

+    filter48 += (2 * 16);

+    ST_UB(flat, filter48);

+    return 0;

+  }

+}

+int32_t vp9_vt_lpf_t16_16w(uint8_t *src, uint8_t *src_org, int32_t pitch,

+                           uint8_t *filter48) {

+  v16u8 flat, flat2, filter8;

+  v16i8 zero = { 0 };

+  v16u8 p7, p6, p5, p4, p3, p2, p1, p0, q0, q1, q2, q3, q4, q5, q6, q7;

+  v8u16 p7_r_in, p6_r_in, p5_r_in, p4_r_in, p3_r_in, p2_r_in, p1_r_in, p0_r_in;

+  v8u16 q7_r_in, q6_r_in, q5_r_in, q4_r_in, q3_r_in, q2_r_in, q1_r_in, q0_r_in;

+  v8u16 p7_l_in, p6_l_in, p5_l_in, p4_l_in, p3_l_in, p2_l_in, p1_l_in, p0_l_in;

+  v8u16 q7_l_in, q6_l_in, q5_l_in, q4_l_in, q3_l_in, q2_l_in, q1_l_in, q0_l_in;

+  v8u16 tmp0_r, tmp1_r, tmp0_l, tmp1_l;

+  v8i16 l_out, r_out;

+  flat = LD_UB(filter48 + 6 * 16);

+  LD_UB8((src - 8 * 16), 16, p7, p6, p5, p4, p3, p2, p1, p0);

+  LD_UB8(src, 16, q0, q1, q2, q3, q4, q5, q6, q7);

+  VP9_FLAT5(p7, p6, p5, p4, p0, q0, q4, q5, q6, q7, flat, flat2);

+  if (__msa_test_bz_v(flat2)) {

+    v8i16 vec0, vec1, vec2, vec3, vec4, vec5, vec6, vec7;

+    LD_UB4(filter48, 16, p2, p1, p0, q0);

+    LD_UB2(filter48 + 4 * 16, 16, q1, q2);

+    ILVR_B2_SH(p1, p2, q0, p0, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec3, vec4);

+    ILVL_B2_SH(p1, p2, q0, p0, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec6, vec7);

+    ILVRL_B2_SH(q2, q1, vec2, vec5);

+    src_org -= 3;

+    ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src_org, pitch);

+    ST2x4_UB(vec2, 0, (src_org + 4), pitch);

+    src_org += (4 * pitch);

+    ST4x4_UB(vec4, vec4, 0, 1, 2, 3, src_org, pitch);

+    ST2x4_UB(vec2, 4, (src_org + 4), pitch);

+    src_org += (4 * pitch);

+    ST4x4_UB(vec6, vec6, 0, 1, 2, 3, src_org, pitch);

+    ST2x4_UB(vec5, 0, (src_org + 4), pitch);

+    src_org += (4 * pitch);

+    ST4x4_UB(vec7, vec7, 0, 1, 2, 3, src_org, pitch);

+    ST2x4_UB(vec5, 4, (src_org + 4), pitch);

+    return 1;

+  } else {

+    src -= 7 * 16;

+    ILVR_B8_UH(zero, p7, zero, p6, zero, p5, zero, p4, zero, p3, zero, p2,

+               zero, p1, zero, p0, p7_r_in, p6_r_in, p5_r_in, p4_r_in,

+               p3_r_in, p2_r_in, p1_r_in, p0_r_in);

+    q0_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q0);

+    tmp0_r = p7_r_in << 3;

+    tmp0_r -= p7_r_in;

+    tmp0_r += p6_r_in;

+    tmp0_r += q0_r_in;

+    tmp1_r = p6_r_in + p5_r_in;

+    tmp1_r += p4_r_in;

+    tmp1_r += p3_r_in;

+    tmp1_r += p2_r_in;

+    tmp1_r += p1_r_in;

+    tmp1_r += p0_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    ILVL_B4_UH(zero, p7, zero, p6, zero, p5, zero, p4, p7_l_in, p6_l_in,

+               p5_l_in, p4_l_in);

+    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l_in, p2_l_in,

+               p1_l_in, p0_l_in);

+    q0_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q0);

+    tmp0_l = p7_l_in << 3;

+    tmp0_l -= p7_l_in;

+    tmp0_l += p6_l_in;

+    tmp0_l += q0_l_in;

+    tmp1_l = p6_l_in + p5_l_in;

+    tmp1_l += p4_l_in;

+    tmp1_l += p3_l_in;

+    tmp1_l += p2_l_in;

+    tmp1_l += p1_l_in;

+    tmp1_l += p0_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    p6 = __msa_bmnz_v(p6, (v16u8)r_out, flat2);

+    ST_UB(p6, src);

+    src += 16;

+    /* p5 */

+    q1_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q1);

+    tmp0_r = p5_r_in - p6_r_in;

+    tmp0_r += q1_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q1_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q1);

+    tmp0_l = p5_l_in - p6_l_in;

+    tmp0_l += q1_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    p5 = __msa_bmnz_v(p5, (v16u8)r_out, flat2);

+    ST_UB(p5, src);

+    src += 16;

+    /* p4 */

+    q2_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q2);

+    tmp0_r = p4_r_in - p5_r_in;

+    tmp0_r += q2_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q2_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q2);

+    tmp0_l = p4_l_in - p5_l_in;

+    tmp0_l += q2_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    p4 = __msa_bmnz_v(p4, (v16u8)r_out, flat2);

+    ST_UB(p4, src);

+    src += 16;

+    /* p3 */

+    q3_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q3);

+    tmp0_r = p3_r_in - p4_r_in;

+    tmp0_r += q3_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q3_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q3);

+    tmp0_l = p3_l_in - p4_l_in;

+    tmp0_l += q3_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    p3 = __msa_bmnz_v(p3, (v16u8)r_out, flat2);

+    ST_UB(p3, src);

+    src += 16;

+    /* p2 */

+    q4_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q4);

+    filter8 = LD_UB(filter48);

+    tmp0_r = p2_r_in - p3_r_in;

+    tmp0_r += q4_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q4_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q4);

+    tmp0_l = p2_l_in - p3_l_in;

+    tmp0_l += q4_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += 16;

+    /* p1 */

+    q5_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q5);

+    filter8 = LD_UB(filter48 + 16);

+    tmp0_r = p1_r_in - p2_r_in;

+    tmp0_r += q5_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q5_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q5);

+    tmp0_l = p1_l_in - p2_l_in;

+    tmp0_l += q5_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)(tmp1_l), 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += 16;

+    /* p0 */

+    q6_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q6);

+    filter8 = LD_UB(filter48 + 32);

+    tmp0_r = p0_r_in - p1_r_in;

+    tmp0_r += q6_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q6_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q6);

+    tmp0_l = p0_l_in - p1_l_in;

+    tmp0_l += q6_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += 16;

+    /* q0 */

+    q7_r_in = (v8u16)__msa_ilvr_b(zero, (v16i8)q7);

+    filter8 = LD_UB(filter48 + 48);

+    tmp0_r = q7_r_in - p0_r_in;

+    tmp0_r += q0_r_in;

+    tmp0_r -= p7_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    q7_l_in = (v8u16)__msa_ilvl_b(zero, (v16i8)q7);

+    tmp0_l = q7_l_in - p0_l_in;

+    tmp0_l += q0_l_in;

+    tmp0_l -= p7_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += 16;

+    /* q1 */

+    filter8 = LD_UB(filter48 + 64);

+    tmp0_r = q7_r_in - q0_r_in;

+    tmp0_r += q1_r_in;

+    tmp0_r -= p6_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q0_l_in;

+    tmp0_l += q1_l_in;

+    tmp0_l -= p6_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += 16;

+    /* q2 */

+    filter8 = LD_UB(filter48 + 80);

+    tmp0_r = q7_r_in - q1_r_in;

+    tmp0_r += q2_r_in;

+    tmp0_r -= p5_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q1_l_in;

+    tmp0_l += q2_l_in;

+    tmp0_l -= p5_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    filter8 = __msa_bmnz_v(filter8, (v16u8)r_out, flat2);

+    ST_UB(filter8, src);

+    src += 16;

+    /* q3 */

+    tmp0_r = q7_r_in - q2_r_in;

+    tmp0_r += q3_r_in;

+    tmp0_r -= p4_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q2_l_in;

+    tmp0_l += q3_l_in;

+    tmp0_l -= p4_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    q3 = __msa_bmnz_v(q3, (v16u8)r_out, flat2);

+    ST_UB(q3, src);

+    src += 16;

+    /* q4 */

+    tmp0_r = q7_r_in - q3_r_in;

+    tmp0_r += q4_r_in;

+    tmp0_r -= p3_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q3_l_in;

+    tmp0_l += q4_l_in;

+    tmp0_l -= p3_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    q4 = __msa_bmnz_v(q4, (v16u8)r_out, flat2);

+    ST_UB(q4, src);

+    src += 16;

+    /* q5 */

+    tmp0_r = q7_r_in - q4_r_in;

+    tmp0_r += q5_r_in;

+    tmp0_r -= p2_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q4_l_in;

+    tmp0_l += q5_l_in;

+    tmp0_l -= p2_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    q5 = __msa_bmnz_v(q5, (v16u8)r_out, flat2);

+    ST_UB(q5, src);

+    src += 16;

+    /* q6 */

+    tmp0_r = q7_r_in - q5_r_in;

+    tmp0_r += q6_r_in;

+    tmp0_r -= p1_r_in;

+    tmp1_r += tmp0_r;

+    r_out = __msa_srari_h((v8i16)tmp1_r, 4);

+    tmp0_l = q7_l_in - q5_l_in;

+    tmp0_l += q6_l_in;

+    tmp0_l -= p1_l_in;

+    tmp1_l += tmp0_l;

+    l_out = __msa_srari_h((v8i16)tmp1_l, 4);

+    r_out = (v8i16)__msa_pckev_b((v16i8)l_out, (v16i8)r_out);

+    q6 = __msa_bmnz_v(q6, (v16u8)r_out, flat2);

+    ST_UB(q6, src);

+    return 0;

+  }

+}

+void vp9_lpf_vertical_16_dual_msa(uint8_t *src, int32_t pitch,

+                                  const uint8_t *b_limit_ptr,

+                                  const uint8_t *limit_ptr,

+                                  const uint8_t *thresh_ptr) {

+  uint8_t early_exit = 0;

+  DECLARE_ALIGNED(32, uint8_t, transposed_input[16 * 24]);

+  uint8_t *filter48 = &transposed_input[16 * 16];

+  vp9_transpose_16x16((src - 8), pitch, &transposed_input[0], 16);

+  early_exit = vp9_vt_lpf_t4_and_t8_16w((transposed_input + 16 * 8),

+                                        &filter48[0], src, pitch, b_limit_ptr,

+                                        limit_ptr, thresh_ptr);

+  if (0 == early_exit) {

+    early_exit = vp9_vt_lpf_t16_16w((transposed_input + 16 * 8), src, pitch,

+                                    &filter48[0]);

+    if (0 == early_exit) {

+      vp9_transpose_16x16(transposed_input, 16, (src - 8), pitch);

+    }

+  }

+}

--- /dev/null

+++ b/vpx_dsp/mips/loopfilter_4_msa.c

@@ -1,0 +1,152 @@

+/*

+ *  Copyright (c) 2015 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "vpx_dsp/mips/loopfilter_msa.h"

+void vp9_lpf_horizontal_4_msa(uint8_t *src, int32_t pitch,

+                              const uint8_t *b_limit_ptr,

+                              const uint8_t *limit_ptr,

+                              const uint8_t *thresh_ptr,

+                              int32_t count) {

+  uint64_t p1_d, p0_d, q0_d, q1_d;

+  v16u8 mask, hev, flat, thresh, b_limit, limit;

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0, p1_out, p0_out, q0_out, q1_out;

+  (void)count;

+  /* load vector elements */

+  LD_UB8((src - 4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

+  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

+  limit = (v16u8)__msa_fill_b(*limit_ptr);

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

+               hev, mask, flat);

+  VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

+  p1_d = __msa_copy_u_d((v2i64)p1_out, 0);

+  p0_d = __msa_copy_u_d((v2i64)p0_out, 0);

+  q0_d = __msa_copy_u_d((v2i64)q0_out, 0);

+  q1_d = __msa_copy_u_d((v2i64)q1_out, 0);

+  SD4(p1_d, p0_d, q0_d, q1_d, (src - 2 * pitch), pitch);

+}

+void vp9_lpf_horizontal_4_dual_msa(uint8_t *src, int32_t pitch,

+                                   const uint8_t *b_limit0_ptr,

+                                   const uint8_t *limit0_ptr,

+                                   const uint8_t *thresh0_ptr,

+                                   const uint8_t *b_limit1_ptr,

+                                   const uint8_t *limit1_ptr,

+                                   const uint8_t *thresh1_ptr) {

+  v16u8 mask, hev, flat, thresh0, b_limit0, limit0, thresh1, b_limit1, limit1;

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

+  /* load vector elements */

+  LD_UB8((src - 4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh0 = (v16u8)__msa_fill_b(*thresh0_ptr);

+  thresh1 = (v16u8)__msa_fill_b(*thresh1_ptr);

+  thresh0 = (v16u8)__msa_ilvr_d((v2i64)thresh1, (v2i64)thresh0);

+  b_limit0 = (v16u8)__msa_fill_b(*b_limit0_ptr);

+  b_limit1 = (v16u8)__msa_fill_b(*b_limit1_ptr);

+  b_limit0 = (v16u8)__msa_ilvr_d((v2i64)b_limit1, (v2i64)b_limit0);

+  limit0 = (v16u8)__msa_fill_b(*limit0_ptr);

+  limit1 = (v16u8)__msa_fill_b(*limit1_ptr);

+  limit0 = (v16u8)__msa_ilvr_d((v2i64)limit1, (v2i64)limit0);

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit0, b_limit0, thresh0,

+               hev, mask, flat);

+  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1, p0, q0, q1);

+  ST_UB4(p1, p0, q0, q1, (src - 2 * pitch), pitch);

+}

+void vp9_lpf_vertical_4_msa(uint8_t *src, int32_t pitch,

+                            const uint8_t *b_limit_ptr,

+                            const uint8_t *limit_ptr,

+                            const uint8_t *thresh_ptr,

+                            int32_t count) {

+  v16u8 mask, hev, flat, limit, thresh, b_limit;

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

+  v8i16 vec0, vec1, vec2, vec3;

+  (void)count;

+  LD_UB8((src - 4), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

+  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

+  limit = (v16u8)__msa_fill_b(*limit_ptr);

+  TRANSPOSE8x8_UB_UB(p3, p2, p1, p0, q0, q1, q2, q3,

+                     p3, p2, p1, p0, q0, q1, q2, q3);

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

+               hev, mask, flat);

+  VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1, p0, q0, q1);

+  ILVR_B2_SH(p0, p1, q1, q0, vec0, vec1);

+  ILVRL_H2_SH(vec1, vec0, vec2, vec3);

+  src -= 2;

+  ST4x4_UB(vec2, vec2, 0, 1, 2, 3, src, pitch);

+  src += 4 * pitch;

+  ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src, pitch);

+}

+void vp9_lpf_vertical_4_dual_msa(uint8_t *src, int32_t pitch,

+                                 const uint8_t *b_limit0_ptr,

+                                 const uint8_t *limit0_ptr,

+                                 const uint8_t *thresh0_ptr,

+                                 const uint8_t *b_limit1_ptr,

+                                 const uint8_t *limit1_ptr,

+                                 const uint8_t *thresh1_ptr) {

+  v16u8 mask, hev, flat;

+  v16u8 thresh0, b_limit0, limit0, thresh1, b_limit1, limit1;

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

+  v16u8 row0, row1, row2, row3, row4, row5, row6, row7;

+  v16u8 row8, row9, row10, row11, row12, row13, row14, row15;

+  v8i16 tmp0, tmp1, tmp2, tmp3, tmp4, tmp5;

+  LD_UB8(src - 4, pitch, row0, row1, row2, row3, row4, row5, row6, row7);

+  LD_UB8(src - 4 + (8 * pitch), pitch,

+         row8, row9, row10, row11, row12, row13, row14, row15);

+  TRANSPOSE16x8_UB_UB(row0, row1, row2, row3, row4, row5, row6, row7,

+                      row8, row9, row10, row11, row12, row13, row14, row15,

+                      p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh0 = (v16u8)__msa_fill_b(*thresh0_ptr);

+  thresh1 = (v16u8)__msa_fill_b(*thresh1_ptr);

+  thresh0 = (v16u8)__msa_ilvr_d((v2i64)thresh1, (v2i64)thresh0);

+  b_limit0 = (v16u8)__msa_fill_b(*b_limit0_ptr);

+  b_limit1 = (v16u8)__msa_fill_b(*b_limit1_ptr);

+  b_limit0 = (v16u8)__msa_ilvr_d((v2i64)b_limit1, (v2i64)b_limit0);

+  limit0 = (v16u8)__msa_fill_b(*limit0_ptr);

+  limit1 = (v16u8)__msa_fill_b(*limit1_ptr);

+  limit0 = (v16u8)__msa_ilvr_d((v2i64)limit1, (v2i64)limit0);

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit0, b_limit0, thresh0,

+               hev, mask, flat);

+  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1, p0, q0, q1);

+  ILVR_B2_SH(p0, p1, q1, q0, tmp0, tmp1);

+  ILVRL_H2_SH(tmp1, tmp0, tmp2, tmp3);

+  ILVL_B2_SH(p0, p1, q1, q0, tmp0, tmp1);

+  ILVRL_H2_SH(tmp1, tmp0, tmp4, tmp5);

+  src -= 2;

+  ST4x8_UB(tmp2, tmp3, src, pitch);

+  src += (8 * pitch);

+  ST4x8_UB(tmp4, tmp5, src, pitch);

+}

--- /dev/null

+++ b/vpx_dsp/mips/loopfilter_8_msa.c

@@ -1,0 +1,348 @@

+/*

+ *  Copyright (c) 2015 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "vpx_dsp/mips/loopfilter_msa.h"

+void vp9_lpf_horizontal_8_msa(uint8_t *src, int32_t pitch,

+                              const uint8_t *b_limit_ptr,

+                              const uint8_t *limit_ptr,

+                              const uint8_t *thresh_ptr,

+                              int32_t count) {

+  uint64_t p2_d, p1_d, p0_d, q0_d, q1_d, q2_d;

+  v16u8 mask, hev, flat, thresh, b_limit, limit;

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

+  v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

+  v8i16 p2_filter8, p1_filter8, p0_filter8, q0_filter8, q1_filter8, q2_filter8;

+  v8u16 p3_r, p2_r, p1_r, p0_r, q3_r, q2_r, q1_r, q0_r;

+  v16i8 zero = { 0 };

+  (void)count;

+  /* load vector elements */

+  LD_UB8((src - 4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

+  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

+  limit = (v16u8)__msa_fill_b(*limit_ptr);

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

+               hev, mask, flat);

+  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

+  VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

+  flat = (v16u8)__msa_ilvr_d((v2i64)zero, (v2i64)flat);

+  if (__msa_test_bz_v(flat)) {

+    p1_d = __msa_copy_u_d((v2i64)p1_out, 0);

+    p0_d = __msa_copy_u_d((v2i64)p0_out, 0);

+    q0_d = __msa_copy_u_d((v2i64)q0_out, 0);

+    q1_d = __msa_copy_u_d((v2i64)q1_out, 0);

+    SD4(p1_d, p0_d, q0_d, q1_d, (src - 2 * pitch), pitch);

+  } else {

+    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

+               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r,

+               q2_r, q3_r);

+    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filter8,

+                p1_filter8, p0_filter8, q0_filter8, q1_filter8, q2_filter8);

+    /* convert 16 bit output data into 8 bit */

+    PCKEV_B4_SH(zero, p2_filter8, zero, p1_filter8, zero, p0_filter8,

+                zero, q0_filter8, p2_filter8, p1_filter8, p0_filter8,

+                q0_filter8);

+    PCKEV_B2_SH(zero, q1_filter8, zero, q2_filter8, q1_filter8, q2_filter8);

+    /* store pixel values */

+    p2_out = __msa_bmnz_v(p2, (v16u8)p2_filter8, flat);

+    p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_filter8, flat);

+    p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_filter8, flat);

+    q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_filter8, flat);

+    q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_filter8, flat);

+    q2_out = __msa_bmnz_v(q2, (v16u8)q2_filter8, flat);

+    p2_d = __msa_copy_u_d((v2i64)p2_out, 0);

+    p1_d = __msa_copy_u_d((v2i64)p1_out, 0);

+    p0_d = __msa_copy_u_d((v2i64)p0_out, 0);

+    q0_d = __msa_copy_u_d((v2i64)q0_out, 0);

+    q1_d = __msa_copy_u_d((v2i64)q1_out, 0);

+    q2_d = __msa_copy_u_d((v2i64)q2_out, 0);

+    src -= 3 * pitch;

+    SD4(p2_d, p1_d, p0_d, q0_d, src, pitch);

+    src += (4 * pitch);

+    SD(q1_d, src);

+    src += pitch;

+    SD(q2_d, src);

+  }

+}

+void vp9_lpf_horizontal_8_dual_msa(uint8_t *src, int32_t pitch,

+                                   const uint8_t *b_limit0,

+                                   const uint8_t *limit0,

+                                   const uint8_t *thresh0,

+                                   const uint8_t *b_limit1,

+                                   const uint8_t *limit1,

+                                   const uint8_t *thresh1) {

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

+  v16u8 p2_out, p1_out, p0_out, q0_out, q1_out, q2_out;

+  v16u8 flat, mask, hev, tmp, thresh, b_limit, limit;

+  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

+  v8u16 p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l;

+  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

+  v8i16 p2_filt8_l, p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l;

+  v16u8 zero = { 0 };

+  /* load vector elements */

+  LD_UB8(src - (4 * pitch), pitch, p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh = (v16u8)__msa_fill_b(*thresh0);

+  tmp = (v16u8)__msa_fill_b(*thresh1);

+  thresh = (v16u8)__msa_ilvr_d((v2i64)tmp, (v2i64)thresh);

+  b_limit = (v16u8)__msa_fill_b(*b_limit0);

+  tmp = (v16u8)__msa_fill_b(*b_limit1);

+  b_limit = (v16u8)__msa_ilvr_d((v2i64)tmp, (v2i64)b_limit);

+  limit = (v16u8)__msa_fill_b(*limit0);

+  tmp = (v16u8)__msa_fill_b(*limit1);

+  limit = (v16u8)__msa_ilvr_d((v2i64)tmp, (v2i64)limit);

+  /* mask and hev */

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

+               hev, mask, flat);

+  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

+  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

+  if (__msa_test_bz_v(flat)) {

+    ST_UB4(p1_out, p0_out, q0_out, q1_out, (src - 2 * pitch), pitch);

+  } else {

+    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

+               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r,

+               q2_r, q3_r);

+    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

+                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

+    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l, p2_l, p1_l, p0_l);

+    ILVL_B4_UH(zero, q0, zero, q1, zero, q2, zero, q3, q0_l, q1_l, q2_l, q3_l);

+    VP9_FILTER8(p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l, p2_filt8_l,

+                p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l);

+    /* convert 16 bit output data into 8 bit */

+    PCKEV_B4_SH(p2_filt8_l, p2_filt8_r, p1_filt8_l, p1_filt8_r, p0_filt8_l,

+                p0_filt8_r, q0_filt8_l, q0_filt8_r, p2_filt8_r, p1_filt8_r,

+                p0_filt8_r, q0_filt8_r);

+    PCKEV_B2_SH(q1_filt8_l, q1_filt8_r, q2_filt8_l, q2_filt8_r, q1_filt8_r,

+                q2_filt8_r);

+    /* store pixel values */

+    p2_out = __msa_bmnz_v(p2, (v16u8)p2_filt8_r, flat);

+    p1_out = __msa_bmnz_v(p1_out, (v16u8)p1_filt8_r, flat);

+    p0_out = __msa_bmnz_v(p0_out, (v16u8)p0_filt8_r, flat);

+    q0_out = __msa_bmnz_v(q0_out, (v16u8)q0_filt8_r, flat);

+    q1_out = __msa_bmnz_v(q1_out, (v16u8)q1_filt8_r, flat);

+    q2_out = __msa_bmnz_v(q2, (v16u8)q2_filt8_r, flat);

+    src -= 3 * pitch;

+    ST_UB4(p2_out, p1_out, p0_out, q0_out, src, pitch);

+    src += (4 * pitch);

+    ST_UB2(q1_out, q2_out, src, pitch);

+    src += (2 * pitch);

+  }

+}

+void vp9_lpf_vertical_8_msa(uint8_t *src, int32_t pitch,

+                            const uint8_t *b_limit_ptr,

+                            const uint8_t *limit_ptr,

+                            const uint8_t *thresh_ptr,

+                            int32_t count) {

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

+  v16u8 p1_out, p0_out, q0_out, q1_out;

+  v16u8 flat, mask, hev, thresh, b_limit, limit;

+  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

+  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

+  v16u8 zero = { 0 };

+  v8i16 vec0, vec1, vec2, vec3, vec4;

+  (void)count;

+  /* load vector elements */

+  LD_UB8(src - 4, pitch, p3, p2, p1, p0, q0, q1, q2, q3);

+  TRANSPOSE8x8_UB_UB(p3, p2, p1, p0, q0, q1, q2, q3,

+                     p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh = (v16u8)__msa_fill_b(*thresh_ptr);

+  b_limit = (v16u8)__msa_fill_b(*b_limit_ptr);

+  limit = (v16u8)__msa_fill_b(*limit_ptr);

+  /* mask and hev */

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

+               hev, mask, flat);

+  /* flat4 */

+  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

+  /* filter4 */

+  VP9_LPF_FILTER4_8W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

+  flat = (v16u8)__msa_ilvr_d((v2i64)zero, (v2i64)flat);

+  if (__msa_test_bz_v(flat)) {

+    /* Store 4 pixels p1-_q1 */

+    ILVR_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec2, vec3);

+    src -= 2;

+    ST4x4_UB(vec2, vec2, 0, 1, 2, 3, src, pitch);

+    src += 4 * pitch;

+    ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src, pitch);

+  } else {

+    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

+               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r,

+               q3_r);

+    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

+                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

+    /* convert 16 bit output data into 8 bit */

+    PCKEV_B4_SH(p2_filt8_r, p2_filt8_r, p1_filt8_r, p1_filt8_r, p0_filt8_r,

+                p0_filt8_r, q0_filt8_r, q0_filt8_r, p2_filt8_r, p1_filt8_r,

+                p0_filt8_r, q0_filt8_r);

+    PCKEV_B2_SH(q1_filt8_r, q1_filt8_r, q2_filt8_r, q2_filt8_r, q1_filt8_r,

+                q2_filt8_r);

+    /* store pixel values */

+    p2 = __msa_bmnz_v(p2, (v16u8)p2_filt8_r, flat);

+    p1 = __msa_bmnz_v(p1_out, (v16u8)p1_filt8_r, flat);

+    p0 = __msa_bmnz_v(p0_out, (v16u8)p0_filt8_r, flat);

+    q0 = __msa_bmnz_v(q0_out, (v16u8)q0_filt8_r, flat);

+    q1 = __msa_bmnz_v(q1_out, (v16u8)q1_filt8_r, flat);

+    q2 = __msa_bmnz_v(q2, (v16u8)q2_filt8_r, flat);

+    /* Store 6 pixels p2-_q2 */

+    ILVR_B2_SH(p1, p2, q0, p0, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec2, vec3);

+    vec4 = (v8i16)__msa_ilvr_b((v16i8)q2, (v16i8)q1);

+    src -= 3;

+    ST4x4_UB(vec2, vec2, 0, 1, 2, 3, src, pitch);

+    ST2x4_UB(vec4, 0, src + 4, pitch);

+    src += (4 * pitch);

+    ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src, pitch);

+    ST2x4_UB(vec4, 4, src + 4, pitch);

+  }

+}

+void vp9_lpf_vertical_8_dual_msa(uint8_t *src, int32_t pitch,

+                                 const uint8_t *b_limit0,

+                                 const uint8_t *limit0,

+                                 const uint8_t *thresh0,

+                                 const uint8_t *b_limit1,

+                                 const uint8_t *limit1,

+                                 const uint8_t *thresh1) {

+  uint8_t *temp_src;

+  v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

+  v16u8 p1_out, p0_out, q0_out, q1_out;

+  v16u8 flat, mask, hev, thresh, b_limit, limit;

+  v16u8 row4, row5, row6, row7, row12, row13, row14, row15;

+  v8u16 p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r;

+  v8u16 p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l;

+  v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

+  v8i16 p2_filt8_l, p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l;

+  v16u8 zero = { 0 };

+  v8i16 vec0, vec1, vec2, vec3, vec4, vec5, vec6, vec7;

+  temp_src = src - 4;

+  LD_UB8(temp_src, pitch, p0, p1, p2, p3, row4, row5, row6, row7);

+  temp_src += (8 * pitch);

+  LD_UB8(temp_src, pitch, q3, q2, q1, q0, row12, row13, row14, row15);

+  /* transpose 16x8 matrix into 8x16 */

+  TRANSPOSE16x8_UB_UB(p0, p1, p2, p3, row4, row5, row6, row7,

+                      q3, q2, q1, q0, row12, row13, row14, row15,

+                      p3, p2, p1, p0, q0, q1, q2, q3);

+  thresh = (v16u8)__msa_fill_b(*thresh0);

+  vec0 = (v8i16)__msa_fill_b(*thresh1);

+  thresh = (v16u8)__msa_ilvr_d((v2i64)vec0, (v2i64)thresh);

+  b_limit = (v16u8)__msa_fill_b(*b_limit0);

+  vec0 = (v8i16)__msa_fill_b(*b_limit1);

+  b_limit = (v16u8)__msa_ilvr_d((v2i64)vec0, (v2i64)b_limit);

+  limit = (v16u8)__msa_fill_b(*limit0);

+  vec0 = (v8i16)__msa_fill_b(*limit1);

+  limit = (v16u8)__msa_ilvr_d((v2i64)vec0, (v2i64)limit);

+  /* mask and hev */

+  LPF_MASK_HEV(p3, p2, p1, p0, q0, q1, q2, q3, limit, b_limit, thresh,

+               hev, mask, flat);

+  /* flat4 */

+  VP9_FLAT4(p3, p2, p0, q0, q2, q3, flat);

+  /* filter4 */

+  VP9_LPF_FILTER4_4W(p1, p0, q0, q1, mask, hev, p1_out, p0_out, q0_out, q1_out);

+  if (__msa_test_bz_v(flat)) {

+    ILVR_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec2, vec3);

+    ILVL_B2_SH(p0_out, p1_out, q1_out, q0_out, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec4, vec5);

+    src -= 2;

+    ST4x8_UB(vec2, vec3, src, pitch);

+    src += 8 * pitch;

+    ST4x8_UB(vec4, vec5, src, pitch);

+  } else {

+    ILVR_B8_UH(zero, p3, zero, p2, zero, p1, zero, p0, zero, q0, zero, q1,

+               zero, q2, zero, q3, p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r,

+               q3_r);

+    VP9_FILTER8(p3_r, p2_r, p1_r, p0_r, q0_r, q1_r, q2_r, q3_r, p2_filt8_r,

+                p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r);

+    ILVL_B4_UH(zero, p3, zero, p2, zero, p1, zero, p0, p3_l, p2_l, p1_l, p0_l);

+    ILVL_B4_UH(zero, q0, zero, q1, zero, q2, zero, q3, q0_l, q1_l, q2_l, q3_l);

+    /* filter8 */

+    VP9_FILTER8(p3_l, p2_l, p1_l, p0_l, q0_l, q1_l, q2_l, q3_l, p2_filt8_l,

+                p1_filt8_l, p0_filt8_l, q0_filt8_l, q1_filt8_l, q2_filt8_l);

+    /* convert 16 bit output data into 8 bit */

+    PCKEV_B4_SH(p2_filt8_l, p2_filt8_r, p1_filt8_l, p1_filt8_r, p0_filt8_l,

+                p0_filt8_r, q0_filt8_l, q0_filt8_r, p2_filt8_r, p1_filt8_r,

+                p0_filt8_r, q0_filt8_r);

+    PCKEV_B2_SH(q1_filt8_l, q1_filt8_r, q2_filt8_l, q2_filt8_r, q1_filt8_r,

+                q2_filt8_r);

+    /* store pixel values */

+    p2 = __msa_bmnz_v(p2, (v16u8)p2_filt8_r, flat);

+    p1 = __msa_bmnz_v(p1_out, (v16u8)p1_filt8_r, flat);

+    p0 = __msa_bmnz_v(p0_out, (v16u8)p0_filt8_r, flat);

+    q0 = __msa_bmnz_v(q0_out, (v16u8)q0_filt8_r, flat);

+    q1 = __msa_bmnz_v(q1_out, (v16u8)q1_filt8_r, flat);

+    q2 = __msa_bmnz_v(q2, (v16u8)q2_filt8_r, flat);

+    ILVR_B2_SH(p1, p2, q0, p0, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec3, vec4);

+    ILVL_B2_SH(p1, p2, q0, p0, vec0, vec1);

+    ILVRL_H2_SH(vec1, vec0, vec6, vec7);

+    ILVRL_B2_SH(q2, q1, vec2, vec5);

+    src -= 3;

+    ST4x4_UB(vec3, vec3, 0, 1, 2, 3, src, pitch);

+    ST2x4_UB(vec2, 0, src + 4, pitch);

+    src += (4 * pitch);

+    ST4x4_UB(vec4, vec4, 0, 1, 2, 3, src, pitch);

+    ST2x4_UB(vec2, 4, src + 4, pitch);

+    src += (4 * pitch);

+    ST4x4_UB(vec6, vec6, 0, 1, 2, 3, src, pitch);

+    ST2x4_UB(vec5, 0, src + 4, pitch);

+    src += (4 * pitch);

+    ST4x4_UB(vec7, vec7, 0, 1, 2, 3, src, pitch);

+    ST2x4_UB(vec5, 4, src + 4, pitch);

+  }

+}

--- /dev/null

+++ b/vpx_dsp/mips/loopfilter_msa.h

@@ -1,0 +1,246 @@

+/*

+ *  Copyright (c) 2015 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#ifndef VPX_DSP_LOOPFILTER_MSA_H_

+#define VPX_DSP_LOOPFILTER_MSA_H_

+#include "vpx_dsp/mips/macros_msa.h"

+#define VP9_LPF_FILTER4_8W(p1_in, p0_in, q0_in, q1_in, mask_in, hev_in,  \

+                           p1_out, p0_out, q0_out, q1_out) {             \

+  v16i8 p1_m, p0_m, q0_m, q1_m, q0_sub_p0, filt_sign;                    \

+  v16i8 filt, filt1, filt2, cnst4b, cnst3b;                              \

+  v8i16 q0_sub_p0_r, filt_r, cnst3h;                                     \

+                                                                         \

+  p1_m = (v16i8)__msa_xori_b(p1_in, 0x80);                               \

+  p0_m = (v16i8)__msa_xori_b(p0_in, 0x80);                               \

+  q0_m = (v16i8)__msa_xori_b(q0_in, 0x80);                               \

+  q1_m = (v16i8)__msa_xori_b(q1_in, 0x80);                               \

+                                                                         \

+  filt = __msa_subs_s_b(p1_m, q1_m);                                     \

+  filt = filt & (v16i8)hev_in;                                           \

+  q0_sub_p0 = q0_m - p0_m;                                               \

+  filt_sign = __msa_clti_s_b(filt, 0);                                   \

+                                                                         \

+  cnst3h = __msa_ldi_h(3);                                               \

+  q0_sub_p0_r = (v8i16)__msa_ilvr_b(q0_sub_p0, q0_sub_p0);               \

+  q0_sub_p0_r = __msa_dotp_s_h((v16i8)q0_sub_p0_r, (v16i8)cnst3h);       \

+  filt_r = (v8i16)__msa_ilvr_b(filt_sign, filt);                         \

+  filt_r += q0_sub_p0_r;                                                 \

+  filt_r = __msa_sat_s_h(filt_r, 7);                                     \

+                                                                         \

+  /* combine left and right part */                                      \

+  filt = __msa_pckev_b((v16i8)filt_r, (v16i8)filt_r);                    \

+                                                                         \

+  filt = filt & (v16i8)mask_in;                                          \

+  cnst4b = __msa_ldi_b(4);                                               \

+  filt1 = __msa_adds_s_b(filt, cnst4b);                                  \

+  filt1 >>= 3;                                                           \

+                                                                         \

+  cnst3b = __msa_ldi_b(3);                                               \

+  filt2 = __msa_adds_s_b(filt, cnst3b);                                  \

+  filt2 >>= 3;                                                           \

+                                                                         \

+  q0_m = __msa_subs_s_b(q0_m, filt1);                                    \

+  q0_out = __msa_xori_b((v16u8)q0_m, 0x80);                              \

+  p0_m = __msa_adds_s_b(p0_m, filt2);                                    \

+  p0_out = __msa_xori_b((v16u8)p0_m, 0x80);                              \

+                                                                         \

+  filt = __msa_srari_b(filt1, 1);                                        \

+  hev_in = __msa_xori_b((v16u8)hev_in, 0xff);                            \

+  filt = filt & (v16i8)hev_in;                                           \

+                                                                         \

+  q1_m = __msa_subs_s_b(q1_m, filt);                                     \

+  q1_out = __msa_xori_b((v16u8)q1_m, 0x80);                              \

+  p1_m = __msa_adds_s_b(p1_m, filt);                                     \

+  p1_out = __msa_xori_b((v16u8)p1_m, 0x80);                              \

+}

+#define VP9_LPF_FILTER4_4W(p1_in, p0_in, q0_in, q1_in, mask_in, hev_in,  \

+                           p1_out, p0_out, q0_out, q1_out) {             \

+  v16i8 p1_m, p0_m, q0_m, q1_m, q0_sub_p0, filt_sign;                    \

+  v16i8 filt, filt1, filt2, cnst4b, cnst3b;                              \

+  v8i16 q0_sub_p0_r, q0_sub_p0_l, filt_l, filt_r, cnst3h;                \

+                                                                         \

+  p1_m = (v16i8)__msa_xori_b(p1_in, 0x80);                               \

+  p0_m = (v16i8)__msa_xori_b(p0_in, 0x80);                               \

+  q0_m = (v16i8)__msa_xori_b(q0_in, 0x80);                               \

+  q1_m = (v16i8)__msa_xori_b(q1_in, 0x80);                               \

+                                                                         \

+  filt = __msa_subs_s_b(p1_m, q1_m);                                     \

+                                                                         \

+  filt = filt & (v16i8)hev_in;                                           \

+                                                                         \

+  q0_sub_p0 = q0_m - p0_m;                                               \

+  filt_sign = __msa_clti_s_b(filt, 0);                                   \

+                                                                         \

+  cnst3h = __msa_ldi_h(3);                                               \

+  q0_sub_p0_r = (v8i16)__msa_ilvr_b(q0_sub_p0, q0_sub_p0);               \

+  q0_sub_p0_r = __msa_dotp_s_h((v16i8)q0_sub_p0_r, (v16i8)cnst3h);       \

+  filt_r = (v8i16)__msa_ilvr_b(filt_sign, filt);                         \

+  filt_r += q0_sub_p0_r;                                                 \

+  filt_r = __msa_sat_s_h(filt_r, 7);                                     \

+                                                                         \

+  q0_sub_p0_l = (v8i16)__msa_ilvl_b(q0_sub_p0, q0_sub_p0);               \

+  q0_sub_p0_l = __msa_dotp_s_h((v16i8)q0_sub_p0_l, (v16i8)cnst3h);       \

+  filt_l = (v8i16)__msa_ilvl_b(filt_sign, filt);                         \

+  filt_l += q0_sub_p0_l;                                                 \

+  filt_l = __msa_sat_s_h(filt_l, 7);                                     \

+                                                                         \

+  filt = __msa_pckev_b((v16i8)filt_l, (v16i8)filt_r);                    \

+  filt = filt & (v16i8)mask_in;                                          \

+                                                                         \

+  cnst4b = __msa_ldi_b(4);                                               \

+  filt1 = __msa_adds_s_b(filt, cnst4b);                                  \

+  filt1 >>= 3;                                                           \

+                                                                         \

+  cnst3b = __msa_ldi_b(3);                                               \

+  filt2 = __msa_adds_s_b(filt, cnst3b);                                  \

+  filt2 >>= 3;                                                           \

+                                                                         \

+  q0_m = __msa_subs_s_b(q0_m, filt1);                                    \

+  q0_out = __msa_xori_b((v16u8)q0_m, 0x80);                              \

+  p0_m = __msa_adds_s_b(p0_m, filt2);                                    \

+  p0_out = __msa_xori_b((v16u8)p0_m, 0x80);                              \

+                                                                         \

+  filt = __msa_srari_b(filt1, 1);                                        \

+  hev_in = __msa_xori_b((v16u8)hev_in, 0xff);                            \

+  filt = filt & (v16i8)hev_in;                                           \

+                                                                         \

+  q1_m = __msa_subs_s_b(q1_m, filt);                                     \

+  q1_out = __msa_xori_b((v16u8)q1_m, 0x80);                              \

+  p1_m = __msa_adds_s_b(p1_m, filt);                                     \

+  p1_out = __msa_xori_b((v16u8)p1_m, 0x80);                              \

+}

+#define VP9_FLAT4(p3_in, p2_in, p0_in, q0_in, q2_in, q3_in, flat_out) {  \

+  v16u8 tmp, p2_a_sub_p0, q2_a_sub_q0, p3_a_sub_p0, q3_a_sub_q0;         \

+  v16u8 zero_in = { 0 };                                                 \

+                                                                         \

+  tmp = __msa_ori_b(zero_in, 1);                                         \

+  p2_a_sub_p0 = __msa_asub_u_b(p2_in, p0_in);                            \

+  q2_a_sub_q0 = __msa_asub_u_b(q2_in, q0_in);                            \

+  p3_a_sub_p0 = __msa_asub_u_b(p3_in, p0_in);                            \

+  q3_a_sub_q0 = __msa_asub_u_b(q3_in, q0_in);                            \

+                                                                         \

+  p2_a_sub_p0 = __msa_max_u_b(p2_a_sub_p0, q2_a_sub_q0);                 \

+  flat_out = __msa_max_u_b(p2_a_sub_p0, flat_out);                       \

+  p3_a_sub_p0 = __msa_max_u_b(p3_a_sub_p0, q3_a_sub_q0);                 \

+  flat_out = __msa_max_u_b(p3_a_sub_p0, flat_out);                       \

+                                                                         \

+  flat_out = (tmp < (v16u8)flat_out);                                    \

+  flat_out = __msa_xori_b(flat_out, 0xff);                               \

+  flat_out = flat_out & (mask);                                          \

+}

+#define VP9_FLAT5(p7_in, p6_in, p5_in, p4_in, p0_in, q0_in, q4_in,  \

+                  q5_in, q6_in, q7_in, flat_in, flat2_out) {        \

+  v16u8 tmp, zero_in = { 0 };                                       \

+  v16u8 p4_a_sub_p0, q4_a_sub_q0, p5_a_sub_p0, q5_a_sub_q0;         \

+  v16u8 p6_a_sub_p0, q6_a_sub_q0, p7_a_sub_p0, q7_a_sub_q0;         \

+                                                                    \

+  tmp = __msa_ori_b(zero_in, 1);                                    \

+  p4_a_sub_p0 = __msa_asub_u_b(p4_in, p0_in);                       \

+  q4_a_sub_q0 = __msa_asub_u_b(q4_in, q0_in);                       \

+  p5_a_sub_p0 = __msa_asub_u_b(p5_in, p0_in);                       \

+  q5_a_sub_q0 = __msa_asub_u_b(q5_in, q0_in);                       \

+  p6_a_sub_p0 = __msa_asub_u_b(p6_in, p0_in);                       \

+  q6_a_sub_q0 = __msa_asub_u_b(q6_in, q0_in);                       \

+  p7_a_sub_p0 = __msa_asub_u_b(p7_in, p0_in);                       \

+  q7_a_sub_q0 = __msa_asub_u_b(q7_in, q0_in);                       \

+                                                                    \

+  p4_a_sub_p0 = __msa_max_u_b(p4_a_sub_p0, q4_a_sub_q0);            \

+  flat2_out = __msa_max_u_b(p5_a_sub_p0, q5_a_sub_q0);              \

+  flat2_out = __msa_max_u_b(p4_a_sub_p0, flat2_out);                \

+  p6_a_sub_p0 = __msa_max_u_b(p6_a_sub_p0, q6_a_sub_q0);            \

+  flat2_out = __msa_max_u_b(p6_a_sub_p0, flat2_out);                \

+  p7_a_sub_p0 = __msa_max_u_b(p7_a_sub_p0, q7_a_sub_q0);            \

+  flat2_out = __msa_max_u_b(p7_a_sub_p0, flat2_out);                \

+                                                                    \

+  flat2_out = (tmp < (v16u8)flat2_out);                             \

+  flat2_out = __msa_xori_b(flat2_out, 0xff);                        \

+  flat2_out = flat2_out & flat_in;                                  \

+}

+#define VP9_FILTER8(p3_in, p2_in, p1_in, p0_in,                  \

+                    q0_in, q1_in, q2_in, q3_in,                  \

+                    p2_filt8_out, p1_filt8_out, p0_filt8_out,    \

+                    q0_filt8_out, q1_filt8_out, q2_filt8_out) {  \

+  v8u16 tmp0, tmp1, tmp2;                                        \

+                                                                 \

+  tmp2 = p2_in + p1_in + p0_in;                                  \

+  tmp0 = p3_in << 1;                                             \

+                                                                 \

+  tmp0 = tmp0 + tmp2 + q0_in;                                    \

+  tmp1 = tmp0 + p3_in + p2_in;                                   \

+  p2_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);           \

+                                                                 \

+  tmp1 = tmp0 + p1_in + q1_in;                                   \

+  p1_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);           \

+                                                                 \

+  tmp1 = q2_in + q1_in + q0_in;                                  \

+  tmp2 = tmp2 + tmp1;                                            \

+  tmp0 = tmp2 + (p0_in);                                         \

+  tmp0 = tmp0 + (p3_in);                                         \

+  p0_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp0, 3);           \

+                                                                 \

+  tmp0 = q2_in + q3_in;                                          \

+  tmp0 = p0_in + tmp1 + tmp0;                                    \

+  tmp1 = q3_in + q3_in;                                          \

+  tmp1 = tmp1 + tmp0;                                            \

+  q2_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);           \

+                                                                 \

+  tmp0 = tmp2 + q3_in;                                           \

+  tmp1 = tmp0 + q0_in;                                           \

+  q0_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);           \

+                                                                 \

+  tmp1 = tmp0 - p2_in;                                           \

+  tmp0 = q1_in + q3_in;                                          \

+  tmp1 = tmp0 + tmp1;                                            \

+  q1_filt8_out = (v8i16)__msa_srari_h((v8i16)tmp1, 3);           \

+}

+#define LPF_MASK_HEV(p3_in, p2_in, p1_in, p0_in,                 \

+                     q0_in, q1_in, q2_in, q3_in,                 \

+                     limit_in, b_limit_in, thresh_in,            \

+                     hev_out, mask_out, flat_out) {              \

+  v16u8 p3_asub_p2_m, p2_asub_p1_m, p1_asub_p0_m, q1_asub_q0_m;  \

+  v16u8 p1_asub_q1_m, p0_asub_q0_m, q3_asub_q2_m, q2_asub_q1_m;  \

+                                                                 \

+  /* absolute subtraction of pixel values */                     \

+  p3_asub_p2_m = __msa_asub_u_b(p3_in, p2_in);                   \

+  p2_asub_p1_m = __msa_asub_u_b(p2_in, p1_in);                   \

+  p1_asub_p0_m = __msa_asub_u_b(p1_in, p0_in);                   \

+  q1_asub_q0_m = __msa_asub_u_b(q1_in, q0_in);                   \

+  q2_asub_q1_m = __msa_asub_u_b(q2_in, q1_in);                   \

+  q3_asub_q2_m = __msa_asub_u_b(q3_in, q2_in);                   \

+  p0_asub_q0_m = __msa_asub_u_b(p0_in, q0_in);                   \

+  p1_asub_q1_m = __msa_asub_u_b(p1_in, q1_in);                   \

+                                                                 \

+  /* calculation of hev */                                       \

+  flat_out = __msa_max_u_b(p1_asub_p0_m, q1_asub_q0_m);          \

+  hev_out = thresh_in < (v16u8)flat_out;                         \

+                                                                 \

+  /* calculation of mask */                                      \

+  p0_asub_q0_m = __msa_adds_u_b(p0_asub_q0_m, p0_asub_q0_m);     \

+  p1_asub_q1_m >>= 1;                                            \

+  p0_asub_q0_m = __msa_adds_u_b(p0_asub_q0_m, p1_asub_q1_m);     \

+                                                                 \

+  mask_out = b_limit_in < p0_asub_q0_m;                          \

+  mask_out = __msa_max_u_b(flat_out, mask_out);                  \

+  p3_asub_p2_m = __msa_max_u_b(p3_asub_p2_m, p2_asub_p1_m);      \

+  mask_out = __msa_max_u_b(p3_asub_p2_m, mask_out);              \

+  q2_asub_q1_m = __msa_max_u_b(q2_asub_q1_m, q3_asub_q2_m);      \

+  mask_out = __msa_max_u_b(q2_asub_q1_m, mask_out);              \

+                                                                 \

+  mask_out = limit_in < (v16u8)mask_out;                         \

+  mask_out = __msa_xori_b(mask_out, 0xff);                       \

+}

+#endif  /* VPX_DSP_LOOPFILTER_MSA_H_ */

--- a/vpx_dsp/vpx_dsp.mk

+++ b/vpx_dsp/vpx_dsp.mk

@@ -13,6 +13,36 @@

 DSP_SRCS-$(HAVE_MSA)    += mips/macros_msa.h

+# loop filters

+DSP_SRCS-yes += loopfilter.c

+DSP_SRCS-$(ARCH_X86)$(ARCH_X86_64)   += x86/loopfilter_sse2.c

+DSP_SRCS-$(HAVE_AVX2)                += x86/loopfilter_avx2.c

+DSP_SRCS-$(HAVE_MMX)                 += x86/loopfilter_mmx.asm

+DSP_SRCS-$(HAVE_NEON)   += arm/loopfilter_neon.c

+ifeq ($(HAVE_NEON_ASM),yes)

+DSP_SRCS-yes  += arm/loopfilter_mb_neon$(ASM)

+DSP_SRCS-yes  += arm/loopfilter_16_neon$(ASM)

+DSP_SRCS-yes  += arm/loopfilter_8_neon$(ASM)

+DSP_SRCS-yes  += arm/loopfilter_4_neon$(ASM)

+else

+ifeq ($(HAVE_NEON),yes)

+DSP_SRCS-yes   += arm/loopfilter_16_neon.c

+DSP_SRCS-yes   += arm/loopfilter_8_neon.c

+DSP_SRCS-yes   += arm/loopfilter_4_neon.c

+endif  # HAVE_NEON

+endif  # HAVE_NEON_ASM

+DSP_SRCS-$(HAVE_MSA)    += mips/loopfilter_msa.h

+DSP_SRCS-$(HAVE_MSA)    += mips/loopfilter_16_msa.c

+DSP_SRCS-$(HAVE_MSA)    += mips/loopfilter_8_msa.c

+DSP_SRCS-$(HAVE_MSA)    += mips/loopfilter_4_msa.c

+ifeq ($(CONFIG_VP9_HIGHBITDEPTH),yes)

+DSP_SRCS-$(HAVE_SSE2)   += x86/highbd_loopfilter_sse2.c

+endif  # CONFIG_VP9_HIGHBITDEPTH

 ifeq ($(CONFIG_ENCODERS),yes)

 DSP_SRCS-yes            += sad.c

 DSP_SRCS-yes            += subtract.c

--- a/vpx_dsp/vpx_dsp_rtcd_defs.pl

+++ b/vpx_dsp/vpx_dsp_rtcd_defs.pl

@@ -35,6 +35,82 @@

   $avx_x86_64 = $avx2_x86_64 = '';

+#

+# Loopfilter

+#

+add_proto qw/void vp9_lpf_vertical_16/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh";

+specialize qw/vp9_lpf_vertical_16 sse2 neon_asm msa/;

+$vp9_lpf_vertical_16_neon_asm=vp9_lpf_vertical_16_neon;

+add_proto qw/void vp9_lpf_vertical_16_dual/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh";

+specialize qw/vp9_lpf_vertical_16_dual sse2 neon_asm msa/;

+$vp9_lpf_vertical_16_dual_neon_asm=vp9_lpf_vertical_16_dual_neon;

+add_proto qw/void vp9_lpf_vertical_8/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

+specialize qw/vp9_lpf_vertical_8 sse2 neon msa/;

+add_proto qw/void vp9_lpf_vertical_8_dual/, "uint8_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1";

+specialize qw/vp9_lpf_vertical_8_dual sse2 neon_asm msa/;

+$vp9_lpf_vertical_8_dual_neon_asm=vp9_lpf_vertical_8_dual_neon;

+add_proto qw/void vp9_lpf_vertical_4/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

+specialize qw/vp9_lpf_vertical_4 mmx neon msa/;

+add_proto qw/void vp9_lpf_vertical_4_dual/, "uint8_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1";

+specialize qw/vp9_lpf_vertical_4_dual sse2 neon msa/;

+add_proto qw/void vp9_lpf_horizontal_16/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

+specialize qw/vp9_lpf_horizontal_16 sse2 avx2 neon_asm msa/;

+$vp9_lpf_horizontal_16_neon_asm=vp9_lpf_horizontal_16_neon;

+add_proto qw/void vp9_lpf_horizontal_8/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

+specialize qw/vp9_lpf_horizontal_8 sse2 neon msa/;

+add_proto qw/void vp9_lpf_horizontal_8_dual/, "uint8_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1";

+specialize qw/vp9_lpf_horizontal_8_dual sse2 neon_asm msa/;

+$vp9_lpf_horizontal_8_dual_neon_asm=vp9_lpf_horizontal_8_dual_neon;

+add_proto qw/void vp9_lpf_horizontal_4/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

+specialize qw/vp9_lpf_horizontal_4 mmx neon msa/;

+add_proto qw/void vp9_lpf_horizontal_4_dual/, "uint8_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1";

+specialize qw/vp9_lpf_horizontal_4_dual sse2 neon msa/;

+if (vpx_config("CONFIG_VP9_HIGHBITDEPTH") eq "yes") {

+  add_proto qw/void vp9_highbd_lpf_vertical_16/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int bd";

+  specialize qw/vp9_highbd_lpf_vertical_16 sse2/;

+  add_proto qw/void vp9_highbd_lpf_vertical_16_dual/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int bd";

+  specialize qw/vp9_highbd_lpf_vertical_16_dual sse2/;

+  add_proto qw/void vp9_highbd_lpf_vertical_8/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count, int bd";

+  specialize qw/vp9_highbd_lpf_vertical_8 sse2/;

+  add_proto qw/void vp9_highbd_lpf_vertical_8_dual/, "uint16_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1, int bd";

+  specialize qw/vp9_highbd_lpf_vertical_8_dual sse2/;

+  add_proto qw/void vp9_highbd_lpf_vertical_4/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count, int bd";

+  specialize qw/vp9_highbd_lpf_vertical_4 sse2/;

+  add_proto qw/void vp9_highbd_lpf_vertical_4_dual/, "uint16_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1, int bd";

+  specialize qw/vp9_highbd_lpf_vertical_4_dual sse2/;

+  add_proto qw/void vp9_highbd_lpf_horizontal_16/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count, int bd";

+  specialize qw/vp9_highbd_lpf_horizontal_16 sse2/;

+  add_proto qw/void vp9_highbd_lpf_horizontal_8/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count, int bd";

+  specialize qw/vp9_highbd_lpf_horizontal_8 sse2/;

+  add_proto qw/void vp9_highbd_lpf_horizontal_8_dual/, "uint16_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1, int bd";

+  specialize qw/vp9_highbd_lpf_horizontal_8_dual sse2/;

+  add_proto qw/void vp9_highbd_lpf_horizontal_4/, "uint16_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count, int bd";

+  specialize qw/vp9_highbd_lpf_horizontal_4 sse2/;

+  add_proto qw/void vp9_highbd_lpf_horizontal_4_dual/, "uint16_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1, int bd";

+  specialize qw/vp9_highbd_lpf_horizontal_4_dual sse2/;

+}  # CONFIG_VP9_HIGHBITDEPTH

 if (vpx_config("CONFIG_ENCODERS") eq "yes") {

 # Block subtraction

--- /dev/null

+++ b/vpx_dsp/x86/highbd_loopfilter_sse2.c

@@ -1,0 +1,1215 @@

+/*

+ *  Copyright (c) 2014 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include <emmintrin.h>  // SSE2

+#include "./vpx_dsp_rtcd.h"

+#include "vpx_ports/mem.h"

+#include "vp9/common/vp9_loopfilter.h"

+#include "vpx_ports/emmintrin_compat.h"

+static INLINE __m128i signed_char_clamp_bd_sse2(__m128i value, int bd) {

+  __m128i ubounded;

+  __m128i lbounded;

+  __m128i retval;

+  const __m128i zero = _mm_set1_epi16(0);

+  const __m128i one = _mm_set1_epi16(1);

+  __m128i t80, max, min;

+  if (bd == 8) {

+    t80 = _mm_set1_epi16(0x80);

+    max = _mm_subs_epi16(

+              _mm_subs_epi16(_mm_slli_epi16(one, 8), one), t80);

+  } else if (bd == 10) {

+    t80 = _mm_set1_epi16(0x200);

+    max = _mm_subs_epi16(

+              _mm_subs_epi16(_mm_slli_epi16(one, 10), one), t80);

+  } else {  // bd == 12

+    t80 = _mm_set1_epi16(0x800);

+    max = _mm_subs_epi16(

+              _mm_subs_epi16(_mm_slli_epi16(one, 12), one), t80);

+  }

+  min = _mm_subs_epi16(zero, t80);

+  ubounded = _mm_cmpgt_epi16(value, max);

+  lbounded = _mm_cmplt_epi16(value, min);

+  retval = _mm_andnot_si128(_mm_or_si128(ubounded, lbounded), value);

+  ubounded = _mm_and_si128(ubounded, max);

+  lbounded = _mm_and_si128(lbounded, min);

+  retval = _mm_or_si128(retval, ubounded);

+  retval = _mm_or_si128(retval, lbounded);

+  return retval;

+}

+// TODO(debargha, peter): Break up large functions into smaller ones

+// in this file.

+static void highbd_mb_lpf_horizontal_edge_w_sse2_8(uint16_t *s,

+                                                   int p,

+                                                   const uint8_t *_blimit,

+                                                   const uint8_t *_limit,

+                                                   const uint8_t *_thresh,

+                                                   int bd) {

+  const __m128i zero = _mm_set1_epi16(0);

+  const __m128i one = _mm_set1_epi16(1);

+  __m128i blimit, limit, thresh;

+  __m128i q7, p7, q6, p6, q5, p5, q4, p4, q3, p3, q2, p2, q1, p1, q0, p0;

+  __m128i mask, hev, flat, flat2, abs_p1p0, abs_q1q0;

+  __m128i ps1, qs1, ps0, qs0;

+  __m128i abs_p0q0, abs_p1q1, ffff, work;

+  __m128i filt, work_a, filter1, filter2;

+  __m128i flat2_q6, flat2_p6, flat2_q5, flat2_p5, flat2_q4, flat2_p4;

+  __m128i flat2_q3, flat2_p3, flat2_q2, flat2_p2, flat2_q1, flat2_p1;

+  __m128i flat2_q0, flat2_p0;

+  __m128i flat_q2, flat_p2, flat_q1, flat_p1, flat_q0, flat_p0;

+  __m128i pixelFilter_p, pixelFilter_q;

+  __m128i pixetFilter_p2p1p0, pixetFilter_q2q1q0;

+  __m128i sum_p7, sum_q7, sum_p3, sum_q3;

+  __m128i t4, t3, t80, t1;

+  __m128i eight, four;

+  if (bd == 8) {

+    blimit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero);

+    limit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero);

+    thresh = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero);

+  } else if (bd == 10) {

+    blimit = _mm_slli_epi16(

+        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 2);

+    limit = _mm_slli_epi16(

+          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 2);

+    thresh = _mm_slli_epi16(

+          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 2);

+  } else {  // bd == 12

+    blimit = _mm_slli_epi16(

+        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 4);

+    limit = _mm_slli_epi16(

+          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 4);

+    thresh = _mm_slli_epi16(

+          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 4);

+  }

+  q4 = _mm_load_si128((__m128i *)(s + 4 * p));

+  p4 = _mm_load_si128((__m128i *)(s - 5 * p));

+  q3 = _mm_load_si128((__m128i *)(s + 3 * p));

+  p3 = _mm_load_si128((__m128i *)(s - 4 * p));

+  q2 = _mm_load_si128((__m128i *)(s + 2 * p));

+  p2 = _mm_load_si128((__m128i *)(s - 3 * p));

+  q1 = _mm_load_si128((__m128i *)(s + 1 * p));

+  p1 = _mm_load_si128((__m128i *)(s - 2 * p));

+  q0 = _mm_load_si128((__m128i *)(s + 0 * p));

+  p0 = _mm_load_si128((__m128i *)(s - 1 * p));

+  //  highbd_filter_mask

+  abs_p1p0 = _mm_or_si128(_mm_subs_epu16(p1, p0), _mm_subs_epu16(p0, p1));

+  abs_q1q0 = _mm_or_si128(_mm_subs_epu16(q1, q0), _mm_subs_epu16(q0, q1));

+  ffff = _mm_cmpeq_epi16(abs_p1p0, abs_p1p0);

+  abs_p0q0 = _mm_or_si128(_mm_subs_epu16(p0, q0), _mm_subs_epu16(q0, p0));

+  abs_p1q1 = _mm_or_si128(_mm_subs_epu16(p1, q1), _mm_subs_epu16(q1, p1));

+  //  highbd_hev_mask (in C code this is actually called from highbd_filter4)

+  flat = _mm_max_epi16(abs_p1p0, abs_q1q0);

+  hev = _mm_subs_epu16(flat, thresh);

+  hev = _mm_xor_si128(_mm_cmpeq_epi16(hev, zero), ffff);

+  abs_p0q0 =_mm_adds_epu16(abs_p0q0, abs_p0q0);  // abs(p0 - q0) * 2

+  abs_p1q1 = _mm_srli_epi16(abs_p1q1, 1);  // abs(p1 - q1) / 2

+  mask = _mm_subs_epu16(_mm_adds_epu16(abs_p0q0, abs_p1q1), blimit);

+  mask = _mm_xor_si128(_mm_cmpeq_epi16(mask, zero), ffff);

+  mask = _mm_and_si128(mask, _mm_adds_epu16(limit, one));

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p1, p0),

+                                    _mm_subs_epu16(p0, p1)),

+                       _mm_or_si128(_mm_subs_epu16(q1, q0),

+                                    _mm_subs_epu16(q0, q1)));

+  mask = _mm_max_epi16(work, mask);

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p2, p1),

+                                    _mm_subs_epu16(p1, p2)),

+                       _mm_or_si128(_mm_subs_epu16(q2, q1),

+                                    _mm_subs_epu16(q1, q2)));

+  mask = _mm_max_epi16(work, mask);

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p3, p2),

+                                    _mm_subs_epu16(p2, p3)),

+                       _mm_or_si128(_mm_subs_epu16(q3, q2),

+                                    _mm_subs_epu16(q2, q3)));

+  mask = _mm_max_epi16(work, mask);

+  mask = _mm_subs_epu16(mask, limit);

+  mask = _mm_cmpeq_epi16(mask, zero);  // return ~mask

+  // lp filter

+  // highbd_filter4

+  t4 = _mm_set1_epi16(4);

+  t3 = _mm_set1_epi16(3);

+  if (bd == 8)

+    t80 = _mm_set1_epi16(0x80);

+  else if (bd == 10)

+    t80 = _mm_set1_epi16(0x200);

+  else  // bd == 12

+    t80 = _mm_set1_epi16(0x800);

+  t1 = _mm_set1_epi16(0x1);

+  ps1 = _mm_subs_epi16(p1, t80);

+  qs1 = _mm_subs_epi16(q1, t80);

+  ps0 = _mm_subs_epi16(p0, t80);

+  qs0 = _mm_subs_epi16(q0, t80);

+  filt = _mm_and_si128(

+      signed_char_clamp_bd_sse2(_mm_subs_epi16(ps1, qs1), bd), hev);

+  work_a = _mm_subs_epi16(qs0, ps0);

+  filt = _mm_adds_epi16(filt, work_a);

+  filt = _mm_adds_epi16(filt, work_a);

+  filt = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, work_a), bd);

+  filt = _mm_and_si128(filt, mask);

+  filter1 = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, t4), bd);

+  filter2 = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, t3), bd);

+  // Filter1 >> 3

+  filter1 = _mm_srai_epi16(filter1, 0x3);

+  filter2 = _mm_srai_epi16(filter2, 0x3);

+  qs0 = _mm_adds_epi16(

+      signed_char_clamp_bd_sse2(_mm_subs_epi16(qs0, filter1), bd),

+      t80);

+  ps0 = _mm_adds_epi16(

+      signed_char_clamp_bd_sse2(_mm_adds_epi16(ps0, filter2), bd),

+      t80);

+  filt = _mm_adds_epi16(filter1, t1);

+  filt = _mm_srai_epi16(filt, 1);

+  filt = _mm_andnot_si128(hev, filt);

+  qs1 = _mm_adds_epi16(

+      signed_char_clamp_bd_sse2(_mm_subs_epi16(qs1, filt), bd),

+      t80);

+  ps1 = _mm_adds_epi16(

+      signed_char_clamp_bd_sse2(_mm_adds_epi16(ps1, filt), bd),

+      t80);

+  // end highbd_filter4

+  // loopfilter done

+  // highbd_flat_mask4

+  flat = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p2, p0),

+                                    _mm_subs_epu16(p0, p2)),

+                       _mm_or_si128(_mm_subs_epu16(p3, p0),

+                                    _mm_subs_epu16(p0, p3)));

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(q2, q0),

+                                    _mm_subs_epu16(q0, q2)),

+                       _mm_or_si128(_mm_subs_epu16(q3, q0),

+                                    _mm_subs_epu16(q0, q3)));

+  flat = _mm_max_epi16(work, flat);

+  work = _mm_max_epi16(abs_p1p0, abs_q1q0);

+  flat = _mm_max_epi16(work, flat);

+  if (bd == 8)

+    flat = _mm_subs_epu16(flat, one);

+  else if (bd == 10)

+    flat = _mm_subs_epu16(flat, _mm_slli_epi16(one, 2));

+  else  // bd == 12

+    flat = _mm_subs_epu16(flat, _mm_slli_epi16(one, 4));

+  flat = _mm_cmpeq_epi16(flat, zero);

+  // end flat_mask4

+  // flat & mask = flat && mask (as used in filter8)

+  // (because, in both vars, each block of 16 either all 1s or all 0s)

+  flat = _mm_and_si128(flat, mask);

+  p5 = _mm_load_si128((__m128i *)(s - 6 * p));

+  q5 = _mm_load_si128((__m128i *)(s + 5 * p));

+  p6 = _mm_load_si128((__m128i *)(s - 7 * p));

+  q6 = _mm_load_si128((__m128i *)(s + 6 * p));

+  p7 = _mm_load_si128((__m128i *)(s - 8 * p));

+  q7 = _mm_load_si128((__m128i *)(s + 7 * p));

+  // highbd_flat_mask5 (arguments passed in are p0, q0, p4-p7, q4-q7

+  // but referred to as p0-p4 & q0-q4 in fn)

+  flat2 = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p4, p0),

+                                     _mm_subs_epu16(p0, p4)),

+                        _mm_or_si128(_mm_subs_epu16(q4, q0),

+                                     _mm_subs_epu16(q0, q4)));

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p5, p0),

+                                    _mm_subs_epu16(p0, p5)),

+                       _mm_or_si128(_mm_subs_epu16(q5, q0),

+                                    _mm_subs_epu16(q0, q5)));

+  flat2 = _mm_max_epi16(work, flat2);

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p6, p0),

+                                    _mm_subs_epu16(p0, p6)),

+                       _mm_or_si128(_mm_subs_epu16(q6, q0),

+                                    _mm_subs_epu16(q0, q6)));

+  flat2 = _mm_max_epi16(work, flat2);

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p7, p0),

+                                    _mm_subs_epu16(p0, p7)),

+                       _mm_or_si128(_mm_subs_epu16(q7, q0),

+                                    _mm_subs_epu16(q0, q7)));

+  flat2 = _mm_max_epi16(work, flat2);

+  if (bd == 8)

+    flat2 = _mm_subs_epu16(flat2, one);

+  else if (bd == 10)

+    flat2 = _mm_subs_epu16(flat2, _mm_slli_epi16(one, 2));

+  else  // bd == 12

+    flat2 = _mm_subs_epu16(flat2, _mm_slli_epi16(one, 4));

+  flat2 = _mm_cmpeq_epi16(flat2, zero);

+  flat2 = _mm_and_si128(flat2, flat);  // flat2 & flat & mask

+  // end highbd_flat_mask5

+  // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+  // flat and wide flat calculations

+  eight = _mm_set1_epi16(8);

+  four = _mm_set1_epi16(4);

+  pixelFilter_p = _mm_add_epi16(_mm_add_epi16(p6, p5),

+                                _mm_add_epi16(p4, p3));

+  pixelFilter_q = _mm_add_epi16(_mm_add_epi16(q6, q5),

+                                _mm_add_epi16(q4, q3));

+  pixetFilter_p2p1p0 = _mm_add_epi16(p0, _mm_add_epi16(p2, p1));

+  pixelFilter_p = _mm_add_epi16(pixelFilter_p, pixetFilter_p2p1p0);

+  pixetFilter_q2q1q0 = _mm_add_epi16(q0, _mm_add_epi16(q2, q1));

+  pixelFilter_q = _mm_add_epi16(pixelFilter_q, pixetFilter_q2q1q0);

+  pixelFilter_p = _mm_add_epi16(eight, _mm_add_epi16(pixelFilter_p,

+                                                      pixelFilter_q));

+  pixetFilter_p2p1p0 =   _mm_add_epi16(four,

+                                       _mm_add_epi16(pixetFilter_p2p1p0,

+                                                     pixetFilter_q2q1q0));

+  flat2_p0 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                                          _mm_add_epi16(p7, p0)), 4);

+  flat2_q0 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                                          _mm_add_epi16(q7, q0)), 4);

+  flat_p0 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

+                                         _mm_add_epi16(p3, p0)), 3);

+  flat_q0 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

+                                         _mm_add_epi16(q3, q0)), 3);

+  sum_p7 = _mm_add_epi16(p7, p7);

+  sum_q7 = _mm_add_epi16(q7, q7);

+  sum_p3 = _mm_add_epi16(p3, p3);

+  sum_q3 = _mm_add_epi16(q3, q3);

+  pixelFilter_q = _mm_sub_epi16(pixelFilter_p, p6);

+  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q6);

+  flat2_p1 = _mm_srli_epi16(

+      _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p1)), 4);

+  flat2_q1 = _mm_srli_epi16(

+      _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q1)), 4);

+  pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_p2p1p0, p2);

+  pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q2);

+  flat_p1 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

+                                         _mm_add_epi16(sum_p3, p1)), 3);

+  flat_q1 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_q2q1q0,

+                                         _mm_add_epi16(sum_q3, q1)), 3);

+  sum_p7 = _mm_add_epi16(sum_p7, p7);

+  sum_q7 = _mm_add_epi16(sum_q7, q7);

+  sum_p3 = _mm_add_epi16(sum_p3, p3);

+  sum_q3 = _mm_add_epi16(sum_q3, q3);

+  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q5);

+  pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p5);

+  flat2_p2 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                                          _mm_add_epi16(sum_p7, p2)), 4);

+  flat2_q2 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                                          _mm_add_epi16(sum_q7, q2)), 4);

+  pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q1);

+  pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_q2q1q0, p1);

+  flat_p2 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

+                                         _mm_add_epi16(sum_p3, p2)), 3);

+  flat_q2 = _mm_srli_epi16(_mm_add_epi16(pixetFilter_q2q1q0,

+                                         _mm_add_epi16(sum_q3, q2)), 3);

+  sum_p7 = _mm_add_epi16(sum_p7, p7);

+  sum_q7 = _mm_add_epi16(sum_q7, q7);

+  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q4);

+  pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p4);

+  flat2_p3 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                                          _mm_add_epi16(sum_p7, p3)), 4);

+  flat2_q3 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                                          _mm_add_epi16(sum_q7, q3)), 4);

+  sum_p7 = _mm_add_epi16(sum_p7, p7);

+  sum_q7 = _mm_add_epi16(sum_q7, q7);

+  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q3);

+  pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p3);

+  flat2_p4 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                                          _mm_add_epi16(sum_p7, p4)), 4);

+  flat2_q4 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                                          _mm_add_epi16(sum_q7, q4)), 4);

+  sum_p7 = _mm_add_epi16(sum_p7, p7);

+  sum_q7 = _mm_add_epi16(sum_q7, q7);

+  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q2);

+  pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p2);

+  flat2_p5 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                                          _mm_add_epi16(sum_p7, p5)), 4);

+  flat2_q5 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                                          _mm_add_epi16(sum_q7, q5)), 4);

+  sum_p7 = _mm_add_epi16(sum_p7, p7);

+  sum_q7 = _mm_add_epi16(sum_q7, q7);

+  pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q1);

+  pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p1);

+  flat2_p6 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                                          _mm_add_epi16(sum_p7, p6)), 4);

+  flat2_q6 = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                                          _mm_add_epi16(sum_q7, q6)), 4);

+  //  wide flat

+  //  ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+  //  highbd_filter8

+  p2 = _mm_andnot_si128(flat, p2);

+  //  p2 remains unchanged if !(flat && mask)

+  flat_p2 = _mm_and_si128(flat, flat_p2);

+  //  when (flat && mask)

+  p2 = _mm_or_si128(p2, flat_p2);  // full list of p2 values

+  q2 = _mm_andnot_si128(flat, q2);

+  flat_q2 = _mm_and_si128(flat, flat_q2);

+  q2 = _mm_or_si128(q2, flat_q2);  // full list of q2 values

+  ps1 = _mm_andnot_si128(flat, ps1);

+  //  p1 takes the value assigned to in in filter4 if !(flat && mask)

+  flat_p1 = _mm_and_si128(flat, flat_p1);

+  //  when (flat && mask)

+  p1 = _mm_or_si128(ps1, flat_p1);  // full list of p1 values

+  qs1 = _mm_andnot_si128(flat, qs1);

+  flat_q1 = _mm_and_si128(flat, flat_q1);

+  q1 = _mm_or_si128(qs1, flat_q1);  // full list of q1 values

+  ps0 = _mm_andnot_si128(flat, ps0);

+  //  p0 takes the value assigned to in in filter4 if !(flat && mask)

+  flat_p0 = _mm_and_si128(flat, flat_p0);

+  //  when (flat && mask)

+  p0 = _mm_or_si128(ps0, flat_p0);  // full list of p0 values

+  qs0 = _mm_andnot_si128(flat, qs0);

+  flat_q0 = _mm_and_si128(flat, flat_q0);

+  q0 = _mm_or_si128(qs0, flat_q0);  // full list of q0 values

+  // end highbd_filter8

+  // highbd_filter16

+  p6 = _mm_andnot_si128(flat2, p6);

+  //  p6 remains unchanged if !(flat2 && flat && mask)

+  flat2_p6 = _mm_and_si128(flat2, flat2_p6);

+  //  get values for when (flat2 && flat && mask)

+  p6 = _mm_or_si128(p6, flat2_p6);  // full list of p6 values

+  q6 = _mm_andnot_si128(flat2, q6);

+  //  q6 remains unchanged if !(flat2 && flat && mask)

+  flat2_q6 = _mm_and_si128(flat2, flat2_q6);

+  //  get values for when (flat2 && flat && mask)

+  q6 = _mm_or_si128(q6, flat2_q6);  // full list of q6 values

+  _mm_store_si128((__m128i *)(s - 7 * p), p6);

+  _mm_store_si128((__m128i *)(s + 6 * p), q6);

+  p5 = _mm_andnot_si128(flat2, p5);

+  //  p5 remains unchanged if !(flat2 && flat && mask)

+  flat2_p5 = _mm_and_si128(flat2, flat2_p5);

+  //  get values for when (flat2 && flat && mask)

+  p5 = _mm_or_si128(p5, flat2_p5);

+  //  full list of p5 values

+  q5 = _mm_andnot_si128(flat2, q5);

+  //  q5 remains unchanged if !(flat2 && flat && mask)

+  flat2_q5 = _mm_and_si128(flat2, flat2_q5);

+  //  get values for when (flat2 && flat && mask)

+  q5 = _mm_or_si128(q5, flat2_q5);

+  //  full list of q5 values

+  _mm_store_si128((__m128i *)(s - 6 * p), p5);

+  _mm_store_si128((__m128i *)(s + 5 * p), q5);

+  p4 = _mm_andnot_si128(flat2, p4);

+  //  p4 remains unchanged if !(flat2 && flat && mask)

+  flat2_p4 = _mm_and_si128(flat2, flat2_p4);

+  //  get values for when (flat2 && flat && mask)

+  p4 = _mm_or_si128(p4, flat2_p4);  // full list of p4 values

+  q4 = _mm_andnot_si128(flat2, q4);

+  //  q4 remains unchanged if !(flat2 && flat && mask)

+  flat2_q4 = _mm_and_si128(flat2, flat2_q4);

+  //  get values for when (flat2 && flat && mask)

+  q4 = _mm_or_si128(q4, flat2_q4);  // full list of q4 values

+  _mm_store_si128((__m128i *)(s - 5 * p), p4);

+  _mm_store_si128((__m128i *)(s + 4 * p), q4);

+  p3 = _mm_andnot_si128(flat2, p3);

+  //  p3 takes value from highbd_filter8 if !(flat2 && flat && mask)

+  flat2_p3 = _mm_and_si128(flat2, flat2_p3);

+  //  get values for when (flat2 && flat && mask)

+  p3 = _mm_or_si128(p3, flat2_p3);  // full list of p3 values

+  q3 = _mm_andnot_si128(flat2, q3);

+  //  q3 takes value from highbd_filter8 if !(flat2 && flat && mask)

+  flat2_q3 = _mm_and_si128(flat2, flat2_q3);

+  //  get values for when (flat2 && flat && mask)

+  q3 = _mm_or_si128(q3, flat2_q3);  // full list of q3 values

+  _mm_store_si128((__m128i *)(s - 4 * p), p3);

+  _mm_store_si128((__m128i *)(s + 3 * p), q3);

+  p2 = _mm_andnot_si128(flat2, p2);

+  //  p2 takes value from highbd_filter8 if !(flat2 && flat && mask)

+  flat2_p2 = _mm_and_si128(flat2, flat2_p2);

+  //  get values for when (flat2 && flat && mask)

+  p2 = _mm_or_si128(p2, flat2_p2);

+  //  full list of p2 values

+  q2 = _mm_andnot_si128(flat2, q2);

+  //  q2 takes value from highbd_filter8 if !(flat2 && flat && mask)

+  flat2_q2 = _mm_and_si128(flat2, flat2_q2);

+  //  get values for when (flat2 && flat && mask)

+  q2 = _mm_or_si128(q2, flat2_q2);  // full list of q2 values

+  _mm_store_si128((__m128i *)(s - 3 * p), p2);

+  _mm_store_si128((__m128i *)(s + 2 * p), q2);

+  p1 = _mm_andnot_si128(flat2, p1);

+  //  p1 takes value from highbd_filter8 if !(flat2 && flat && mask)

+  flat2_p1 = _mm_and_si128(flat2, flat2_p1);

+  //  get values for when (flat2 && flat && mask)

+  p1 = _mm_or_si128(p1, flat2_p1);  // full list of p1 values

+  q1 = _mm_andnot_si128(flat2, q1);

+  //  q1 takes value from highbd_filter8 if !(flat2 && flat && mask)

+  flat2_q1 = _mm_and_si128(flat2, flat2_q1);

+  //  get values for when (flat2 && flat && mask)

+  q1 = _mm_or_si128(q1, flat2_q1);  // full list of q1 values

+  _mm_store_si128((__m128i *)(s - 2 * p), p1);

+  _mm_store_si128((__m128i *)(s + 1 * p), q1);

+  p0 = _mm_andnot_si128(flat2, p0);

+  //  p0 takes value from highbd_filter8 if !(flat2 && flat && mask)

+  flat2_p0 = _mm_and_si128(flat2, flat2_p0);

+  //  get values for when (flat2 && flat && mask)

+  p0 = _mm_or_si128(p0, flat2_p0);  // full list of p0 values

+  q0 = _mm_andnot_si128(flat2, q0);

+  //  q0 takes value from highbd_filter8 if !(flat2 && flat && mask)

+  flat2_q0 = _mm_and_si128(flat2, flat2_q0);

+  //  get values for when (flat2 && flat && mask)

+  q0 = _mm_or_si128(q0, flat2_q0);  // full list of q0 values

+  _mm_store_si128((__m128i *)(s - 1 * p), p0);

+  _mm_store_si128((__m128i *)(s - 0 * p), q0);

+}

+static void highbd_mb_lpf_horizontal_edge_w_sse2_16(uint16_t *s,

+                                                    int p,

+                                                    const uint8_t *_blimit,

+                                                    const uint8_t *_limit,

+                                                    const uint8_t *_thresh,

+                                                    int bd) {

+  highbd_mb_lpf_horizontal_edge_w_sse2_8(s, p, _blimit, _limit, _thresh, bd);

+  highbd_mb_lpf_horizontal_edge_w_sse2_8(s + 8, p, _blimit, _limit, _thresh,

+                                         bd);

+}

+// TODO(yunqingwang): remove count and call these 2 functions(8 or 16) directly.

+void vp9_highbd_lpf_horizontal_16_sse2(uint16_t *s, int p,

+                                       const uint8_t *_blimit,

+                                       const uint8_t *_limit,

+                                       const uint8_t *_thresh,

+                                       int count, int bd) {

+  if (count == 1)

+    highbd_mb_lpf_horizontal_edge_w_sse2_8(s, p, _blimit, _limit, _thresh, bd);

+  else

+    highbd_mb_lpf_horizontal_edge_w_sse2_16(s, p, _blimit, _limit, _thresh, bd);

+}

+void vp9_highbd_lpf_horizontal_8_sse2(uint16_t *s, int p,

+                                      const uint8_t *_blimit,

+                                      const uint8_t *_limit,

+                                      const uint8_t *_thresh,

+                                      int count, int bd) {

+  DECLARE_ALIGNED(16, uint16_t, flat_op2[16]);

+  DECLARE_ALIGNED(16, uint16_t, flat_op1[16]);

+  DECLARE_ALIGNED(16, uint16_t, flat_op0[16]);

+  DECLARE_ALIGNED(16, uint16_t, flat_oq2[16]);

+  DECLARE_ALIGNED(16, uint16_t, flat_oq1[16]);

+  DECLARE_ALIGNED(16, uint16_t, flat_oq0[16]);

+  const __m128i zero = _mm_set1_epi16(0);

+  __m128i blimit, limit, thresh;

+  __m128i mask, hev, flat;

+  __m128i p3 = _mm_load_si128((__m128i *)(s - 4 * p));

+  __m128i q3 = _mm_load_si128((__m128i *)(s + 3 * p));

+  __m128i p2 = _mm_load_si128((__m128i *)(s - 3 * p));

+  __m128i q2 = _mm_load_si128((__m128i *)(s + 2 * p));

+  __m128i p1 = _mm_load_si128((__m128i *)(s - 2 * p));

+  __m128i q1 = _mm_load_si128((__m128i *)(s + 1 * p));

+  __m128i p0 = _mm_load_si128((__m128i *)(s - 1 * p));

+  __m128i q0 = _mm_load_si128((__m128i *)(s + 0 * p));

+  const __m128i one = _mm_set1_epi16(1);

+  const __m128i ffff = _mm_cmpeq_epi16(one, one);

+  __m128i abs_p1q1, abs_p0q0, abs_q1q0, abs_p1p0, work;

+  const __m128i four = _mm_set1_epi16(4);

+  __m128i workp_a, workp_b, workp_shft;

+  const __m128i t4 = _mm_set1_epi16(4);

+  const __m128i t3 = _mm_set1_epi16(3);

+  __m128i t80;

+  const __m128i t1 = _mm_set1_epi16(0x1);

+  __m128i ps1, ps0, qs0, qs1;

+  __m128i filt;

+  __m128i work_a;

+  __m128i filter1, filter2;

+  (void)count;

+  if (bd == 8) {

+    blimit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero);

+    limit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero);

+    thresh = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero);

+    t80 = _mm_set1_epi16(0x80);

+  } else if (bd == 10) {

+    blimit = _mm_slli_epi16(

+          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 2);

+    limit = _mm_slli_epi16(

+          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 2);

+    thresh = _mm_slli_epi16(

+          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 2);

+    t80 = _mm_set1_epi16(0x200);

+  } else {  // bd == 12

+    blimit = _mm_slli_epi16(

+          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 4);

+    limit = _mm_slli_epi16(

+          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 4);

+    thresh = _mm_slli_epi16(

+          _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 4);

+    t80 = _mm_set1_epi16(0x800);

+  }

+  ps1 = _mm_subs_epi16(p1, t80);

+  ps0 = _mm_subs_epi16(p0, t80);

+  qs0 = _mm_subs_epi16(q0, t80);

+  qs1 = _mm_subs_epi16(q1, t80);

+  // filter_mask and hev_mask

+  abs_p1p0 = _mm_or_si128(_mm_subs_epu16(p1, p0),

+                          _mm_subs_epu16(p0, p1));

+  abs_q1q0 = _mm_or_si128(_mm_subs_epu16(q1, q0),

+                          _mm_subs_epu16(q0, q1));

+  abs_p0q0 = _mm_or_si128(_mm_subs_epu16(p0, q0),

+                          _mm_subs_epu16(q0, p0));

+  abs_p1q1 = _mm_or_si128(_mm_subs_epu16(p1, q1),

+                          _mm_subs_epu16(q1, p1));

+  flat = _mm_max_epi16(abs_p1p0, abs_q1q0);

+  hev = _mm_subs_epu16(flat, thresh);

+  hev = _mm_xor_si128(_mm_cmpeq_epi16(hev, zero), ffff);

+  abs_p0q0 =_mm_adds_epu16(abs_p0q0, abs_p0q0);

+  abs_p1q1 = _mm_srli_epi16(abs_p1q1, 1);

+  mask = _mm_subs_epu16(_mm_adds_epu16(abs_p0q0, abs_p1q1), blimit);

+  mask = _mm_xor_si128(_mm_cmpeq_epi16(mask, zero), ffff);

+  // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

+  // So taking maximums continues to work:

+  mask = _mm_and_si128(mask, _mm_adds_epu16(limit, one));

+  mask = _mm_max_epi16(abs_p1p0, mask);

+  // mask |= (abs(p1 - p0) > limit) * -1;

+  mask = _mm_max_epi16(abs_q1q0, mask);

+  // mask |= (abs(q1 - q0) > limit) * -1;

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p2, p1),

+                                    _mm_subs_epu16(p1, p2)),

+                       _mm_or_si128(_mm_subs_epu16(q2, q1),

+                                    _mm_subs_epu16(q1, q2)));

+  mask = _mm_max_epi16(work, mask);

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p3, p2),

+                                    _mm_subs_epu16(p2, p3)),

+                       _mm_or_si128(_mm_subs_epu16(q3, q2),

+                                    _mm_subs_epu16(q2, q3)));

+  mask = _mm_max_epi16(work, mask);

+  mask = _mm_subs_epu16(mask, limit);

+  mask = _mm_cmpeq_epi16(mask, zero);

+  // flat_mask4

+  flat = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p2, p0),

+                                    _mm_subs_epu16(p0, p2)),

+                       _mm_or_si128(_mm_subs_epu16(q2, q0),

+                                    _mm_subs_epu16(q0, q2)));

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p3, p0),

+                                    _mm_subs_epu16(p0, p3)),

+                       _mm_or_si128(_mm_subs_epu16(q3, q0),

+                                    _mm_subs_epu16(q0, q3)));

+  flat = _mm_max_epi16(work, flat);

+  flat = _mm_max_epi16(abs_p1p0, flat);

+  flat = _mm_max_epi16(abs_q1q0, flat);

+  if (bd == 8)

+    flat = _mm_subs_epu16(flat, one);

+  else if (bd == 10)

+    flat = _mm_subs_epu16(flat, _mm_slli_epi16(one, 2));

+  else  // bd == 12

+    flat = _mm_subs_epu16(flat, _mm_slli_epi16(one, 4));

+  flat = _mm_cmpeq_epi16(flat, zero);

+  flat = _mm_and_si128(flat, mask);  // flat & mask

+  // Added before shift for rounding part of ROUND_POWER_OF_TWO

+  workp_a = _mm_add_epi16(_mm_add_epi16(p3, p3), _mm_add_epi16(p2, p1));

+  workp_a = _mm_add_epi16(_mm_add_epi16(workp_a, four), p0);

+  workp_b = _mm_add_epi16(_mm_add_epi16(q0, p2), p3);

+  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+  _mm_store_si128((__m128i *)&flat_op2[0], workp_shft);

+  workp_b = _mm_add_epi16(_mm_add_epi16(q0, q1), p1);

+  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+  _mm_store_si128((__m128i *)&flat_op1[0], workp_shft);

+  workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q2);

+  workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p1), p0);

+  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+  _mm_store_si128((__m128i *)&flat_op0[0], workp_shft);

+  workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q3);

+  workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p0), q0);

+  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+  _mm_store_si128((__m128i *)&flat_oq0[0], workp_shft);

+  workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p2), q3);

+  workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q0), q1);

+  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+  _mm_store_si128((__m128i *)&flat_oq1[0], workp_shft);

+  workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p1), q3);

+  workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q1), q2);

+  workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+  _mm_store_si128((__m128i *)&flat_oq2[0], workp_shft);

+  // lp filter

+  filt = signed_char_clamp_bd_sse2(_mm_subs_epi16(ps1, qs1), bd);

+  filt = _mm_and_si128(filt, hev);

+  work_a = _mm_subs_epi16(qs0, ps0);

+  filt = _mm_adds_epi16(filt, work_a);

+  filt = _mm_adds_epi16(filt, work_a);

+  filt = _mm_adds_epi16(filt, work_a);

+  // (vp9_filter + 3 * (qs0 - ps0)) & mask

+  filt = signed_char_clamp_bd_sse2(filt, bd);

+  filt = _mm_and_si128(filt, mask);

+  filter1 = _mm_adds_epi16(filt, t4);

+  filter2 = _mm_adds_epi16(filt, t3);

+  // Filter1 >> 3

+  filter1 = signed_char_clamp_bd_sse2(filter1, bd);

+  filter1 = _mm_srai_epi16(filter1, 3);

+  // Filter2 >> 3

+  filter2 = signed_char_clamp_bd_sse2(filter2, bd);

+  filter2 = _mm_srai_epi16(filter2, 3);

+  // filt >> 1

+  filt = _mm_adds_epi16(filter1, t1);

+  filt = _mm_srai_epi16(filt, 1);

+  // filter = ROUND_POWER_OF_TWO(filter1, 1) & ~hev;

+  filt = _mm_andnot_si128(hev, filt);

+  work_a = signed_char_clamp_bd_sse2(_mm_subs_epi16(qs0, filter1), bd);

+  work_a = _mm_adds_epi16(work_a, t80);

+  q0 = _mm_load_si128((__m128i *)flat_oq0);

+  work_a = _mm_andnot_si128(flat, work_a);

+  q0 = _mm_and_si128(flat, q0);

+  q0 = _mm_or_si128(work_a, q0);

+  work_a = signed_char_clamp_bd_sse2(_mm_subs_epi16(qs1, filt), bd);

+  work_a = _mm_adds_epi16(work_a, t80);

+  q1 = _mm_load_si128((__m128i *)flat_oq1);

+  work_a = _mm_andnot_si128(flat, work_a);

+  q1 = _mm_and_si128(flat, q1);

+  q1 = _mm_or_si128(work_a, q1);

+  work_a = _mm_loadu_si128((__m128i *)(s + 2 * p));

+  q2 = _mm_load_si128((__m128i *)flat_oq2);

+  work_a = _mm_andnot_si128(flat, work_a);

+  q2 = _mm_and_si128(flat, q2);

+  q2 = _mm_or_si128(work_a, q2);

+  work_a = signed_char_clamp_bd_sse2(_mm_adds_epi16(ps0, filter2), bd);

+  work_a = _mm_adds_epi16(work_a, t80);

+  p0 = _mm_load_si128((__m128i *)flat_op0);

+  work_a = _mm_andnot_si128(flat, work_a);

+  p0 = _mm_and_si128(flat, p0);

+  p0 = _mm_or_si128(work_a, p0);

+  work_a = signed_char_clamp_bd_sse2(_mm_adds_epi16(ps1, filt), bd);

+  work_a = _mm_adds_epi16(work_a, t80);

+  p1 = _mm_load_si128((__m128i *)flat_op1);

+  work_a = _mm_andnot_si128(flat, work_a);

+  p1 = _mm_and_si128(flat, p1);

+  p1 = _mm_or_si128(work_a, p1);

+  work_a = _mm_loadu_si128((__m128i *)(s - 3 * p));

+  p2 = _mm_load_si128((__m128i *)flat_op2);

+  work_a = _mm_andnot_si128(flat, work_a);

+  p2 = _mm_and_si128(flat, p2);

+  p2 = _mm_or_si128(work_a, p2);

+  _mm_store_si128((__m128i *)(s - 3 * p), p2);

+  _mm_store_si128((__m128i *)(s - 2 * p), p1);

+  _mm_store_si128((__m128i *)(s - 1 * p), p0);

+  _mm_store_si128((__m128i *)(s + 0 * p), q0);

+  _mm_store_si128((__m128i *)(s + 1 * p), q1);

+  _mm_store_si128((__m128i *)(s + 2 * p), q2);

+}

+void vp9_highbd_lpf_horizontal_8_dual_sse2(uint16_t *s, int p,

+                                           const uint8_t *_blimit0,

+                                           const uint8_t *_limit0,

+                                           const uint8_t *_thresh0,

+                                           const uint8_t *_blimit1,

+                                           const uint8_t *_limit1,

+                                           const uint8_t *_thresh1,

+                                           int bd) {

+  vp9_highbd_lpf_horizontal_8_sse2(s, p, _blimit0, _limit0, _thresh0, 1, bd);

+  vp9_highbd_lpf_horizontal_8_sse2(s + 8, p, _blimit1, _limit1, _thresh1,

+                                   1, bd);

+}

+void vp9_highbd_lpf_horizontal_4_sse2(uint16_t *s, int p,

+                                      const uint8_t *_blimit,

+                                      const uint8_t *_limit,

+                                      const uint8_t *_thresh,

+                                      int count, int bd) {

+  const __m128i zero = _mm_set1_epi16(0);

+  __m128i blimit, limit, thresh;

+  __m128i mask, hev, flat;

+  __m128i p3 = _mm_loadu_si128((__m128i *)(s - 4 * p));

+  __m128i p2 = _mm_loadu_si128((__m128i *)(s - 3 * p));

+  __m128i p1 = _mm_loadu_si128((__m128i *)(s - 2 * p));

+  __m128i p0 = _mm_loadu_si128((__m128i *)(s - 1 * p));

+  __m128i q0 = _mm_loadu_si128((__m128i *)(s - 0 * p));

+  __m128i q1 = _mm_loadu_si128((__m128i *)(s + 1 * p));

+  __m128i q2 = _mm_loadu_si128((__m128i *)(s + 2 * p));

+  __m128i q3 = _mm_loadu_si128((__m128i *)(s + 3 * p));

+  const __m128i abs_p1p0 = _mm_or_si128(_mm_subs_epu16(p1, p0),

+                                        _mm_subs_epu16(p0, p1));

+  const __m128i abs_q1q0 = _mm_or_si128(_mm_subs_epu16(q1, q0),

+                                        _mm_subs_epu16(q0, q1));

+  const __m128i ffff = _mm_cmpeq_epi16(abs_p1p0, abs_p1p0);

+  const __m128i one = _mm_set1_epi16(1);

+  __m128i abs_p0q0 = _mm_or_si128(_mm_subs_epu16(p0, q0),

+                                  _mm_subs_epu16(q0, p0));

+  __m128i abs_p1q1 = _mm_or_si128(_mm_subs_epu16(p1, q1),

+                                  _mm_subs_epu16(q1, p1));

+  __m128i work;

+  const __m128i t4 = _mm_set1_epi16(4);

+  const __m128i t3 = _mm_set1_epi16(3);

+  __m128i t80;

+  __m128i tff80;

+  __m128i tffe0;

+  __m128i t1f;

+  // equivalent to shifting 0x1f left by bitdepth - 8

+  // and setting new bits to 1

+  const __m128i t1 = _mm_set1_epi16(0x1);

+  __m128i t7f;

+  // equivalent to shifting 0x7f left by bitdepth - 8

+  // and setting new bits to 1

+  __m128i ps1, ps0, qs0, qs1;

+  __m128i filt;

+  __m128i work_a;

+  __m128i filter1, filter2;

+  (void)count;

+  if (bd == 8) {

+    blimit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero);

+    limit = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero);

+    thresh = _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero);

+    t80 = _mm_set1_epi16(0x80);

+    tff80 = _mm_set1_epi16(0xff80);

+    tffe0 = _mm_set1_epi16(0xffe0);

+    t1f = _mm_srli_epi16(_mm_set1_epi16(0x1fff), 8);

+    t7f = _mm_srli_epi16(_mm_set1_epi16(0x7fff), 8);

+  } else if (bd == 10) {

+    blimit = _mm_slli_epi16(

+        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 2);

+    limit = _mm_slli_epi16(

+        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 2);

+    thresh = _mm_slli_epi16(

+        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 2);

+    t80 = _mm_slli_epi16(_mm_set1_epi16(0x80), 2);

+    tff80 = _mm_slli_epi16(_mm_set1_epi16(0xff80), 2);

+    tffe0 = _mm_slli_epi16(_mm_set1_epi16(0xffe0), 2);

+    t1f = _mm_srli_epi16(_mm_set1_epi16(0x1fff), 6);

+    t7f = _mm_srli_epi16(_mm_set1_epi16(0x7fff), 6);

+  } else {  // bd == 12

+    blimit = _mm_slli_epi16(

+        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_blimit), zero), 4);

+    limit = _mm_slli_epi16(

+        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_limit), zero), 4);

+    thresh = _mm_slli_epi16(

+        _mm_unpacklo_epi8(_mm_load_si128((const __m128i *)_thresh), zero), 4);

+    t80 = _mm_slli_epi16(_mm_set1_epi16(0x80), 4);

+    tff80 = _mm_slli_epi16(_mm_set1_epi16(0xff80), 4);

+    tffe0 = _mm_slli_epi16(_mm_set1_epi16(0xffe0), 4);

+    t1f = _mm_srli_epi16(_mm_set1_epi16(0x1fff), 4);

+    t7f = _mm_srli_epi16(_mm_set1_epi16(0x7fff), 4);

+  }

+  ps1 = _mm_subs_epi16(_mm_loadu_si128((__m128i *)(s - 2 * p)), t80);

+  ps0 = _mm_subs_epi16(_mm_loadu_si128((__m128i *)(s - 1 * p)), t80);

+  qs0 = _mm_subs_epi16(_mm_loadu_si128((__m128i *)(s + 0 * p)), t80);

+  qs1 = _mm_subs_epi16(_mm_loadu_si128((__m128i *)(s + 1 * p)), t80);

+  // filter_mask and hev_mask

+  flat = _mm_max_epi16(abs_p1p0, abs_q1q0);

+  hev = _mm_subs_epu16(flat, thresh);

+  hev = _mm_xor_si128(_mm_cmpeq_epi16(hev, zero), ffff);

+  abs_p0q0 =_mm_adds_epu16(abs_p0q0, abs_p0q0);

+  abs_p1q1 = _mm_srli_epi16(abs_p1q1, 1);

+  mask = _mm_subs_epu16(_mm_adds_epu16(abs_p0q0, abs_p1q1), blimit);

+  mask = _mm_xor_si128(_mm_cmpeq_epi16(mask, zero), ffff);

+  // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

+  // So taking maximums continues to work:

+  mask = _mm_and_si128(mask, _mm_adds_epu16(limit, one));

+  mask = _mm_max_epi16(flat, mask);

+  // mask |= (abs(p1 - p0) > limit) * -1;

+  // mask |= (abs(q1 - q0) > limit) * -1;

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(p2, p1),

+                                    _mm_subs_epu16(p1, p2)),

+                       _mm_or_si128(_mm_subs_epu16(p3, p2),

+                                    _mm_subs_epu16(p2, p3)));

+  mask = _mm_max_epi16(work, mask);

+  work = _mm_max_epi16(_mm_or_si128(_mm_subs_epu16(q2, q1),

+                                    _mm_subs_epu16(q1, q2)),

+                       _mm_or_si128(_mm_subs_epu16(q3, q2),

+                                    _mm_subs_epu16(q2, q3)));

+  mask = _mm_max_epi16(work, mask);

+  mask = _mm_subs_epu16(mask, limit);

+  mask = _mm_cmpeq_epi16(mask, zero);

+  // filter4

+  filt = signed_char_clamp_bd_sse2(_mm_subs_epi16(ps1, qs1), bd);

+  filt = _mm_and_si128(filt, hev);

+  work_a = _mm_subs_epi16(qs0, ps0);

+  filt = _mm_adds_epi16(filt, work_a);

+  filt = _mm_adds_epi16(filt, work_a);

+  filt = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, work_a), bd);

+  // (vp9_filter + 3 * (qs0 - ps0)) & mask

+  filt = _mm_and_si128(filt, mask);

+  filter1 = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, t4), bd);

+  filter2 = signed_char_clamp_bd_sse2(_mm_adds_epi16(filt, t3), bd);

+  // Filter1 >> 3

+  work_a = _mm_cmpgt_epi16(zero, filter1);  // get the values that are <0

+  filter1 = _mm_srli_epi16(filter1, 3);

+  work_a = _mm_and_si128(work_a, tffe0);  // sign bits for the values < 0

+  filter1 = _mm_and_si128(filter1, t1f);  // clamp the range

+  filter1 = _mm_or_si128(filter1, work_a);  // reinsert the sign bits

+  // Filter2 >> 3

+  work_a = _mm_cmpgt_epi16(zero, filter2);

+  filter2 = _mm_srli_epi16(filter2, 3);

+  work_a = _mm_and_si128(work_a, tffe0);

+  filter2 = _mm_and_si128(filter2, t1f);

+  filter2 = _mm_or_si128(filter2, work_a);

+  // filt >> 1

+  filt = _mm_adds_epi16(filter1, t1);

+  work_a = _mm_cmpgt_epi16(zero, filt);

+  filt = _mm_srli_epi16(filt, 1);

+  work_a = _mm_and_si128(work_a, tff80);

+  filt = _mm_and_si128(filt, t7f);

+  filt = _mm_or_si128(filt, work_a);

+  filt = _mm_andnot_si128(hev, filt);

+  q0 = _mm_adds_epi16(

+      signed_char_clamp_bd_sse2(_mm_subs_epi16(qs0, filter1), bd), t80);

+  q1 = _mm_adds_epi16(

+      signed_char_clamp_bd_sse2(_mm_subs_epi16(qs1, filt), bd), t80);

+  p0 = _mm_adds_epi16(

+      signed_char_clamp_bd_sse2(_mm_adds_epi16(ps0, filter2), bd), t80);

+  p1 = _mm_adds_epi16(

+      signed_char_clamp_bd_sse2(_mm_adds_epi16(ps1, filt), bd), t80);

+  _mm_storeu_si128((__m128i *)(s - 2 * p), p1);

+  _mm_storeu_si128((__m128i *)(s - 1 * p), p0);

+  _mm_storeu_si128((__m128i *)(s + 0 * p), q0);

+  _mm_storeu_si128((__m128i *)(s + 1 * p), q1);

+}

+void vp9_highbd_lpf_horizontal_4_dual_sse2(uint16_t *s, int p,

+                                           const uint8_t *_blimit0,

+                                           const uint8_t *_limit0,

+                                           const uint8_t *_thresh0,

+                                           const uint8_t *_blimit1,

+                                           const uint8_t *_limit1,

+                                           const uint8_t *_thresh1,

+                                           int bd) {

+  vp9_highbd_lpf_horizontal_4_sse2(s, p, _blimit0, _limit0, _thresh0, 1, bd);

+  vp9_highbd_lpf_horizontal_4_sse2(s + 8, p, _blimit1, _limit1, _thresh1, 1,

+                                   bd);

+}

+static INLINE void highbd_transpose(uint16_t *src[], int in_p,

+                                    uint16_t *dst[], int out_p,

+                                    int num_8x8_to_transpose) {

+  int idx8x8 = 0;

+  __m128i p0, p1, p2, p3, p4, p5, p6, p7, x0, x1, x2, x3, x4, x5, x6, x7;

+  do {

+    uint16_t *in = src[idx8x8];

+    uint16_t *out = dst[idx8x8];

+    p0 = _mm_loadu_si128((__m128i *)(in + 0*in_p));  // 00 01 02 03 04 05 06 07

+    p1 = _mm_loadu_si128((__m128i *)(in + 1*in_p));  // 10 11 12 13 14 15 16 17

+    p2 = _mm_loadu_si128((__m128i *)(in + 2*in_p));  // 20 21 22 23 24 25 26 27

+    p3 = _mm_loadu_si128((__m128i *)(in + 3*in_p));  // 30 31 32 33 34 35 36 37

+    p4 = _mm_loadu_si128((__m128i *)(in + 4*in_p));  // 40 41 42 43 44 45 46 47

+    p5 = _mm_loadu_si128((__m128i *)(in + 5*in_p));  // 50 51 52 53 54 55 56 57

+    p6 = _mm_loadu_si128((__m128i *)(in + 6*in_p));  // 60 61 62 63 64 65 66 67

+    p7 = _mm_loadu_si128((__m128i *)(in + 7*in_p));  // 70 71 72 73 74 75 76 77

+    // 00 10 01 11 02 12 03 13

+    x0 = _mm_unpacklo_epi16(p0, p1);

+    // 20 30 21 31 22 32 23 33

+    x1 = _mm_unpacklo_epi16(p2, p3);

+    // 40 50 41 51 42 52 43 53

+    x2 = _mm_unpacklo_epi16(p4, p5);

+    // 60 70 61 71 62 72 63 73

+    x3 = _mm_unpacklo_epi16(p6, p7);

+    // 00 10 20 30 01 11 21 31

+    x4 = _mm_unpacklo_epi32(x0, x1);

+    // 40 50 60 70 41 51 61 71

+    x5 = _mm_unpacklo_epi32(x2, x3);

+    // 00 10 20 30 40 50 60 70

+    x6 = _mm_unpacklo_epi64(x4, x5);

+    // 01 11 21 31 41 51 61 71

+    x7 = _mm_unpackhi_epi64(x4, x5);

+    _mm_storeu_si128((__m128i *)(out + 0*out_p), x6);

+    // 00 10 20 30 40 50 60 70

+    _mm_storeu_si128((__m128i *)(out + 1*out_p), x7);

+    // 01 11 21 31 41 51 61 71

+    // 02 12 22 32 03 13 23 33

+    x4 = _mm_unpackhi_epi32(x0, x1);

+    // 42 52 62 72 43 53 63 73

+    x5 = _mm_unpackhi_epi32(x2, x3);

+    // 02 12 22 32 42 52 62 72

+    x6 = _mm_unpacklo_epi64(x4, x5);

+    // 03 13 23 33 43 53 63 73

+    x7 = _mm_unpackhi_epi64(x4, x5);

+    _mm_storeu_si128((__m128i *)(out + 2*out_p), x6);

+    // 02 12 22 32 42 52 62 72

+    _mm_storeu_si128((__m128i *)(out + 3*out_p), x7);

+    // 03 13 23 33 43 53 63 73

+    // 04 14 05 15 06 16 07 17

+    x0 = _mm_unpackhi_epi16(p0, p1);

+    // 24 34 25 35 26 36 27 37

+    x1 = _mm_unpackhi_epi16(p2, p3);

+    // 44 54 45 55 46 56 47 57

+    x2 = _mm_unpackhi_epi16(p4, p5);

+    // 64 74 65 75 66 76 67 77

+    x3 = _mm_unpackhi_epi16(p6, p7);

+    // 04 14 24 34 05 15 25 35

+    x4 = _mm_unpacklo_epi32(x0, x1);

+    // 44 54 64 74 45 55 65 75

+    x5 = _mm_unpacklo_epi32(x2, x3);

+    // 04 14 24 34 44 54 64 74

+    x6 = _mm_unpacklo_epi64(x4, x5);

+    // 05 15 25 35 45 55 65 75

+    x7 = _mm_unpackhi_epi64(x4, x5);

+    _mm_storeu_si128((__m128i *)(out + 4*out_p), x6);

+    // 04 14 24 34 44 54 64 74

+    _mm_storeu_si128((__m128i *)(out + 5*out_p), x7);

+    // 05 15 25 35 45 55 65 75

+    // 06 16 26 36 07 17 27 37

+    x4 = _mm_unpackhi_epi32(x0, x1);

+    // 46 56 66 76 47 57 67 77

+    x5 = _mm_unpackhi_epi32(x2, x3);

+    // 06 16 26 36 46 56 66 76

+    x6 = _mm_unpacklo_epi64(x4, x5);

+    // 07 17 27 37 47 57 67 77

+    x7 = _mm_unpackhi_epi64(x4, x5);

+    _mm_storeu_si128((__m128i *)(out + 6*out_p), x6);

+    // 06 16 26 36 46 56 66 76

+    _mm_storeu_si128((__m128i *)(out + 7*out_p), x7);

+    // 07 17 27 37 47 57 67 77

+  } while (++idx8x8 < num_8x8_to_transpose);

+}

+static INLINE void highbd_transpose8x16(uint16_t *in0, uint16_t *in1,

+                                        int in_p, uint16_t *out, int out_p) {

+  uint16_t *src0[1];

+  uint16_t *src1[1];

+  uint16_t *dest0[1];

+  uint16_t *dest1[1];

+  src0[0] = in0;

+  src1[0] = in1;

+  dest0[0] = out;

+  dest1[0] = out + 8;

+  highbd_transpose(src0, in_p, dest0, out_p, 1);

+  highbd_transpose(src1, in_p, dest1, out_p, 1);

+}

+void vp9_highbd_lpf_vertical_4_sse2(uint16_t *s, int p,

+                                    const uint8_t *blimit,

+                                    const uint8_t *limit,

+                                    const uint8_t *thresh,

+                                    int count, int bd) {

+  DECLARE_ALIGNED(16, uint16_t, t_dst[8 * 8]);

+  uint16_t *src[1];

+  uint16_t *dst[1];

+  (void)count;

+  // Transpose 8x8

+  src[0] = s - 4;

+  dst[0] = t_dst;

+  highbd_transpose(src, p, dst, 8, 1);

+  // Loop filtering

+  vp9_highbd_lpf_horizontal_4_sse2(t_dst + 4 * 8, 8, blimit, limit, thresh, 1,

+                                   bd);

+  src[0] = t_dst;

+  dst[0] = s - 4;

+  // Transpose back

+  highbd_transpose(src, 8, dst, p, 1);

+}

+void vp9_highbd_lpf_vertical_4_dual_sse2(uint16_t *s, int p,

+                                         const uint8_t *blimit0,

+                                         const uint8_t *limit0,

+                                         const uint8_t *thresh0,

+                                         const uint8_t *blimit1,

+                                         const uint8_t *limit1,

+                                         const uint8_t *thresh1,

+                                         int bd) {

+  DECLARE_ALIGNED(16, uint16_t, t_dst[16 * 8]);

+  uint16_t *src[2];

+  uint16_t *dst[2];

+  // Transpose 8x16

+  highbd_transpose8x16(s - 4, s - 4 + p * 8, p, t_dst, 16);

+  // Loop filtering

+  vp9_highbd_lpf_horizontal_4_dual_sse2(t_dst + 4 * 16, 16, blimit0, limit0,

+                                        thresh0, blimit1, limit1, thresh1, bd);

+  src[0] = t_dst;

+  src[1] = t_dst + 8;

+  dst[0] = s - 4;

+  dst[1] = s - 4 + p * 8;

+  // Transpose back

+  highbd_transpose(src, 16, dst, p, 2);

+}

+void vp9_highbd_lpf_vertical_8_sse2(uint16_t *s, int p,

+                                    const uint8_t *blimit,

+                                    const uint8_t *limit,

+                                    const uint8_t *thresh,

+                                    int count, int bd) {

+  DECLARE_ALIGNED(16, uint16_t, t_dst[8 * 8]);

+  uint16_t *src[1];

+  uint16_t *dst[1];

+  (void)count;

+  // Transpose 8x8

+  src[0] = s - 4;

+  dst[0] = t_dst;

+  highbd_transpose(src, p, dst, 8, 1);

+  // Loop filtering

+  vp9_highbd_lpf_horizontal_8_sse2(t_dst + 4 * 8, 8, blimit, limit, thresh, 1,

+                                   bd);

+  src[0] = t_dst;

+  dst[0] = s - 4;

+  // Transpose back

+  highbd_transpose(src, 8, dst, p, 1);

+}

+void vp9_highbd_lpf_vertical_8_dual_sse2(uint16_t *s, int p,

+                                         const uint8_t *blimit0,

+                                         const uint8_t *limit0,

+                                         const uint8_t *thresh0,

+                                         const uint8_t *blimit1,

+                                         const uint8_t *limit1,

+                                         const uint8_t *thresh1,

+                                         int bd) {

+  DECLARE_ALIGNED(16, uint16_t, t_dst[16 * 8]);

+  uint16_t *src[2];

+  uint16_t *dst[2];

+  // Transpose 8x16

+  highbd_transpose8x16(s - 4, s - 4 + p * 8, p, t_dst, 16);

+  // Loop filtering

+  vp9_highbd_lpf_horizontal_8_dual_sse2(t_dst + 4 * 16, 16, blimit0, limit0,

+                                        thresh0, blimit1, limit1, thresh1, bd);

+  src[0] = t_dst;

+  src[1] = t_dst + 8;

+  dst[0] = s - 4;

+  dst[1] = s - 4 + p * 8;

+  // Transpose back

+  highbd_transpose(src, 16, dst, p, 2);

+}

+void vp9_highbd_lpf_vertical_16_sse2(uint16_t *s, int p,

+                                     const uint8_t *blimit,

+                                     const uint8_t *limit,

+                                     const uint8_t *thresh,

+                                     int bd) {

+  DECLARE_ALIGNED(16, uint16_t, t_dst[8 * 16]);

+  uint16_t *src[2];

+  uint16_t *dst[2];

+  src[0] = s - 8;

+  src[1] = s;

+  dst[0] = t_dst;

+  dst[1] = t_dst + 8 * 8;

+  // Transpose 16x8

+  highbd_transpose(src, p, dst, 8, 2);

+  // Loop filtering

+  highbd_mb_lpf_horizontal_edge_w_sse2_8(t_dst + 8 * 8, 8, blimit, limit,

+                                         thresh, bd);

+  src[0] = t_dst;

+  src[1] = t_dst + 8 * 8;

+  dst[0] = s - 8;

+  dst[1] = s;

+  // Transpose back

+  highbd_transpose(src, 8, dst, p, 2);

+}

+void vp9_highbd_lpf_vertical_16_dual_sse2(uint16_t *s,

+                                          int p,

+                                          const uint8_t *blimit,

+                                          const uint8_t *limit,

+                                          const uint8_t *thresh,

+                                          int bd) {

+  DECLARE_ALIGNED(16, uint16_t, t_dst[256]);

+  //  Transpose 16x16

+  highbd_transpose8x16(s - 8, s - 8 + 8 * p, p, t_dst, 16);

+  highbd_transpose8x16(s, s + 8 * p, p, t_dst + 8 * 16, 16);

+  //  Loop filtering

+  highbd_mb_lpf_horizontal_edge_w_sse2_16(t_dst + 8 * 16, 16, blimit, limit,

+                                          thresh, bd);

+  //  Transpose back

+  highbd_transpose8x16(t_dst, t_dst + 8 * 16, 16, s - 8, p);

+  highbd_transpose8x16(t_dst + 8, t_dst + 8 + 8 * 16, 16, s - 8 + 8 * p, p);

+}

--- /dev/null

+++ b/vpx_dsp/x86/loopfilter_avx2.c

@@ -1,0 +1,986 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include <immintrin.h>  /* AVX2 */

+#include "./vpx_dsp_rtcd.h"

+#include "vpx_ports/mem.h"

+static void mb_lpf_horizontal_edge_w_avx2_8(unsigned char *s, int p,

+        const unsigned char *_blimit, const unsigned char *_limit,

+        const unsigned char *_thresh) {

+    __m128i mask, hev, flat, flat2;

+    const __m128i zero = _mm_set1_epi16(0);

+    const __m128i one = _mm_set1_epi8(1);

+    __m128i q7p7, q6p6, q5p5, q4p4, q3p3, q2p2, q1p1, q0p0, p0q0, p1q1;

+    __m128i abs_p1p0;

+    const __m128i thresh = _mm_broadcastb_epi8(

+            _mm_cvtsi32_si128((int) _thresh[0]));

+    const __m128i limit = _mm_broadcastb_epi8(

+            _mm_cvtsi32_si128((int) _limit[0]));

+    const __m128i blimit = _mm_broadcastb_epi8(

+            _mm_cvtsi32_si128((int) _blimit[0]));

+    q4p4 = _mm_loadl_epi64((__m128i *) (s - 5 * p));

+    q4p4 = _mm_castps_si128(

+            _mm_loadh_pi(_mm_castsi128_ps(q4p4), (__m64 *) (s + 4 * p)));

+    q3p3 = _mm_loadl_epi64((__m128i *) (s - 4 * p));

+    q3p3 = _mm_castps_si128(

+            _mm_loadh_pi(_mm_castsi128_ps(q3p3), (__m64 *) (s + 3 * p)));

+    q2p2 = _mm_loadl_epi64((__m128i *) (s - 3 * p));

+    q2p2 = _mm_castps_si128(

+            _mm_loadh_pi(_mm_castsi128_ps(q2p2), (__m64 *) (s + 2 * p)));

+    q1p1 = _mm_loadl_epi64((__m128i *) (s - 2 * p));

+    q1p1 = _mm_castps_si128(

+            _mm_loadh_pi(_mm_castsi128_ps(q1p1), (__m64 *) (s + 1 * p)));

+    p1q1 = _mm_shuffle_epi32(q1p1, 78);

+    q0p0 = _mm_loadl_epi64((__m128i *) (s - 1 * p));

+    q0p0 = _mm_castps_si128(

+            _mm_loadh_pi(_mm_castsi128_ps(q0p0), (__m64 *) (s - 0 * p)));

+    p0q0 = _mm_shuffle_epi32(q0p0, 78);

+    {

+        __m128i abs_p1q1, abs_p0q0, abs_q1q0, fe, ff, work;

+        abs_p1p0 = _mm_or_si128(_mm_subs_epu8(q1p1, q0p0),

+                _mm_subs_epu8(q0p0, q1p1));

+        abs_q1q0 = _mm_srli_si128(abs_p1p0, 8);

+        fe = _mm_set1_epi8(0xfe);

+        ff = _mm_cmpeq_epi8(abs_p1p0, abs_p1p0);

+        abs_p0q0 = _mm_or_si128(_mm_subs_epu8(q0p0, p0q0),

+                _mm_subs_epu8(p0q0, q0p0));

+        abs_p1q1 = _mm_or_si128(_mm_subs_epu8(q1p1, p1q1),

+                _mm_subs_epu8(p1q1, q1p1));

+        flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

+        hev = _mm_subs_epu8(flat, thresh);

+        hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

+        abs_p0q0 = _mm_adds_epu8(abs_p0q0, abs_p0q0);

+        abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

+        mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

+        mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

+        // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

+        mask = _mm_max_epu8(abs_p1p0, mask);

+        // mask |= (abs(p1 - p0) > limit) * -1;

+        // mask |= (abs(q1 - q0) > limit) * -1;

+        work = _mm_max_epu8(

+                _mm_or_si128(_mm_subs_epu8(q2p2, q1p1),

+                        _mm_subs_epu8(q1p1, q2p2)),

+                _mm_or_si128(_mm_subs_epu8(q3p3, q2p2),

+                        _mm_subs_epu8(q2p2, q3p3)));

+        mask = _mm_max_epu8(work, mask);

+        mask = _mm_max_epu8(mask, _mm_srli_si128(mask, 8));

+        mask = _mm_subs_epu8(mask, limit);

+        mask = _mm_cmpeq_epi8(mask, zero);

+    }

+    // lp filter

+    {

+        const __m128i t4 = _mm_set1_epi8(4);

+        const __m128i t3 = _mm_set1_epi8(3);

+        const __m128i t80 = _mm_set1_epi8(0x80);

+        const __m128i t1 = _mm_set1_epi16(0x1);

+        __m128i qs1ps1 = _mm_xor_si128(q1p1, t80);

+        __m128i qs0ps0 = _mm_xor_si128(q0p0, t80);

+        __m128i qs0 = _mm_xor_si128(p0q0, t80);

+        __m128i qs1 = _mm_xor_si128(p1q1, t80);

+        __m128i filt;

+        __m128i work_a;

+        __m128i filter1, filter2;

+        __m128i flat2_q6p6, flat2_q5p5, flat2_q4p4, flat2_q3p3, flat2_q2p2;

+        __m128i flat2_q1p1, flat2_q0p0, flat_q2p2, flat_q1p1, flat_q0p0;

+        filt = _mm_and_si128(_mm_subs_epi8(qs1ps1, qs1), hev);

+        work_a = _mm_subs_epi8(qs0, qs0ps0);

+        filt = _mm_adds_epi8(filt, work_a);

+        filt = _mm_adds_epi8(filt, work_a);

+        filt = _mm_adds_epi8(filt, work_a);

+        /* (vp9_filter + 3 * (qs0 - ps0)) & mask */

+        filt = _mm_and_si128(filt, mask);

+        filter1 = _mm_adds_epi8(filt, t4);

+        filter2 = _mm_adds_epi8(filt, t3);

+        filter1 = _mm_unpacklo_epi8(zero, filter1);

+        filter1 = _mm_srai_epi16(filter1, 0xB);

+        filter2 = _mm_unpacklo_epi8(zero, filter2);

+        filter2 = _mm_srai_epi16(filter2, 0xB);

+        /* Filter1 >> 3 */

+        filt = _mm_packs_epi16(filter2, _mm_subs_epi16(zero, filter1));

+        qs0ps0 = _mm_xor_si128(_mm_adds_epi8(qs0ps0, filt), t80);

+        /* filt >> 1 */

+        filt = _mm_adds_epi16(filter1, t1);

+        filt = _mm_srai_epi16(filt, 1);

+        filt = _mm_andnot_si128(

+                _mm_srai_epi16(_mm_unpacklo_epi8(zero, hev), 0x8), filt);

+        filt = _mm_packs_epi16(filt, _mm_subs_epi16(zero, filt));

+        qs1ps1 = _mm_xor_si128(_mm_adds_epi8(qs1ps1, filt), t80);

+        // loopfilter done

+        {

+            __m128i work;

+            flat = _mm_max_epu8(

+                    _mm_or_si128(_mm_subs_epu8(q2p2, q0p0),

+                            _mm_subs_epu8(q0p0, q2p2)),

+                    _mm_or_si128(_mm_subs_epu8(q3p3, q0p0),

+                            _mm_subs_epu8(q0p0, q3p3)));

+            flat = _mm_max_epu8(abs_p1p0, flat);

+            flat = _mm_max_epu8(flat, _mm_srli_si128(flat, 8));

+            flat = _mm_subs_epu8(flat, one);

+            flat = _mm_cmpeq_epi8(flat, zero);

+            flat = _mm_and_si128(flat, mask);

+            q5p5 = _mm_loadl_epi64((__m128i *) (s - 6 * p));

+            q5p5 = _mm_castps_si128(

+                    _mm_loadh_pi(_mm_castsi128_ps(q5p5),

+                            (__m64 *) (s + 5 * p)));

+            q6p6 = _mm_loadl_epi64((__m128i *) (s - 7 * p));

+            q6p6 = _mm_castps_si128(

+                    _mm_loadh_pi(_mm_castsi128_ps(q6p6),

+                            (__m64 *) (s + 6 * p)));

+            flat2 = _mm_max_epu8(

+                    _mm_or_si128(_mm_subs_epu8(q4p4, q0p0),

+                            _mm_subs_epu8(q0p0, q4p4)),

+                    _mm_or_si128(_mm_subs_epu8(q5p5, q0p0),

+                            _mm_subs_epu8(q0p0, q5p5)));

+            q7p7 = _mm_loadl_epi64((__m128i *) (s - 8 * p));

+            q7p7 = _mm_castps_si128(

+                    _mm_loadh_pi(_mm_castsi128_ps(q7p7),

+                            (__m64 *) (s + 7 * p)));

+            work = _mm_max_epu8(

+                    _mm_or_si128(_mm_subs_epu8(q6p6, q0p0),

+                            _mm_subs_epu8(q0p0, q6p6)),

+                    _mm_or_si128(_mm_subs_epu8(q7p7, q0p0),

+                            _mm_subs_epu8(q0p0, q7p7)));

+            flat2 = _mm_max_epu8(work, flat2);

+            flat2 = _mm_max_epu8(flat2, _mm_srli_si128(flat2, 8));

+            flat2 = _mm_subs_epu8(flat2, one);

+            flat2 = _mm_cmpeq_epi8(flat2, zero);

+            flat2 = _mm_and_si128(flat2, flat);  // flat2 & flat & mask

+        }

+        // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+        // flat and wide flat calculations

+        {

+            const __m128i eight = _mm_set1_epi16(8);

+            const __m128i four = _mm_set1_epi16(4);

+            __m128i p7_16, p6_16, p5_16, p4_16, p3_16, p2_16, p1_16, p0_16;

+            __m128i q7_16, q6_16, q5_16, q4_16, q3_16, q2_16, q1_16, q0_16;

+            __m128i pixelFilter_p, pixelFilter_q;

+            __m128i pixetFilter_p2p1p0, pixetFilter_q2q1q0;

+            __m128i sum_p7, sum_q7, sum_p3, sum_q3, res_p, res_q;

+            p7_16 = _mm_unpacklo_epi8(q7p7, zero);

+            p6_16 = _mm_unpacklo_epi8(q6p6, zero);

+            p5_16 = _mm_unpacklo_epi8(q5p5, zero);

+            p4_16 = _mm_unpacklo_epi8(q4p4, zero);

+            p3_16 = _mm_unpacklo_epi8(q3p3, zero);

+            p2_16 = _mm_unpacklo_epi8(q2p2, zero);

+            p1_16 = _mm_unpacklo_epi8(q1p1, zero);

+            p0_16 = _mm_unpacklo_epi8(q0p0, zero);

+            q0_16 = _mm_unpackhi_epi8(q0p0, zero);

+            q1_16 = _mm_unpackhi_epi8(q1p1, zero);

+            q2_16 = _mm_unpackhi_epi8(q2p2, zero);

+            q3_16 = _mm_unpackhi_epi8(q3p3, zero);

+            q4_16 = _mm_unpackhi_epi8(q4p4, zero);

+            q5_16 = _mm_unpackhi_epi8(q5p5, zero);

+            q6_16 = _mm_unpackhi_epi8(q6p6, zero);

+            q7_16 = _mm_unpackhi_epi8(q7p7, zero);

+            pixelFilter_p = _mm_add_epi16(_mm_add_epi16(p6_16, p5_16),

+                    _mm_add_epi16(p4_16, p3_16));

+            pixelFilter_q = _mm_add_epi16(_mm_add_epi16(q6_16, q5_16),

+                    _mm_add_epi16(q4_16, q3_16));

+            pixetFilter_p2p1p0 = _mm_add_epi16(p0_16,

+                    _mm_add_epi16(p2_16, p1_16));

+            pixelFilter_p = _mm_add_epi16(pixelFilter_p, pixetFilter_p2p1p0);

+            pixetFilter_q2q1q0 = _mm_add_epi16(q0_16,

+                    _mm_add_epi16(q2_16, q1_16));

+            pixelFilter_q = _mm_add_epi16(pixelFilter_q, pixetFilter_q2q1q0);

+            pixelFilter_p = _mm_add_epi16(eight,

+                    _mm_add_epi16(pixelFilter_p, pixelFilter_q));

+            pixetFilter_p2p1p0 = _mm_add_epi16(four,

+                    _mm_add_epi16(pixetFilter_p2p1p0, pixetFilter_q2q1q0));

+            res_p = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(p7_16, p0_16)),

+                    4);

+            res_q = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(q7_16, q0_16)),

+                    4);

+            flat2_q0p0 = _mm_packus_epi16(res_p, res_q);

+            res_p = _mm_srli_epi16(

+                    _mm_add_epi16(pixetFilter_p2p1p0,

+                            _mm_add_epi16(p3_16, p0_16)), 3);

+            res_q = _mm_srli_epi16(

+                    _mm_add_epi16(pixetFilter_p2p1p0,

+                            _mm_add_epi16(q3_16, q0_16)), 3);

+            flat_q0p0 = _mm_packus_epi16(res_p, res_q);

+            sum_p7 = _mm_add_epi16(p7_16, p7_16);

+            sum_q7 = _mm_add_epi16(q7_16, q7_16);

+            sum_p3 = _mm_add_epi16(p3_16, p3_16);

+            sum_q3 = _mm_add_epi16(q3_16, q3_16);

+            pixelFilter_q = _mm_sub_epi16(pixelFilter_p, p6_16);

+            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q6_16);

+            res_p = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p1_16)),

+                    4);

+            res_q = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q1_16)),

+                    4);

+            flat2_q1p1 = _mm_packus_epi16(res_p, res_q);

+            pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_p2p1p0, p2_16);

+            pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q2_16);

+            res_p = _mm_srli_epi16(

+                    _mm_add_epi16(pixetFilter_p2p1p0,

+                            _mm_add_epi16(sum_p3, p1_16)), 3);

+            res_q = _mm_srli_epi16(

+                    _mm_add_epi16(pixetFilter_q2q1q0,

+                            _mm_add_epi16(sum_q3, q1_16)), 3);

+            flat_q1p1 = _mm_packus_epi16(res_p, res_q);

+            sum_p7 = _mm_add_epi16(sum_p7, p7_16);

+            sum_q7 = _mm_add_epi16(sum_q7, q7_16);

+            sum_p3 = _mm_add_epi16(sum_p3, p3_16);

+            sum_q3 = _mm_add_epi16(sum_q3, q3_16);

+            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q5_16);

+            pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p5_16);

+            res_p = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p2_16)),

+                    4);

+            res_q = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q2_16)),

+                    4);

+            flat2_q2p2 = _mm_packus_epi16(res_p, res_q);

+            pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q1_16);

+            pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_q2q1q0, p1_16);

+            res_p = _mm_srli_epi16(

+                    _mm_add_epi16(pixetFilter_p2p1p0,

+                            _mm_add_epi16(sum_p3, p2_16)), 3);

+            res_q = _mm_srli_epi16(

+                    _mm_add_epi16(pixetFilter_q2q1q0,

+                            _mm_add_epi16(sum_q3, q2_16)), 3);

+            flat_q2p2 = _mm_packus_epi16(res_p, res_q);

+            sum_p7 = _mm_add_epi16(sum_p7, p7_16);

+            sum_q7 = _mm_add_epi16(sum_q7, q7_16);

+            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q4_16);

+            pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p4_16);

+            res_p = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p3_16)),

+                    4);

+            res_q = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q3_16)),

+                    4);

+            flat2_q3p3 = _mm_packus_epi16(res_p, res_q);

+            sum_p7 = _mm_add_epi16(sum_p7, p7_16);

+            sum_q7 = _mm_add_epi16(sum_q7, q7_16);

+            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q3_16);

+            pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p3_16);

+            res_p = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p4_16)),

+                    4);

+            res_q = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q4_16)),

+                    4);

+            flat2_q4p4 = _mm_packus_epi16(res_p, res_q);

+            sum_p7 = _mm_add_epi16(sum_p7, p7_16);

+            sum_q7 = _mm_add_epi16(sum_q7, q7_16);

+            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q2_16);

+            pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p2_16);

+            res_p = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p5_16)),

+                    4);

+            res_q = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q5_16)),

+                    4);

+            flat2_q5p5 = _mm_packus_epi16(res_p, res_q);

+            sum_p7 = _mm_add_epi16(sum_p7, p7_16);

+            sum_q7 = _mm_add_epi16(sum_q7, q7_16);

+            pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q1_16);

+            pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p1_16);

+            res_p = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_p, _mm_add_epi16(sum_p7, p6_16)),

+                    4);

+            res_q = _mm_srli_epi16(

+                    _mm_add_epi16(pixelFilter_q, _mm_add_epi16(sum_q7, q6_16)),

+                    4);

+            flat2_q6p6 = _mm_packus_epi16(res_p, res_q);

+        }

+        // wide flat

+        // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+        flat = _mm_shuffle_epi32(flat, 68);

+        flat2 = _mm_shuffle_epi32(flat2, 68);

+        q2p2 = _mm_andnot_si128(flat, q2p2);

+        flat_q2p2 = _mm_and_si128(flat, flat_q2p2);

+        q2p2 = _mm_or_si128(q2p2, flat_q2p2);

+        qs1ps1 = _mm_andnot_si128(flat, qs1ps1);

+        flat_q1p1 = _mm_and_si128(flat, flat_q1p1);

+        q1p1 = _mm_or_si128(qs1ps1, flat_q1p1);

+        qs0ps0 = _mm_andnot_si128(flat, qs0ps0);

+        flat_q0p0 = _mm_and_si128(flat, flat_q0p0);

+        q0p0 = _mm_or_si128(qs0ps0, flat_q0p0);

+        q6p6 = _mm_andnot_si128(flat2, q6p6);

+        flat2_q6p6 = _mm_and_si128(flat2, flat2_q6p6);

+        q6p6 = _mm_or_si128(q6p6, flat2_q6p6);

+        _mm_storel_epi64((__m128i *) (s - 7 * p), q6p6);

+        _mm_storeh_pi((__m64 *) (s + 6 * p), _mm_castsi128_ps(q6p6));

+        q5p5 = _mm_andnot_si128(flat2, q5p5);

+        flat2_q5p5 = _mm_and_si128(flat2, flat2_q5p5);

+        q5p5 = _mm_or_si128(q5p5, flat2_q5p5);

+        _mm_storel_epi64((__m128i *) (s - 6 * p), q5p5);

+        _mm_storeh_pi((__m64 *) (s + 5 * p), _mm_castsi128_ps(q5p5));

+        q4p4 = _mm_andnot_si128(flat2, q4p4);

+        flat2_q4p4 = _mm_and_si128(flat2, flat2_q4p4);

+        q4p4 = _mm_or_si128(q4p4, flat2_q4p4);

+        _mm_storel_epi64((__m128i *) (s - 5 * p), q4p4);

+        _mm_storeh_pi((__m64 *) (s + 4 * p), _mm_castsi128_ps(q4p4));

+        q3p3 = _mm_andnot_si128(flat2, q3p3);

+        flat2_q3p3 = _mm_and_si128(flat2, flat2_q3p3);

+        q3p3 = _mm_or_si128(q3p3, flat2_q3p3);

+        _mm_storel_epi64((__m128i *) (s - 4 * p), q3p3);

+        _mm_storeh_pi((__m64 *) (s + 3 * p), _mm_castsi128_ps(q3p3));

+        q2p2 = _mm_andnot_si128(flat2, q2p2);

+        flat2_q2p2 = _mm_and_si128(flat2, flat2_q2p2);

+        q2p2 = _mm_or_si128(q2p2, flat2_q2p2);

+        _mm_storel_epi64((__m128i *) (s - 3 * p), q2p2);

+        _mm_storeh_pi((__m64 *) (s + 2 * p), _mm_castsi128_ps(q2p2));

+        q1p1 = _mm_andnot_si128(flat2, q1p1);

+        flat2_q1p1 = _mm_and_si128(flat2, flat2_q1p1);

+        q1p1 = _mm_or_si128(q1p1, flat2_q1p1);

+        _mm_storel_epi64((__m128i *) (s - 2 * p), q1p1);

+        _mm_storeh_pi((__m64 *) (s + 1 * p), _mm_castsi128_ps(q1p1));

+        q0p0 = _mm_andnot_si128(flat2, q0p0);

+        flat2_q0p0 = _mm_and_si128(flat2, flat2_q0p0);

+        q0p0 = _mm_or_si128(q0p0, flat2_q0p0);

+        _mm_storel_epi64((__m128i *) (s - 1 * p), q0p0);

+        _mm_storeh_pi((__m64 *) (s - 0 * p), _mm_castsi128_ps(q0p0));

+    }

+}

+DECLARE_ALIGNED(32, static const uint8_t, filt_loopfilter_avx2[32]) = {

+  0, 128, 1, 128, 2, 128, 3, 128, 4, 128, 5, 128, 6, 128, 7, 128,

+  8, 128, 9, 128, 10, 128, 11, 128, 12, 128, 13, 128, 14, 128, 15, 128

+};

+static void mb_lpf_horizontal_edge_w_avx2_16(unsigned char *s, int p,

+        const unsigned char *_blimit, const unsigned char *_limit,

+        const unsigned char *_thresh) {

+    __m128i mask, hev, flat, flat2;

+    const __m128i zero = _mm_set1_epi16(0);

+    const __m128i one = _mm_set1_epi8(1);

+    __m128i p7, p6, p5;

+    __m128i p4, p3, p2, p1, p0, q0, q1, q2, q3, q4;

+    __m128i q5, q6, q7;

+    __m256i p256_7, q256_7, p256_6, q256_6, p256_5, q256_5, p256_4,

+            q256_4, p256_3, q256_3, p256_2, q256_2, p256_1, q256_1,

+            p256_0, q256_0;

+    const __m128i thresh = _mm_broadcastb_epi8(

+            _mm_cvtsi32_si128((int) _thresh[0]));

+    const __m128i limit = _mm_broadcastb_epi8(

+            _mm_cvtsi32_si128((int) _limit[0]));

+    const __m128i blimit = _mm_broadcastb_epi8(

+            _mm_cvtsi32_si128((int) _blimit[0]));

+    p256_4 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                (__m128d const *)(s - 5 * p)));

+    p256_3 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                (__m128d const *)(s - 4 * p)));

+    p256_2 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                (__m128d const *)(s - 3 * p)));

+    p256_1 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                (__m128d const *)(s - 2 * p)));

+    p256_0 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                (__m128d const *)(s - 1 * p)));

+    q256_0 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                (__m128d const *)(s - 0 * p)));

+    q256_1 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                (__m128d const *)(s + 1 * p)));

+    q256_2 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                (__m128d const *)(s + 2 * p)));

+    q256_3 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                (__m128d const *)(s + 3 * p)));

+    q256_4 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                (__m128d const *)(s + 4 * p)));

+    p4 = _mm256_castsi256_si128(p256_4);

+    p3 = _mm256_castsi256_si128(p256_3);

+    p2 = _mm256_castsi256_si128(p256_2);

+    p1 = _mm256_castsi256_si128(p256_1);

+    p0 = _mm256_castsi256_si128(p256_0);

+    q0 = _mm256_castsi256_si128(q256_0);

+    q1 = _mm256_castsi256_si128(q256_1);

+    q2 = _mm256_castsi256_si128(q256_2);

+    q3 = _mm256_castsi256_si128(q256_3);

+    q4 = _mm256_castsi256_si128(q256_4);

+    {

+        const __m128i abs_p1p0 = _mm_or_si128(_mm_subs_epu8(p1, p0),

+                _mm_subs_epu8(p0, p1));

+        const __m128i abs_q1q0 = _mm_or_si128(_mm_subs_epu8(q1, q0),

+                _mm_subs_epu8(q0, q1));

+        const __m128i fe = _mm_set1_epi8(0xfe);

+        const __m128i ff = _mm_cmpeq_epi8(abs_p1p0, abs_p1p0);

+        __m128i abs_p0q0 = _mm_or_si128(_mm_subs_epu8(p0, q0),

+                _mm_subs_epu8(q0, p0));

+        __m128i abs_p1q1 = _mm_or_si128(_mm_subs_epu8(p1, q1),

+                _mm_subs_epu8(q1, p1));

+        __m128i work;

+        flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

+        hev = _mm_subs_epu8(flat, thresh);

+        hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

+        abs_p0q0 = _mm_adds_epu8(abs_p0q0, abs_p0q0);

+        abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

+        mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

+        mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

+        // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

+        mask = _mm_max_epu8(flat, mask);

+        // mask |= (abs(p1 - p0) > limit) * -1;

+        // mask |= (abs(q1 - q0) > limit) * -1;

+        work = _mm_max_epu8(

+                _mm_or_si128(_mm_subs_epu8(p2, p1), _mm_subs_epu8(p1, p2)),

+                _mm_or_si128(_mm_subs_epu8(p3, p2), _mm_subs_epu8(p2, p3)));

+        mask = _mm_max_epu8(work, mask);

+        work = _mm_max_epu8(

+                _mm_or_si128(_mm_subs_epu8(q2, q1), _mm_subs_epu8(q1, q2)),

+                _mm_or_si128(_mm_subs_epu8(q3, q2), _mm_subs_epu8(q2, q3)));

+        mask = _mm_max_epu8(work, mask);

+        mask = _mm_subs_epu8(mask, limit);

+        mask = _mm_cmpeq_epi8(mask, zero);

+    }

+    // lp filter

+    {

+        const __m128i t4 = _mm_set1_epi8(4);

+        const __m128i t3 = _mm_set1_epi8(3);

+        const __m128i t80 = _mm_set1_epi8(0x80);

+        const __m128i te0 = _mm_set1_epi8(0xe0);

+        const __m128i t1f = _mm_set1_epi8(0x1f);

+        const __m128i t1 = _mm_set1_epi8(0x1);

+        const __m128i t7f = _mm_set1_epi8(0x7f);

+        __m128i ps1 = _mm_xor_si128(p1, t80);

+        __m128i ps0 = _mm_xor_si128(p0, t80);

+        __m128i qs0 = _mm_xor_si128(q0, t80);

+        __m128i qs1 = _mm_xor_si128(q1, t80);

+        __m128i filt;

+        __m128i work_a;

+        __m128i filter1, filter2;

+        __m128i flat2_p6, flat2_p5, flat2_p4, flat2_p3, flat2_p2, flat2_p1,

+                flat2_p0, flat2_q0, flat2_q1, flat2_q2, flat2_q3, flat2_q4,

+                flat2_q5, flat2_q6, flat_p2, flat_p1, flat_p0, flat_q0, flat_q1,

+                flat_q2;

+        filt = _mm_and_si128(_mm_subs_epi8(ps1, qs1), hev);

+        work_a = _mm_subs_epi8(qs0, ps0);

+        filt = _mm_adds_epi8(filt, work_a);

+        filt = _mm_adds_epi8(filt, work_a);

+        filt = _mm_adds_epi8(filt, work_a);

+        /* (vp9_filter + 3 * (qs0 - ps0)) & mask */

+        filt = _mm_and_si128(filt, mask);

+        filter1 = _mm_adds_epi8(filt, t4);

+        filter2 = _mm_adds_epi8(filt, t3);

+        /* Filter1 >> 3 */

+        work_a = _mm_cmpgt_epi8(zero, filter1);

+        filter1 = _mm_srli_epi16(filter1, 3);

+        work_a = _mm_and_si128(work_a, te0);

+        filter1 = _mm_and_si128(filter1, t1f);

+        filter1 = _mm_or_si128(filter1, work_a);

+        qs0 = _mm_xor_si128(_mm_subs_epi8(qs0, filter1), t80);

+        /* Filter2 >> 3 */

+        work_a = _mm_cmpgt_epi8(zero, filter2);

+        filter2 = _mm_srli_epi16(filter2, 3);

+        work_a = _mm_and_si128(work_a, te0);

+        filter2 = _mm_and_si128(filter2, t1f);

+        filter2 = _mm_or_si128(filter2, work_a);

+        ps0 = _mm_xor_si128(_mm_adds_epi8(ps0, filter2), t80);

+        /* filt >> 1 */

+        filt = _mm_adds_epi8(filter1, t1);

+        work_a = _mm_cmpgt_epi8(zero, filt);

+        filt = _mm_srli_epi16(filt, 1);

+        work_a = _mm_and_si128(work_a, t80);

+        filt = _mm_and_si128(filt, t7f);

+        filt = _mm_or_si128(filt, work_a);

+        filt = _mm_andnot_si128(hev, filt);

+        ps1 = _mm_xor_si128(_mm_adds_epi8(ps1, filt), t80);

+        qs1 = _mm_xor_si128(_mm_subs_epi8(qs1, filt), t80);

+        // loopfilter done

+        {

+            __m128i work;

+            work = _mm_max_epu8(

+                    _mm_or_si128(_mm_subs_epu8(p2, p0), _mm_subs_epu8(p0, p2)),

+                    _mm_or_si128(_mm_subs_epu8(q2, q0), _mm_subs_epu8(q0, q2)));

+            flat = _mm_max_epu8(work, flat);

+            work = _mm_max_epu8(

+                    _mm_or_si128(_mm_subs_epu8(p3, p0), _mm_subs_epu8(p0, p3)),

+                    _mm_or_si128(_mm_subs_epu8(q3, q0), _mm_subs_epu8(q0, q3)));

+            flat = _mm_max_epu8(work, flat);

+            work = _mm_max_epu8(

+                    _mm_or_si128(_mm_subs_epu8(p4, p0), _mm_subs_epu8(p0, p4)),

+                    _mm_or_si128(_mm_subs_epu8(q4, q0), _mm_subs_epu8(q0, q4)));

+            flat = _mm_subs_epu8(flat, one);

+            flat = _mm_cmpeq_epi8(flat, zero);

+            flat = _mm_and_si128(flat, mask);

+            p256_5 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                        (__m128d const *)(s - 6 * p)));

+            q256_5 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                        (__m128d const *)(s + 5 * p)));

+            p5 = _mm256_castsi256_si128(p256_5);

+            q5 = _mm256_castsi256_si128(q256_5);

+            flat2 = _mm_max_epu8(

+                    _mm_or_si128(_mm_subs_epu8(p5, p0), _mm_subs_epu8(p0, p5)),

+                    _mm_or_si128(_mm_subs_epu8(q5, q0), _mm_subs_epu8(q0, q5)));

+            flat2 = _mm_max_epu8(work, flat2);

+            p256_6 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                        (__m128d const *)(s - 7 * p)));

+            q256_6 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                        (__m128d const *)(s + 6 * p)));

+            p6 = _mm256_castsi256_si128(p256_6);

+            q6 = _mm256_castsi256_si128(q256_6);

+            work = _mm_max_epu8(

+                    _mm_or_si128(_mm_subs_epu8(p6, p0), _mm_subs_epu8(p0, p6)),

+                    _mm_or_si128(_mm_subs_epu8(q6, q0), _mm_subs_epu8(q0, q6)));

+            flat2 = _mm_max_epu8(work, flat2);

+            p256_7 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                        (__m128d const *)(s - 8 * p)));

+            q256_7 = _mm256_castpd_si256(_mm256_broadcast_pd(

+                                        (__m128d const *)(s + 7 * p)));

+            p7 = _mm256_castsi256_si128(p256_7);

+            q7 = _mm256_castsi256_si128(q256_7);

+            work = _mm_max_epu8(

+                    _mm_or_si128(_mm_subs_epu8(p7, p0), _mm_subs_epu8(p0, p7)),

+                    _mm_or_si128(_mm_subs_epu8(q7, q0), _mm_subs_epu8(q0, q7)));

+            flat2 = _mm_max_epu8(work, flat2);

+            flat2 = _mm_subs_epu8(flat2, one);

+            flat2 = _mm_cmpeq_epi8(flat2, zero);

+            flat2 = _mm_and_si128(flat2, flat);  // flat2 & flat & mask

+        }

+        // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+        // flat and wide flat calculations

+        {

+            const __m256i eight = _mm256_set1_epi16(8);

+            const __m256i four = _mm256_set1_epi16(4);

+            __m256i pixelFilter_p, pixelFilter_q, pixetFilter_p2p1p0,

+                    pixetFilter_q2q1q0, sum_p7, sum_q7, sum_p3, sum_q3, res_p,

+                    res_q;

+            const __m256i filter = _mm256_load_si256(

+                                  (__m256i const *)filt_loopfilter_avx2);

+            p256_7 = _mm256_shuffle_epi8(p256_7, filter);

+            p256_6 = _mm256_shuffle_epi8(p256_6, filter);

+            p256_5 = _mm256_shuffle_epi8(p256_5, filter);

+            p256_4 = _mm256_shuffle_epi8(p256_4, filter);

+            p256_3 = _mm256_shuffle_epi8(p256_3, filter);

+            p256_2 = _mm256_shuffle_epi8(p256_2, filter);

+            p256_1 = _mm256_shuffle_epi8(p256_1, filter);

+            p256_0 = _mm256_shuffle_epi8(p256_0, filter);

+            q256_0 = _mm256_shuffle_epi8(q256_0, filter);

+            q256_1 = _mm256_shuffle_epi8(q256_1, filter);

+            q256_2 = _mm256_shuffle_epi8(q256_2, filter);

+            q256_3 = _mm256_shuffle_epi8(q256_3, filter);

+            q256_4 = _mm256_shuffle_epi8(q256_4, filter);

+            q256_5 = _mm256_shuffle_epi8(q256_5, filter);

+            q256_6 = _mm256_shuffle_epi8(q256_6, filter);

+            q256_7 = _mm256_shuffle_epi8(q256_7, filter);

+            pixelFilter_p = _mm256_add_epi16(_mm256_add_epi16(p256_6, p256_5),

+                    _mm256_add_epi16(p256_4, p256_3));

+            pixelFilter_q = _mm256_add_epi16(_mm256_add_epi16(q256_6, q256_5),

+                    _mm256_add_epi16(q256_4, q256_3));

+            pixetFilter_p2p1p0 = _mm256_add_epi16(p256_0,

+                    _mm256_add_epi16(p256_2, p256_1));

+            pixelFilter_p = _mm256_add_epi16(pixelFilter_p, pixetFilter_p2p1p0);

+            pixetFilter_q2q1q0 = _mm256_add_epi16(q256_0,

+                    _mm256_add_epi16(q256_2, q256_1));

+            pixelFilter_q = _mm256_add_epi16(pixelFilter_q, pixetFilter_q2q1q0);

+            pixelFilter_p = _mm256_add_epi16(eight,

+                    _mm256_add_epi16(pixelFilter_p, pixelFilter_q));

+            pixetFilter_p2p1p0 = _mm256_add_epi16(four,

+                    _mm256_add_epi16(pixetFilter_p2p1p0, pixetFilter_q2q1q0));

+            res_p = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_p,

+                            _mm256_add_epi16(p256_7, p256_0)), 4);

+            flat2_p0 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

+                            168));

+            res_q = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_p,

+                            _mm256_add_epi16(q256_7, q256_0)), 4);

+            flat2_q0 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

+                            168));

+            res_p = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixetFilter_p2p1p0,

+                            _mm256_add_epi16(p256_3, p256_0)), 3);

+            flat_p0 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

+                            168));

+            res_q = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixetFilter_p2p1p0,

+                            _mm256_add_epi16(q256_3, q256_0)), 3);

+            flat_q0 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

+                            168));

+            sum_p7 = _mm256_add_epi16(p256_7, p256_7);

+            sum_q7 = _mm256_add_epi16(q256_7, q256_7);

+            sum_p3 = _mm256_add_epi16(p256_3, p256_3);

+            sum_q3 = _mm256_add_epi16(q256_3, q256_3);

+            pixelFilter_q = _mm256_sub_epi16(pixelFilter_p, p256_6);

+            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_6);

+            res_p = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_p,

+                            _mm256_add_epi16(sum_p7, p256_1)), 4);

+            flat2_p1 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

+                            168));

+            res_q = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_q,

+                            _mm256_add_epi16(sum_q7, q256_1)), 4);

+            flat2_q1 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

+                            168));

+            pixetFilter_q2q1q0 = _mm256_sub_epi16(pixetFilter_p2p1p0, p256_2);

+            pixetFilter_p2p1p0 = _mm256_sub_epi16(pixetFilter_p2p1p0, q256_2);

+            res_p = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixetFilter_p2p1p0,

+                            _mm256_add_epi16(sum_p3, p256_1)), 3);

+            flat_p1 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

+                            168));

+            res_q = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixetFilter_q2q1q0,

+                            _mm256_add_epi16(sum_q3, q256_1)), 3);

+            flat_q1 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

+                            168));

+            sum_p7 = _mm256_add_epi16(sum_p7, p256_7);

+            sum_q7 = _mm256_add_epi16(sum_q7, q256_7);

+            sum_p3 = _mm256_add_epi16(sum_p3, p256_3);

+            sum_q3 = _mm256_add_epi16(sum_q3, q256_3);

+            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_5);

+            pixelFilter_q = _mm256_sub_epi16(pixelFilter_q, p256_5);

+            res_p = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_p,

+                            _mm256_add_epi16(sum_p7, p256_2)), 4);

+            flat2_p2 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

+                            168));

+            res_q = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_q,

+                            _mm256_add_epi16(sum_q7, q256_2)), 4);

+            flat2_q2 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

+                            168));

+            pixetFilter_p2p1p0 = _mm256_sub_epi16(pixetFilter_p2p1p0, q256_1);

+            pixetFilter_q2q1q0 = _mm256_sub_epi16(pixetFilter_q2q1q0, p256_1);

+            res_p = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixetFilter_p2p1p0,

+                            _mm256_add_epi16(sum_p3, p256_2)), 3);

+            flat_p2 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

+                            168));

+            res_q = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixetFilter_q2q1q0,

+                            _mm256_add_epi16(sum_q3, q256_2)), 3);

+            flat_q2 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

+                            168));

+            sum_p7 = _mm256_add_epi16(sum_p7, p256_7);

+            sum_q7 = _mm256_add_epi16(sum_q7, q256_7);

+            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_4);

+            pixelFilter_q = _mm256_sub_epi16(pixelFilter_q, p256_4);

+            res_p = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_p,

+                            _mm256_add_epi16(sum_p7, p256_3)), 4);

+            flat2_p3 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

+                            168));

+            res_q = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_q,

+                            _mm256_add_epi16(sum_q7, q256_3)), 4);

+            flat2_q3 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

+                            168));

+            sum_p7 = _mm256_add_epi16(sum_p7, p256_7);

+            sum_q7 = _mm256_add_epi16(sum_q7, q256_7);

+            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_3);

+            pixelFilter_q = _mm256_sub_epi16(pixelFilter_q, p256_3);

+            res_p = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_p,

+                            _mm256_add_epi16(sum_p7, p256_4)), 4);

+            flat2_p4 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

+                            168));

+            res_q = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_q,

+                            _mm256_add_epi16(sum_q7, q256_4)), 4);

+            flat2_q4 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

+                            168));

+            sum_p7 = _mm256_add_epi16(sum_p7, p256_7);

+            sum_q7 = _mm256_add_epi16(sum_q7, q256_7);

+            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_2);

+            pixelFilter_q = _mm256_sub_epi16(pixelFilter_q, p256_2);

+            res_p = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_p,

+                            _mm256_add_epi16(sum_p7, p256_5)), 4);

+            flat2_p5 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

+                            168));

+            res_q = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_q,

+                            _mm256_add_epi16(sum_q7, q256_5)), 4);

+            flat2_q5 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

+                            168));

+            sum_p7 = _mm256_add_epi16(sum_p7, p256_7);

+            sum_q7 = _mm256_add_epi16(sum_q7, q256_7);

+            pixelFilter_p = _mm256_sub_epi16(pixelFilter_p, q256_1);

+            pixelFilter_q = _mm256_sub_epi16(pixelFilter_q, p256_1);

+            res_p = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_p,

+                            _mm256_add_epi16(sum_p7, p256_6)), 4);

+            flat2_p6 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_p, res_p),

+                            168));

+            res_q = _mm256_srli_epi16(

+                    _mm256_add_epi16(pixelFilter_q,

+                            _mm256_add_epi16(sum_q7, q256_6)), 4);

+            flat2_q6 = _mm256_castsi256_si128(

+                    _mm256_permute4x64_epi64(_mm256_packus_epi16(res_q, res_q),

+                            168));

+        }

+        // wide flat

+        // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+        p2 = _mm_andnot_si128(flat, p2);

+        flat_p2 = _mm_and_si128(flat, flat_p2);

+        p2 = _mm_or_si128(flat_p2, p2);

+        p1 = _mm_andnot_si128(flat, ps1);

+        flat_p1 = _mm_and_si128(flat, flat_p1);

+        p1 = _mm_or_si128(flat_p1, p1);

+        p0 = _mm_andnot_si128(flat, ps0);

+        flat_p0 = _mm_and_si128(flat, flat_p0);

+        p0 = _mm_or_si128(flat_p0, p0);

+        q0 = _mm_andnot_si128(flat, qs0);

+        flat_q0 = _mm_and_si128(flat, flat_q0);

+        q0 = _mm_or_si128(flat_q0, q0);

+        q1 = _mm_andnot_si128(flat, qs1);

+        flat_q1 = _mm_and_si128(flat, flat_q1);

+        q1 = _mm_or_si128(flat_q1, q1);

+        q2 = _mm_andnot_si128(flat, q2);

+        flat_q2 = _mm_and_si128(flat, flat_q2);

+        q2 = _mm_or_si128(flat_q2, q2);

+        p6 = _mm_andnot_si128(flat2, p6);

+        flat2_p6 = _mm_and_si128(flat2, flat2_p6);

+        p6 = _mm_or_si128(flat2_p6, p6);

+        _mm_storeu_si128((__m128i *) (s - 7 * p), p6);

+        p5 = _mm_andnot_si128(flat2, p5);

+        flat2_p5 = _mm_and_si128(flat2, flat2_p5);

+        p5 = _mm_or_si128(flat2_p5, p5);

+        _mm_storeu_si128((__m128i *) (s - 6 * p), p5);

+        p4 = _mm_andnot_si128(flat2, p4);

+        flat2_p4 = _mm_and_si128(flat2, flat2_p4);

+        p4 = _mm_or_si128(flat2_p4, p4);

+        _mm_storeu_si128((__m128i *) (s - 5 * p), p4);

+        p3 = _mm_andnot_si128(flat2, p3);

+        flat2_p3 = _mm_and_si128(flat2, flat2_p3);

+        p3 = _mm_or_si128(flat2_p3, p3);

+        _mm_storeu_si128((__m128i *) (s - 4 * p), p3);

+        p2 = _mm_andnot_si128(flat2, p2);

+        flat2_p2 = _mm_and_si128(flat2, flat2_p2);

+        p2 = _mm_or_si128(flat2_p2, p2);

+        _mm_storeu_si128((__m128i *) (s - 3 * p), p2);

+        p1 = _mm_andnot_si128(flat2, p1);

+        flat2_p1 = _mm_and_si128(flat2, flat2_p1);

+        p1 = _mm_or_si128(flat2_p1, p1);

+        _mm_storeu_si128((__m128i *) (s - 2 * p), p1);

+        p0 = _mm_andnot_si128(flat2, p0);

+        flat2_p0 = _mm_and_si128(flat2, flat2_p0);

+        p0 = _mm_or_si128(flat2_p0, p0);

+        _mm_storeu_si128((__m128i *) (s - 1 * p), p0);

+        q0 = _mm_andnot_si128(flat2, q0);

+        flat2_q0 = _mm_and_si128(flat2, flat2_q0);

+        q0 = _mm_or_si128(flat2_q0, q0);

+        _mm_storeu_si128((__m128i *) (s - 0 * p), q0);

+        q1 = _mm_andnot_si128(flat2, q1);

+        flat2_q1 = _mm_and_si128(flat2, flat2_q1);

+        q1 = _mm_or_si128(flat2_q1, q1);

+        _mm_storeu_si128((__m128i *) (s + 1 * p), q1);

+        q2 = _mm_andnot_si128(flat2, q2);

+        flat2_q2 = _mm_and_si128(flat2, flat2_q2);

+        q2 = _mm_or_si128(flat2_q2, q2);

+        _mm_storeu_si128((__m128i *) (s + 2 * p), q2);

+        q3 = _mm_andnot_si128(flat2, q3);

+        flat2_q3 = _mm_and_si128(flat2, flat2_q3);

+        q3 = _mm_or_si128(flat2_q3, q3);

+        _mm_storeu_si128((__m128i *) (s + 3 * p), q3);

+        q4 = _mm_andnot_si128(flat2, q4);

+        flat2_q4 = _mm_and_si128(flat2, flat2_q4);

+        q4 = _mm_or_si128(flat2_q4, q4);

+        _mm_storeu_si128((__m128i *) (s + 4 * p), q4);

+        q5 = _mm_andnot_si128(flat2, q5);

+        flat2_q5 = _mm_and_si128(flat2, flat2_q5);

+        q5 = _mm_or_si128(flat2_q5, q5);

+        _mm_storeu_si128((__m128i *) (s + 5 * p), q5);

+        q6 = _mm_andnot_si128(flat2, q6);

+        flat2_q6 = _mm_and_si128(flat2, flat2_q6);

+        q6 = _mm_or_si128(flat2_q6, q6);

+        _mm_storeu_si128((__m128i *) (s + 6 * p), q6);

+    }

+}

+void vp9_lpf_horizontal_16_avx2(unsigned char *s, int p,

+        const unsigned char *_blimit, const unsigned char *_limit,

+        const unsigned char *_thresh, int count) {

+    if (count == 1)

+        mb_lpf_horizontal_edge_w_avx2_8(s, p, _blimit, _limit, _thresh);

+    else

+        mb_lpf_horizontal_edge_w_avx2_16(s, p, _blimit, _limit, _thresh);

+}

--- /dev/null

+++ b/vpx_dsp/x86/loopfilter_mmx.asm

@@ -1,0 +1,611 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+%include "vpx_ports/x86_abi_support.asm"

+;void vp9_lpf_horizontal_4_mmx

+;(

+;    unsigned char *src_ptr,

+;    int src_pixel_step,

+;    const char *blimit,

+;    const char *limit,

+;    const char *thresh,

+;    int  count

+;)

+global sym(vp9_lpf_horizontal_4_mmx) PRIVATE

+sym(vp9_lpf_horizontal_4_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    GET_GOT     rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub         rsp, 32                         ; reserve 32 bytes

+    %define t0 [rsp + 0]    ;__declspec(align(16)) char t0[8];

+    %define t1 [rsp + 16]   ;__declspec(align(16)) char t1[8];

+        mov         rsi, arg(0) ;src_ptr

+        movsxd      rax, dword ptr arg(1) ;src_pixel_step     ; destination pitch?

+        movsxd      rcx, dword ptr arg(5) ;count

+.next8_h:

+        mov         rdx, arg(3) ;limit

+        movq        mm7, [rdx]

+        mov         rdi, rsi              ; rdi points to row +1 for indirect addressing

+        add         rdi, rax

+        ; calculate breakout conditions

+        movq        mm2, [rdi+2*rax]      ; q3

+        movq        mm1, [rsi+2*rax]      ; q2

+        movq        mm6, mm1              ; q2

+        psubusb     mm1, mm2              ; q2-=q3

+        psubusb     mm2, mm6              ; q3-=q2

+        por         mm1, mm2              ; abs(q3-q2)

+        psubusb     mm1, mm7              ;

+        movq        mm4, [rsi+rax]        ; q1

+        movq        mm3, mm4              ; q1

+        psubusb     mm4, mm6              ; q1-=q2

+        psubusb     mm6, mm3              ; q2-=q1

+        por         mm4, mm6              ; abs(q2-q1)

+        psubusb     mm4, mm7

+        por        mm1, mm4

+        movq        mm4, [rsi]            ; q0

+        movq        mm0, mm4              ; q0

+        psubusb     mm4, mm3              ; q0-=q1

+        psubusb     mm3, mm0              ; q1-=q0

+        por         mm4, mm3              ; abs(q0-q1)

+        movq        t0, mm4               ; save to t0

+        psubusb     mm4, mm7

+        por        mm1, mm4

+        neg         rax                   ; negate pitch to deal with above border

+        movq        mm2, [rsi+4*rax]      ; p3

+        movq        mm4, [rdi+4*rax]      ; p2

+        movq        mm5, mm4              ; p2

+        psubusb     mm4, mm2              ; p2-=p3

+        psubusb     mm2, mm5              ; p3-=p2

+        por         mm4, mm2              ; abs(p3 - p2)

+        psubusb     mm4, mm7

+        por        mm1, mm4

+        movq        mm4, [rsi+2*rax]      ; p1

+        movq        mm3, mm4              ; p1

+        psubusb     mm4, mm5              ; p1-=p2

+        psubusb     mm5, mm3              ; p2-=p1

+        por         mm4, mm5              ; abs(p2 - p1)

+        psubusb     mm4, mm7

+        por        mm1, mm4

+        movq        mm2, mm3              ; p1

+        movq        mm4, [rsi+rax]        ; p0

+        movq        mm5, mm4              ; p0

+        psubusb     mm4, mm3              ; p0-=p1

+        psubusb     mm3, mm5              ; p1-=p0

+        por         mm4, mm3              ; abs(p1 - p0)

+        movq        t1, mm4               ; save to t1

+        psubusb     mm4, mm7

+        por        mm1, mm4

+        movq        mm3, [rdi]            ; q1

+        movq        mm4, mm3              ; q1

+        psubusb     mm3, mm2              ; q1-=p1

+        psubusb     mm2, mm4              ; p1-=q1

+        por         mm2, mm3              ; abs(p1-q1)

+        pand        mm2, [GLOBAL(tfe)]    ; set lsb of each byte to zero

+        psrlw       mm2, 1                ; abs(p1-q1)/2

+        movq        mm6, mm5              ; p0

+        movq        mm3, [rsi]            ; q0

+        psubusb     mm5, mm3              ; p0-=q0

+        psubusb     mm3, mm6              ; q0-=p0

+        por         mm5, mm3              ; abs(p0 - q0)

+        paddusb     mm5, mm5              ; abs(p0-q0)*2

+        paddusb     mm5, mm2              ; abs (p0 - q0) *2 + abs(p1-q1)/2

+        mov         rdx, arg(2) ;blimit           ; get blimit

+        movq        mm7, [rdx]            ; blimit

+        psubusb     mm5,    mm7           ; abs (p0 - q0) *2 + abs(p1-q1)/2  > blimit

+        por         mm1,    mm5

+        pxor        mm5,    mm5

+        pcmpeqb     mm1,    mm5           ; mask mm1

+        ; calculate high edge variance

+        mov         rdx, arg(4) ;thresh           ; get thresh

+        movq        mm7, [rdx]            ;

+        movq        mm4, t0               ; get abs (q1 - q0)

+        psubusb     mm4, mm7

+        movq        mm3, t1               ; get abs (p1 - p0)

+        psubusb     mm3, mm7

+        paddb       mm4, mm3              ; abs(q1 - q0) > thresh || abs(p1 - p0) > thresh

+        pcmpeqb     mm4,        mm5

+        pcmpeqb     mm5,        mm5

+        pxor        mm4,        mm5

+        ; start work on filters

+        movq        mm2, [rsi+2*rax]      ; p1

+        movq        mm7, [rdi]            ; q1

+        pxor        mm2, [GLOBAL(t80)]    ; p1 offset to convert to signed values

+        pxor        mm7, [GLOBAL(t80)]    ; q1 offset to convert to signed values

+        psubsb      mm2, mm7              ; p1 - q1

+        pand        mm2, mm4              ; high var mask (hvm)(p1 - q1)

+        pxor        mm6, [GLOBAL(t80)]    ; offset to convert to signed values

+        pxor        mm0, [GLOBAL(t80)]    ; offset to convert to signed values

+        movq        mm3, mm0              ; q0

+        psubsb      mm0, mm6              ; q0 - p0

+        paddsb      mm2, mm0              ; 1 * (q0 - p0) + hvm(p1 - q1)

+        paddsb      mm2, mm0              ; 2 * (q0 - p0) + hvm(p1 - q1)

+        paddsb      mm2, mm0              ; 3 * (q0 - p0) + hvm(p1 - q1)

+        pand        mm1, mm2                  ; mask filter values we don't care about

+        movq        mm2, mm1

+        paddsb      mm1, [GLOBAL(t4)]     ; 3* (q0 - p0) + hvm(p1 - q1) + 4

+        paddsb      mm2, [GLOBAL(t3)]     ; 3* (q0 - p0) + hvm(p1 - q1) + 3

+        pxor        mm0, mm0             ;

+        pxor        mm5, mm5

+        punpcklbw   mm0, mm2            ;

+        punpckhbw   mm5, mm2            ;

+        psraw       mm0, 11             ;

+        psraw       mm5, 11

+        packsswb    mm0, mm5

+        movq        mm2, mm0            ;  (3* (q0 - p0) + hvm(p1 - q1) + 3) >> 3;

+        pxor        mm0, mm0              ; 0

+        movq        mm5, mm1              ; abcdefgh

+        punpcklbw   mm0, mm1              ; e0f0g0h0

+        psraw       mm0, 11               ; sign extended shift right by 3

+        pxor        mm1, mm1              ; 0

+        punpckhbw   mm1, mm5              ; a0b0c0d0

+        psraw       mm1, 11               ; sign extended shift right by 3

+        movq        mm5, mm0              ; save results

+        packsswb    mm0, mm1              ; (3* (q0 - p0) + hvm(p1 - q1) + 4) >>3

+        paddsw      mm5, [GLOBAL(ones)]

+        paddsw      mm1, [GLOBAL(ones)]

+        psraw       mm5, 1                ; partial shifted one more time for 2nd tap

+        psraw       mm1, 1                ; partial shifted one more time for 2nd tap

+        packsswb    mm5, mm1              ; (3* (q0 - p0) + hvm(p1 - q1) + 4) >>4

+        pandn       mm4, mm5              ; high edge variance additive

+        paddsb      mm6, mm2              ; p0+= p0 add

+        pxor        mm6, [GLOBAL(t80)]    ; unoffset

+        movq        [rsi+rax], mm6        ; write back

+        movq        mm6, [rsi+2*rax]      ; p1

+        pxor        mm6, [GLOBAL(t80)]    ; reoffset

+        paddsb      mm6, mm4              ; p1+= p1 add

+        pxor        mm6, [GLOBAL(t80)]    ; unoffset

+        movq        [rsi+2*rax], mm6      ; write back

+        psubsb      mm3, mm0              ; q0-= q0 add

+        pxor        mm3, [GLOBAL(t80)]    ; unoffset

+        movq        [rsi], mm3            ; write back

+        psubsb      mm7, mm4              ; q1-= q1 add

+        pxor        mm7, [GLOBAL(t80)]    ; unoffset

+        movq        [rdi], mm7            ; write back

+        add         rsi,8

+        neg         rax

+        dec         rcx

+        jnz         .next8_h

+    add rsp, 32

+    pop rsp

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp9_lpf_vertical_4_mmx

+;(

+;    unsigned char *src_ptr,

+;    int  src_pixel_step,

+;    const char *blimit,

+;    const char *limit,

+;    const char *thresh,

+;    int count

+;)

+global sym(vp9_lpf_vertical_4_mmx) PRIVATE

+sym(vp9_lpf_vertical_4_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 6

+    GET_GOT     rbx

+    push        rsi

+    push        rdi

+    ; end prolog

+    ALIGN_STACK 16, rax

+    sub          rsp, 64      ; reserve 64 bytes

+    %define t0   [rsp + 0]    ;__declspec(align(16)) char t0[8];

+    %define t1   [rsp + 16]   ;__declspec(align(16)) char t1[8];

+    %define srct [rsp + 32]   ;__declspec(align(16)) char srct[32];

+        mov         rsi,        arg(0) ;src_ptr

+        movsxd      rax,        dword ptr arg(1) ;src_pixel_step     ; destination pitch?

+        lea         rsi,        [rsi + rax*4 - 4]

+        movsxd      rcx,        dword ptr arg(5) ;count

+.next8_v:

+        mov         rdi,        rsi           ; rdi points to row +1 for indirect addressing

+        add         rdi,        rax

+        ;transpose

+        movq        mm6,        [rsi+2*rax]                 ; 67 66 65 64 63 62 61 60

+        movq        mm7,        mm6                         ; 77 76 75 74 73 72 71 70

+        punpckhbw   mm7,        [rdi+2*rax]                 ; 77 67 76 66 75 65 74 64

+        punpcklbw   mm6,        [rdi+2*rax]                 ; 73 63 72 62 71 61 70 60

+        movq        mm4,        [rsi]                       ; 47 46 45 44 43 42 41 40

+        movq        mm5,        mm4                         ; 47 46 45 44 43 42 41 40

+        punpckhbw   mm5,        [rsi+rax]                   ; 57 47 56 46 55 45 54 44

+        punpcklbw   mm4,        [rsi+rax]                   ; 53 43 52 42 51 41 50 40

+        movq        mm3,        mm5                         ; 57 47 56 46 55 45 54 44

+        punpckhwd   mm5,        mm7                         ; 77 67 57 47 76 66 56 46

+        punpcklwd   mm3,        mm7                         ; 75 65 55 45 74 64 54 44

+        movq        mm2,        mm4                         ; 53 43 52 42 51 41 50 40

+        punpckhwd   mm4,        mm6                         ; 73 63 53 43 72 62 52 42

+        punpcklwd   mm2,        mm6                         ; 71 61 51 41 70 60 50 40

+        neg         rax

+        movq        mm6,        [rsi+rax*2]                 ; 27 26 25 24 23 22 21 20

+        movq        mm1,        mm6                         ; 27 26 25 24 23 22 21 20

+        punpckhbw   mm6,        [rsi+rax]                   ; 37 27 36 36 35 25 34 24

+        punpcklbw   mm1,        [rsi+rax]                   ; 33 23 32 22 31 21 30 20

+        movq        mm7,        [rsi+rax*4];                ; 07 06 05 04 03 02 01 00

+        punpckhbw   mm7,        [rdi+rax*4]                 ; 17 07 16 06 15 05 14 04

+        movq        mm0,        mm7                         ; 17 07 16 06 15 05 14 04

+        punpckhwd   mm7,        mm6                         ; 37 27 17 07 36 26 16 06

+        punpcklwd   mm0,        mm6                         ; 35 25 15 05 34 24 14 04

+        movq        mm6,        mm7                         ; 37 27 17 07 36 26 16 06

+        punpckhdq   mm7,        mm5                         ; 77 67 57 47 37 27 17 07  = q3

+        punpckldq   mm6,        mm5                         ; 76 66 56 46 36 26 16 06  = q2

+        movq        mm5,        mm6                         ; 76 66 56 46 36 26 16 06

+        psubusb     mm5,        mm7                         ; q2-q3

+        psubusb     mm7,        mm6                         ; q3-q2

+        por         mm7,        mm5;                        ; mm7=abs (q3-q2)

+        movq        mm5,        mm0                         ; 35 25 15 05 34 24 14 04

+        punpckhdq   mm5,        mm3                         ; 75 65 55 45 35 25 15 05 = q1

+        punpckldq   mm0,        mm3                         ; 74 64 54 44 34 24 15 04 = q0

+        movq        mm3,        mm5                         ; 75 65 55 45 35 25 15 05 = q1

+        psubusb     mm3,        mm6                         ; q1-q2

+        psubusb     mm6,        mm5                         ; q2-q1

+        por         mm6,        mm3                         ; mm6=abs(q2-q1)

+        lea         rdx,        srct

+        movq        [rdx+24],   mm5                         ; save q1

+        movq        [rdx+16],   mm0                         ; save q0

+        movq        mm3,        [rsi+rax*4]                 ; 07 06 05 04 03 02 01 00

+        punpcklbw   mm3,        [rdi+rax*4]                 ; 13 03 12 02 11 01 10 00

+        movq        mm0,        mm3                         ; 13 03 12 02 11 01 10 00

+        punpcklwd   mm0,        mm1                         ; 31 21 11 01 30 20 10 00

+        punpckhwd   mm3,        mm1                         ; 33 23 13 03 32 22 12 02

+        movq        mm1,        mm0                         ; 31 21 11 01 30 20 10 00

+        punpckldq   mm0,        mm2                         ; 70 60 50 40 30 20 10 00  =p3

+        punpckhdq   mm1,        mm2                         ; 71 61 51 41 31 21 11 01  =p2

+        movq        mm2,        mm1                         ; 71 61 51 41 31 21 11 01  =p2

+        psubusb     mm2,        mm0                         ; p2-p3

+        psubusb     mm0,        mm1                         ; p3-p2

+        por         mm0,        mm2                         ; mm0=abs(p3-p2)

+        movq        mm2,        mm3                         ; 33 23 13 03 32 22 12 02

+        punpckldq   mm2,        mm4                         ; 72 62 52 42 32 22 12 02 = p1

+        punpckhdq   mm3,        mm4                         ; 73 63 53 43 33 23 13 03 = p0

+        movq        [rdx+8],    mm3                         ; save p0

+        movq        [rdx],      mm2                         ; save p1

+        movq        mm5,        mm2                         ; mm5 = p1

+        psubusb     mm2,        mm1                         ; p1-p2

+        psubusb     mm1,        mm5                         ; p2-p1

+        por         mm1,        mm2                         ; mm1=abs(p2-p1)

+        mov         rdx,        arg(3) ;limit

+        movq        mm4,        [rdx]                       ; mm4 = limit

+        psubusb     mm7,        mm4

+        psubusb     mm0,        mm4

+        psubusb     mm1,        mm4

+        psubusb     mm6,        mm4

+        por         mm7,        mm6

+        por         mm0,        mm1

+        por         mm0,        mm7                         ;   abs(q3-q2) > limit || abs(p3-p2) > limit ||abs(p2-p1) > limit || abs(q2-q1) > limit

+        movq        mm1,        mm5                         ; p1

+        movq        mm7,        mm3                         ; mm3=mm7=p0

+        psubusb     mm7,        mm5                         ; p0 - p1

+        psubusb     mm5,        mm3                         ; p1 - p0

+        por         mm5,        mm7                         ; abs(p1-p0)

+        movq        t0,         mm5                         ; save abs(p1-p0)

+        lea         rdx,        srct

+        psubusb     mm5,        mm4

+        por         mm0,        mm5                         ; mm0=mask

+        movq        mm5,        [rdx+16]                    ; mm5=q0

+        movq        mm7,        [rdx+24]                    ; mm7=q1

+        movq        mm6,        mm5                         ; mm6=q0

+        movq        mm2,        mm7                         ; q1

+        psubusb     mm5,        mm7                         ; q0-q1

+        psubusb     mm7,        mm6                         ; q1-q0

+        por         mm7,        mm5                         ; abs(q1-q0)

+        movq        t1,         mm7                         ; save abs(q1-q0)

+        psubusb     mm7,        mm4

+        por         mm0,        mm7                         ; mask

+        movq        mm5,        mm2                         ; q1

+        psubusb     mm5,        mm1                         ; q1-=p1

+        psubusb     mm1,        mm2                         ; p1-=q1

+        por         mm5,        mm1                         ; abs(p1-q1)

+        pand        mm5,        [GLOBAL(tfe)]               ; set lsb of each byte to zero

+        psrlw       mm5,        1                           ; abs(p1-q1)/2

+        mov         rdx,        arg(2) ;blimit                      ;

+        movq        mm4,        [rdx]                       ;blimit

+        movq        mm1,        mm3                         ; mm1=mm3=p0

+        movq        mm7,        mm6                         ; mm7=mm6=q0

+        psubusb     mm1,        mm7                         ; p0-q0

+        psubusb     mm7,        mm3                         ; q0-p0

+        por         mm1,        mm7                         ; abs(q0-p0)

+        paddusb     mm1,        mm1                         ; abs(q0-p0)*2

+        paddusb     mm1,        mm5                         ; abs (p0 - q0) *2 + abs(p1-q1)/2

+        psubusb     mm1,        mm4                         ; abs (p0 - q0) *2 + abs(p1-q1)/2  > blimit

+        por         mm1,        mm0;                        ; mask

+        pxor        mm0,        mm0

+        pcmpeqb     mm1,        mm0

+        ; calculate high edge variance

+        mov         rdx,        arg(4) ;thresh            ; get thresh

+        movq        mm7,        [rdx]

+        ;

+        movq        mm4,        t0              ; get abs (q1 - q0)

+        psubusb     mm4,        mm7

+        movq        mm3,        t1              ; get abs (p1 - p0)

+        psubusb     mm3,        mm7

+        por         mm4,        mm3             ; abs(q1 - q0) > thresh || abs(p1 - p0) > thresh

+        pcmpeqb     mm4,        mm0

+        pcmpeqb     mm0,        mm0

+        pxor        mm4,        mm0

+        ; start work on filters

+        lea         rdx,        srct

+        movq        mm2,        [rdx]           ; p1

+        movq        mm7,        [rdx+24]        ; q1

+        movq        mm6,        [rdx+8]         ; p0

+        movq        mm0,        [rdx+16]        ; q0

+        pxor        mm2,        [GLOBAL(t80)]   ; p1 offset to convert to signed values

+        pxor        mm7,        [GLOBAL(t80)]   ; q1 offset to convert to signed values

+        psubsb      mm2,        mm7             ; p1 - q1

+        pand        mm2,        mm4             ; high var mask (hvm)(p1 - q1)

+        pxor        mm6,        [GLOBAL(t80)]   ; offset to convert to signed values

+        pxor        mm0,        [GLOBAL(t80)]   ; offset to convert to signed values

+        movq        mm3,        mm0             ; q0

+        psubsb      mm0,        mm6             ; q0 - p0

+        paddsb      mm2,        mm0             ; 1 * (q0 - p0) + hvm(p1 - q1)

+        paddsb      mm2,        mm0             ; 2 * (q0 - p0) + hvm(p1 - q1)

+        paddsb      mm2,        mm0             ; 3 * (q0 - p0) + hvm(p1 - q1)

+        pand       mm1,        mm2              ; mask filter values we don't care about

+        movq        mm2,        mm1

+        paddsb      mm1,        [GLOBAL(t4)]      ; 3* (q0 - p0) + hvm(p1 - q1) + 4

+        paddsb      mm2,        [GLOBAL(t3)]      ; 3* (q0 - p0) + hvm(p1 - q1) + 3

+        pxor        mm0,        mm0          ;

+        pxor        mm5,        mm5

+        punpcklbw   mm0,        mm2         ;

+        punpckhbw   mm5,        mm2         ;

+        psraw       mm0,        11              ;

+        psraw       mm5,        11

+        packsswb    mm0,        mm5

+        movq        mm2,        mm0         ;  (3* (q0 - p0) + hvm(p1 - q1) + 3) >> 3;

+        pxor        mm0,        mm0           ; 0

+        movq        mm5,        mm1           ; abcdefgh

+        punpcklbw   mm0,        mm1           ; e0f0g0h0

+        psraw       mm0,        11                ; sign extended shift right by 3

+        pxor        mm1,        mm1           ; 0

+        punpckhbw   mm1,        mm5           ; a0b0c0d0

+        psraw       mm1,        11                ; sign extended shift right by 3

+        movq        mm5,        mm0              ; save results

+        packsswb    mm0,        mm1           ; (3* (q0 - p0) + hvm(p1 - q1) + 4) >>3

+        paddsw      mm5,        [GLOBAL(ones)]

+        paddsw      mm1,        [GLOBAL(ones)]

+        psraw       mm5,        1                 ; partial shifted one more time for 2nd tap

+        psraw       mm1,        1                 ; partial shifted one more time for 2nd tap

+        packsswb    mm5,        mm1           ; (3* (q0 - p0) + hvm(p1 - q1) + 4) >>4

+        pandn       mm4,        mm5             ; high edge variance additive

+        paddsb      mm6,        mm2             ; p0+= p0 add

+        pxor        mm6,        [GLOBAL(t80)]   ; unoffset

+        ; mm6=p0                               ;

+        movq        mm1,        [rdx]           ; p1

+        pxor        mm1,        [GLOBAL(t80)]   ; reoffset

+        paddsb      mm1,        mm4                 ; p1+= p1 add

+        pxor        mm1,        [GLOBAL(t80)]       ; unoffset

+        ; mm6 = p0 mm1 = p1

+        psubsb      mm3,        mm0                 ; q0-= q0 add

+        pxor        mm3,        [GLOBAL(t80)]       ; unoffset

+        ; mm3 = q0

+        psubsb      mm7,        mm4                 ; q1-= q1 add

+        pxor        mm7,        [GLOBAL(t80)]       ; unoffset

+        ; mm7 = q1

+        ; transpose and write back

+        ; mm1 =    72 62 52 42 32 22 12 02

+        ; mm6 =    73 63 53 43 33 23 13 03

+        ; mm3 =    74 64 54 44 34 24 14 04

+        ; mm7 =    75 65 55 45 35 25 15 05

+        movq        mm2,        mm1             ; 72 62 52 42 32 22 12 02

+        punpcklbw   mm2,        mm6             ; 33 32 23 22 13 12 03 02

+        movq        mm4,        mm3             ; 74 64 54 44 34 24 14 04

+        punpckhbw   mm1,        mm6             ; 73 72 63 62 53 52 43 42

+        punpcklbw   mm4,        mm7             ; 35 34 25 24 15 14 05 04

+        punpckhbw   mm3,        mm7             ; 75 74 65 64 55 54 45 44

+        movq        mm6,        mm2             ; 33 32 23 22 13 12 03 02

+        punpcklwd   mm2,        mm4             ; 15 14 13 12 05 04 03 02

+        punpckhwd   mm6,        mm4             ; 35 34 33 32 25 24 23 22

+        movq        mm5,        mm1             ; 73 72 63 62 53 52 43 42

+        punpcklwd   mm1,        mm3             ; 55 54 53 52 45 44 43 42

+        punpckhwd   mm5,        mm3             ; 75 74 73 72 65 64 63 62

+        ; mm2 = 15 14 13 12 05 04 03 02

+        ; mm6 = 35 34 33 32 25 24 23 22

+        ; mm5 = 55 54 53 52 45 44 43 42

+        ; mm1 = 75 74 73 72 65 64 63 62

+        movd        [rsi+rax*4+2], mm2

+        psrlq       mm2,        32

+        movd        [rdi+rax*4+2], mm2

+        movd        [rsi+rax*2+2], mm6

+        psrlq       mm6,        32

+        movd        [rsi+rax+2],mm6

+        movd        [rsi+2],    mm1

+        psrlq       mm1,        32

+        movd        [rdi+2],    mm1

+        neg         rax

+        movd        [rdi+rax+2],mm5

+        psrlq       mm5,        32

+        movd        [rdi+rax*2+2], mm5

+        lea         rsi,        [rsi+rax*8]

+        dec         rcx

+        jnz         .next8_v

+    add rsp, 64

+    pop rsp

+    ; begin epilog

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+SECTION_RODATA

+align 16

+tfe:

+    times 8 db 0xfe

+align 16

+t80:

+    times 8 db 0x80

+align 16

+t3:

+    times 8 db 0x03

+align 16

+t4:

+    times 8 db 0x04

+align 16

+ones:

+    times 4 dw 0x0001

--- /dev/null

+++ b/vpx_dsp/x86/loopfilter_sse2.c

@@ -1,0 +1,1587 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include <emmintrin.h>  // SSE2

+#include "./vpx_dsp_rtcd.h"

+#include "vpx_ports/mem.h"

+#include "vpx_ports/emmintrin_compat.h"

+static INLINE __m128i abs_diff(__m128i a, __m128i b) {

+  return _mm_or_si128(_mm_subs_epu8(a, b), _mm_subs_epu8(b, a));

+}

+static void mb_lpf_horizontal_edge_w_sse2_8(unsigned char *s,

+                                            int p,

+                                            const unsigned char *_blimit,

+                                            const unsigned char *_limit,

+                                            const unsigned char *_thresh) {

+  const __m128i zero = _mm_set1_epi16(0);

+  const __m128i one = _mm_set1_epi8(1);

+  const __m128i blimit = _mm_load_si128((const __m128i *)_blimit);

+  const __m128i limit = _mm_load_si128((const __m128i *)_limit);

+  const __m128i thresh = _mm_load_si128((const __m128i *)_thresh);

+  __m128i mask, hev, flat, flat2;

+  __m128i q7p7, q6p6, q5p5, q4p4, q3p3, q2p2, q1p1, q0p0, p0q0, p1q1;

+  __m128i abs_p1p0;

+  q4p4 = _mm_loadl_epi64((__m128i *)(s - 5 * p));

+  q4p4 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q4p4),

+                                       (__m64 *)(s + 4 * p)));

+  q3p3 = _mm_loadl_epi64((__m128i *)(s - 4 * p));

+  q3p3 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q3p3),

+                                       (__m64 *)(s + 3 * p)));

+  q2p2 = _mm_loadl_epi64((__m128i *)(s - 3 * p));

+  q2p2 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q2p2),

+                                       (__m64 *)(s + 2 * p)));

+  q1p1 = _mm_loadl_epi64((__m128i *)(s - 2 * p));

+  q1p1 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q1p1),

+                                       (__m64 *)(s + 1 * p)));

+  p1q1 = _mm_shuffle_epi32(q1p1, 78);

+  q0p0 = _mm_loadl_epi64((__m128i *)(s - 1 * p));

+  q0p0 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q0p0),

+                                       (__m64 *)(s - 0 * p)));

+  p0q0 = _mm_shuffle_epi32(q0p0, 78);

+  {

+    __m128i abs_p1q1, abs_p0q0, abs_q1q0, fe, ff, work;

+    abs_p1p0 = abs_diff(q1p1, q0p0);

+    abs_q1q0 =  _mm_srli_si128(abs_p1p0, 8);

+    fe = _mm_set1_epi8(0xfe);

+    ff = _mm_cmpeq_epi8(abs_p1p0, abs_p1p0);

+    abs_p0q0 = abs_diff(q0p0, p0q0);

+    abs_p1q1 = abs_diff(q1p1, p1q1);

+    flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

+    hev = _mm_subs_epu8(flat, thresh);

+    hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

+    abs_p0q0 =_mm_adds_epu8(abs_p0q0, abs_p0q0);

+    abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

+    mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

+    mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

+    // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

+    mask = _mm_max_epu8(abs_p1p0, mask);

+    // mask |= (abs(p1 - p0) > limit) * -1;

+    // mask |= (abs(q1 - q0) > limit) * -1;

+    work = _mm_max_epu8(abs_diff(q2p2, q1p1),

+                        abs_diff(q3p3, q2p2));

+    mask = _mm_max_epu8(work, mask);

+    mask = _mm_max_epu8(mask, _mm_srli_si128(mask, 8));

+    mask = _mm_subs_epu8(mask, limit);

+    mask = _mm_cmpeq_epi8(mask, zero);

+  }

+  // lp filter

+  {

+    const __m128i t4 = _mm_set1_epi8(4);

+    const __m128i t3 = _mm_set1_epi8(3);

+    const __m128i t80 = _mm_set1_epi8(0x80);

+    const __m128i t1 = _mm_set1_epi16(0x1);

+    __m128i qs1ps1 = _mm_xor_si128(q1p1, t80);

+    __m128i qs0ps0 = _mm_xor_si128(q0p0, t80);

+    __m128i qs0 = _mm_xor_si128(p0q0, t80);

+    __m128i qs1 = _mm_xor_si128(p1q1, t80);

+    __m128i filt;

+    __m128i work_a;

+    __m128i filter1, filter2;

+    __m128i flat2_q6p6, flat2_q5p5, flat2_q4p4, flat2_q3p3, flat2_q2p2;

+    __m128i flat2_q1p1, flat2_q0p0, flat_q2p2, flat_q1p1, flat_q0p0;

+    filt = _mm_and_si128(_mm_subs_epi8(qs1ps1, qs1), hev);

+    work_a = _mm_subs_epi8(qs0, qs0ps0);

+    filt = _mm_adds_epi8(filt, work_a);

+    filt = _mm_adds_epi8(filt, work_a);

+    filt = _mm_adds_epi8(filt, work_a);

+    // (vp9_filter + 3 * (qs0 - ps0)) & mask

+    filt = _mm_and_si128(filt, mask);

+    filter1 = _mm_adds_epi8(filt, t4);

+    filter2 = _mm_adds_epi8(filt, t3);

+    filter1 = _mm_unpacklo_epi8(zero, filter1);

+    filter1 = _mm_srai_epi16(filter1, 0xB);

+    filter2 = _mm_unpacklo_epi8(zero, filter2);

+    filter2 = _mm_srai_epi16(filter2, 0xB);

+    // Filter1 >> 3

+    filt = _mm_packs_epi16(filter2, _mm_subs_epi16(zero, filter1));

+    qs0ps0 = _mm_xor_si128(_mm_adds_epi8(qs0ps0, filt), t80);

+    // filt >> 1

+    filt = _mm_adds_epi16(filter1, t1);

+    filt = _mm_srai_epi16(filt, 1);

+    filt = _mm_andnot_si128(_mm_srai_epi16(_mm_unpacklo_epi8(zero, hev), 0x8),

+                            filt);

+    filt = _mm_packs_epi16(filt, _mm_subs_epi16(zero, filt));

+    qs1ps1 = _mm_xor_si128(_mm_adds_epi8(qs1ps1, filt), t80);

+    // loopfilter done

+    {

+      __m128i work;

+      flat = _mm_max_epu8(abs_diff(q2p2, q0p0), abs_diff(q3p3, q0p0));

+      flat = _mm_max_epu8(abs_p1p0, flat);

+      flat = _mm_max_epu8(flat, _mm_srli_si128(flat, 8));

+      flat = _mm_subs_epu8(flat, one);

+      flat = _mm_cmpeq_epi8(flat, zero);

+      flat = _mm_and_si128(flat, mask);

+      q5p5 = _mm_loadl_epi64((__m128i *)(s - 6 * p));

+      q5p5 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q5p5),

+                                           (__m64 *)(s + 5 * p)));

+      q6p6 = _mm_loadl_epi64((__m128i *)(s - 7 * p));

+      q6p6 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q6p6),

+                                           (__m64 *)(s + 6 * p)));

+      flat2 = _mm_max_epu8(abs_diff(q4p4, q0p0), abs_diff(q5p5, q0p0));

+      q7p7 = _mm_loadl_epi64((__m128i *)(s - 8 * p));

+      q7p7 = _mm_castps_si128(_mm_loadh_pi(_mm_castsi128_ps(q7p7),

+                                           (__m64 *)(s + 7 * p)));

+      work = _mm_max_epu8(abs_diff(q6p6, q0p0), abs_diff(q7p7, q0p0));

+      flat2 = _mm_max_epu8(work, flat2);

+      flat2 = _mm_max_epu8(flat2, _mm_srli_si128(flat2, 8));

+      flat2 = _mm_subs_epu8(flat2, one);

+      flat2 = _mm_cmpeq_epi8(flat2, zero);

+      flat2 = _mm_and_si128(flat2, flat);  // flat2 & flat & mask

+    }

+    // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+    // flat and wide flat calculations

+    {

+      const __m128i eight = _mm_set1_epi16(8);

+      const __m128i four = _mm_set1_epi16(4);

+      __m128i p7_16, p6_16, p5_16, p4_16, p3_16, p2_16, p1_16, p0_16;

+      __m128i q7_16, q6_16, q5_16, q4_16, q3_16, q2_16, q1_16, q0_16;

+      __m128i pixelFilter_p, pixelFilter_q;

+      __m128i pixetFilter_p2p1p0, pixetFilter_q2q1q0;

+      __m128i sum_p7, sum_q7, sum_p3, sum_q3, res_p, res_q;

+      p7_16 = _mm_unpacklo_epi8(q7p7, zero);;

+      p6_16 = _mm_unpacklo_epi8(q6p6, zero);

+      p5_16 = _mm_unpacklo_epi8(q5p5, zero);

+      p4_16 = _mm_unpacklo_epi8(q4p4, zero);

+      p3_16 = _mm_unpacklo_epi8(q3p3, zero);

+      p2_16 = _mm_unpacklo_epi8(q2p2, zero);

+      p1_16 = _mm_unpacklo_epi8(q1p1, zero);

+      p0_16 = _mm_unpacklo_epi8(q0p0, zero);

+      q0_16 = _mm_unpackhi_epi8(q0p0, zero);

+      q1_16 = _mm_unpackhi_epi8(q1p1, zero);

+      q2_16 = _mm_unpackhi_epi8(q2p2, zero);

+      q3_16 = _mm_unpackhi_epi8(q3p3, zero);

+      q4_16 = _mm_unpackhi_epi8(q4p4, zero);

+      q5_16 = _mm_unpackhi_epi8(q5p5, zero);

+      q6_16 = _mm_unpackhi_epi8(q6p6, zero);

+      q7_16 = _mm_unpackhi_epi8(q7p7, zero);

+      pixelFilter_p = _mm_add_epi16(_mm_add_epi16(p6_16, p5_16),

+                                    _mm_add_epi16(p4_16, p3_16));

+      pixelFilter_q = _mm_add_epi16(_mm_add_epi16(q6_16, q5_16),

+                                    _mm_add_epi16(q4_16, q3_16));

+      pixetFilter_p2p1p0 = _mm_add_epi16(p0_16, _mm_add_epi16(p2_16, p1_16));

+      pixelFilter_p =  _mm_add_epi16(pixelFilter_p, pixetFilter_p2p1p0);

+      pixetFilter_q2q1q0 = _mm_add_epi16(q0_16, _mm_add_epi16(q2_16, q1_16));

+      pixelFilter_q =  _mm_add_epi16(pixelFilter_q, pixetFilter_q2q1q0);

+      pixelFilter_p =  _mm_add_epi16(eight, _mm_add_epi16(pixelFilter_p,

+                                                         pixelFilter_q));

+      pixetFilter_p2p1p0 =   _mm_add_epi16(four,

+                                           _mm_add_epi16(pixetFilter_p2p1p0,

+                                                         pixetFilter_q2q1q0));

+      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                                           _mm_add_epi16(p7_16, p0_16)), 4);

+      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                                           _mm_add_epi16(q7_16, q0_16)), 4);

+      flat2_q0p0 = _mm_packus_epi16(res_p, res_q);

+      res_p = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

+                                           _mm_add_epi16(p3_16, p0_16)), 3);

+      res_q = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

+                                           _mm_add_epi16(q3_16, q0_16)), 3);

+      flat_q0p0 = _mm_packus_epi16(res_p, res_q);

+      sum_p7 = _mm_add_epi16(p7_16, p7_16);

+      sum_q7 = _mm_add_epi16(q7_16, q7_16);

+      sum_p3 = _mm_add_epi16(p3_16, p3_16);

+      sum_q3 = _mm_add_epi16(q3_16, q3_16);

+      pixelFilter_q = _mm_sub_epi16(pixelFilter_p, p6_16);

+      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q6_16);

+      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                             _mm_add_epi16(sum_p7, p1_16)), 4);

+      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                             _mm_add_epi16(sum_q7, q1_16)), 4);

+      flat2_q1p1 = _mm_packus_epi16(res_p, res_q);

+      pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_p2p1p0, p2_16);

+      pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q2_16);

+      res_p = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

+                             _mm_add_epi16(sum_p3, p1_16)), 3);

+      res_q = _mm_srli_epi16(_mm_add_epi16(pixetFilter_q2q1q0,

+                             _mm_add_epi16(sum_q3, q1_16)), 3);

+      flat_q1p1 = _mm_packus_epi16(res_p, res_q);

+      sum_p7 = _mm_add_epi16(sum_p7, p7_16);

+      sum_q7 = _mm_add_epi16(sum_q7, q7_16);

+      sum_p3 = _mm_add_epi16(sum_p3, p3_16);

+      sum_q3 = _mm_add_epi16(sum_q3, q3_16);

+      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q5_16);

+      pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p5_16);

+      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                             _mm_add_epi16(sum_p7, p2_16)), 4);

+      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                             _mm_add_epi16(sum_q7, q2_16)), 4);

+      flat2_q2p2 = _mm_packus_epi16(res_p, res_q);

+      pixetFilter_p2p1p0 = _mm_sub_epi16(pixetFilter_p2p1p0, q1_16);

+      pixetFilter_q2q1q0 = _mm_sub_epi16(pixetFilter_q2q1q0, p1_16);

+      res_p = _mm_srli_epi16(_mm_add_epi16(pixetFilter_p2p1p0,

+                                           _mm_add_epi16(sum_p3, p2_16)), 3);

+      res_q = _mm_srli_epi16(_mm_add_epi16(pixetFilter_q2q1q0,

+                                           _mm_add_epi16(sum_q3, q2_16)), 3);

+      flat_q2p2 = _mm_packus_epi16(res_p, res_q);

+      sum_p7 = _mm_add_epi16(sum_p7, p7_16);

+      sum_q7 = _mm_add_epi16(sum_q7, q7_16);

+      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q4_16);

+      pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p4_16);

+      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                             _mm_add_epi16(sum_p7, p3_16)), 4);

+      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                             _mm_add_epi16(sum_q7, q3_16)), 4);

+      flat2_q3p3 = _mm_packus_epi16(res_p, res_q);

+      sum_p7 = _mm_add_epi16(sum_p7, p7_16);

+      sum_q7 = _mm_add_epi16(sum_q7, q7_16);

+      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q3_16);

+      pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p3_16);

+      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                             _mm_add_epi16(sum_p7, p4_16)), 4);

+      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                             _mm_add_epi16(sum_q7, q4_16)), 4);

+      flat2_q4p4 = _mm_packus_epi16(res_p, res_q);

+      sum_p7 = _mm_add_epi16(sum_p7, p7_16);

+      sum_q7 = _mm_add_epi16(sum_q7, q7_16);

+      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q2_16);

+      pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p2_16);

+      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                             _mm_add_epi16(sum_p7, p5_16)), 4);

+      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                             _mm_add_epi16(sum_q7, q5_16)), 4);

+      flat2_q5p5 = _mm_packus_epi16(res_p, res_q);

+      sum_p7 = _mm_add_epi16(sum_p7, p7_16);

+      sum_q7 = _mm_add_epi16(sum_q7, q7_16);

+      pixelFilter_p = _mm_sub_epi16(pixelFilter_p, q1_16);

+      pixelFilter_q = _mm_sub_epi16(pixelFilter_q, p1_16);

+      res_p = _mm_srli_epi16(_mm_add_epi16(pixelFilter_p,

+                             _mm_add_epi16(sum_p7, p6_16)), 4);

+      res_q = _mm_srli_epi16(_mm_add_epi16(pixelFilter_q,

+                             _mm_add_epi16(sum_q7, q6_16)), 4);

+      flat2_q6p6 = _mm_packus_epi16(res_p, res_q);

+    }

+    // wide flat

+    // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+    flat = _mm_shuffle_epi32(flat, 68);

+    flat2 = _mm_shuffle_epi32(flat2, 68);

+    q2p2 = _mm_andnot_si128(flat, q2p2);

+    flat_q2p2 = _mm_and_si128(flat, flat_q2p2);

+    q2p2 = _mm_or_si128(q2p2, flat_q2p2);

+    qs1ps1 = _mm_andnot_si128(flat, qs1ps1);

+    flat_q1p1 = _mm_and_si128(flat, flat_q1p1);

+    q1p1 = _mm_or_si128(qs1ps1, flat_q1p1);

+    qs0ps0 = _mm_andnot_si128(flat, qs0ps0);

+    flat_q0p0 = _mm_and_si128(flat, flat_q0p0);

+    q0p0 = _mm_or_si128(qs0ps0, flat_q0p0);

+    q6p6 = _mm_andnot_si128(flat2, q6p6);

+    flat2_q6p6 = _mm_and_si128(flat2, flat2_q6p6);

+    q6p6 = _mm_or_si128(q6p6, flat2_q6p6);

+    _mm_storel_epi64((__m128i *)(s - 7 * p), q6p6);

+    _mm_storeh_pi((__m64 *)(s + 6 * p), _mm_castsi128_ps(q6p6));

+    q5p5 = _mm_andnot_si128(flat2, q5p5);

+    flat2_q5p5 = _mm_and_si128(flat2, flat2_q5p5);

+    q5p5 = _mm_or_si128(q5p5, flat2_q5p5);

+    _mm_storel_epi64((__m128i *)(s - 6 * p), q5p5);

+    _mm_storeh_pi((__m64 *)(s + 5 * p), _mm_castsi128_ps(q5p5));

+    q4p4 = _mm_andnot_si128(flat2, q4p4);

+    flat2_q4p4 = _mm_and_si128(flat2, flat2_q4p4);

+    q4p4 = _mm_or_si128(q4p4, flat2_q4p4);

+    _mm_storel_epi64((__m128i *)(s - 5 * p), q4p4);

+    _mm_storeh_pi((__m64 *)(s + 4 * p), _mm_castsi128_ps(q4p4));

+    q3p3 = _mm_andnot_si128(flat2, q3p3);

+    flat2_q3p3 = _mm_and_si128(flat2, flat2_q3p3);

+    q3p3 = _mm_or_si128(q3p3, flat2_q3p3);

+    _mm_storel_epi64((__m128i *)(s - 4 * p), q3p3);

+    _mm_storeh_pi((__m64 *)(s + 3 * p), _mm_castsi128_ps(q3p3));

+    q2p2 = _mm_andnot_si128(flat2, q2p2);

+    flat2_q2p2 = _mm_and_si128(flat2, flat2_q2p2);

+    q2p2 = _mm_or_si128(q2p2, flat2_q2p2);

+    _mm_storel_epi64((__m128i *)(s - 3 * p), q2p2);

+    _mm_storeh_pi((__m64 *)(s + 2 * p), _mm_castsi128_ps(q2p2));

+    q1p1 = _mm_andnot_si128(flat2, q1p1);

+    flat2_q1p1 = _mm_and_si128(flat2, flat2_q1p1);

+    q1p1 = _mm_or_si128(q1p1, flat2_q1p1);

+    _mm_storel_epi64((__m128i *)(s - 2 * p), q1p1);

+    _mm_storeh_pi((__m64 *)(s + 1 * p), _mm_castsi128_ps(q1p1));

+    q0p0 = _mm_andnot_si128(flat2, q0p0);

+    flat2_q0p0 = _mm_and_si128(flat2, flat2_q0p0);

+    q0p0 = _mm_or_si128(q0p0, flat2_q0p0);

+    _mm_storel_epi64((__m128i *)(s - 1 * p), q0p0);

+    _mm_storeh_pi((__m64 *)(s - 0 * p),  _mm_castsi128_ps(q0p0));

+  }

+}

+static INLINE __m128i filter_add2_sub2(const __m128i *const total,

+                                       const __m128i *const a1,

+                                       const __m128i *const a2,

+                                       const __m128i *const s1,

+                                       const __m128i *const s2) {

+  __m128i x = _mm_add_epi16(*a1, *total);

+  x = _mm_add_epi16(_mm_sub_epi16(x, _mm_add_epi16(*s1, *s2)), *a2);

+  return x;

+}

+static INLINE __m128i filter8_mask(const __m128i *const flat,

+                                   const __m128i *const other_filt,

+                                   const __m128i *const f8_lo,

+                                   const __m128i *const f8_hi) {

+  const __m128i f8 = _mm_packus_epi16(_mm_srli_epi16(*f8_lo, 3),

+                                      _mm_srli_epi16(*f8_hi, 3));

+  const __m128i result = _mm_and_si128(*flat, f8);

+  return _mm_or_si128(_mm_andnot_si128(*flat, *other_filt), result);

+}

+static INLINE __m128i filter16_mask(const __m128i *const flat,

+                                    const __m128i *const other_filt,

+                                    const __m128i *const f_lo,

+                                    const __m128i *const f_hi) {

+  const __m128i f = _mm_packus_epi16(_mm_srli_epi16(*f_lo, 4),

+                                     _mm_srli_epi16(*f_hi, 4));

+  const __m128i result = _mm_and_si128(*flat, f);

+  return _mm_or_si128(_mm_andnot_si128(*flat, *other_filt), result);

+}

+static void mb_lpf_horizontal_edge_w_sse2_16(unsigned char *s,

+                                             int p,

+                                             const unsigned char *_blimit,

+                                             const unsigned char *_limit,

+                                             const unsigned char *_thresh) {

+  const __m128i zero = _mm_set1_epi16(0);

+  const __m128i one = _mm_set1_epi8(1);

+  const __m128i blimit = _mm_load_si128((const __m128i *)_blimit);

+  const __m128i limit = _mm_load_si128((const __m128i *)_limit);

+  const __m128i thresh = _mm_load_si128((const __m128i *)_thresh);

+  __m128i mask, hev, flat, flat2;

+  __m128i p7, p6, p5;

+  __m128i p4, p3, p2, p1, p0, q0, q1, q2, q3, q4;

+  __m128i q5, q6, q7;

+  __m128i op2, op1, op0, oq0, oq1, oq2;

+  __m128i max_abs_p1p0q1q0;

+  p7 = _mm_loadu_si128((__m128i *)(s - 8 * p));

+  p6 = _mm_loadu_si128((__m128i *)(s - 7 * p));

+  p5 = _mm_loadu_si128((__m128i *)(s - 6 * p));

+  p4 = _mm_loadu_si128((__m128i *)(s - 5 * p));

+  p3 = _mm_loadu_si128((__m128i *)(s - 4 * p));

+  p2 = _mm_loadu_si128((__m128i *)(s - 3 * p));

+  p1 = _mm_loadu_si128((__m128i *)(s - 2 * p));

+  p0 = _mm_loadu_si128((__m128i *)(s - 1 * p));

+  q0 = _mm_loadu_si128((__m128i *)(s - 0 * p));

+  q1 = _mm_loadu_si128((__m128i *)(s + 1 * p));

+  q2 = _mm_loadu_si128((__m128i *)(s + 2 * p));

+  q3 = _mm_loadu_si128((__m128i *)(s + 3 * p));

+  q4 = _mm_loadu_si128((__m128i *)(s + 4 * p));

+  q5 = _mm_loadu_si128((__m128i *)(s + 5 * p));

+  q6 = _mm_loadu_si128((__m128i *)(s + 6 * p));

+  q7 = _mm_loadu_si128((__m128i *)(s + 7 * p));

+  {

+    const __m128i abs_p1p0 = abs_diff(p1, p0);

+    const __m128i abs_q1q0 = abs_diff(q1, q0);

+    const __m128i fe = _mm_set1_epi8(0xfe);

+    const __m128i ff = _mm_cmpeq_epi8(zero, zero);

+    __m128i abs_p0q0 = abs_diff(p0, q0);

+    __m128i abs_p1q1 = abs_diff(p1, q1);

+    __m128i work;

+    max_abs_p1p0q1q0 = _mm_max_epu8(abs_p1p0, abs_q1q0);

+    abs_p0q0 =_mm_adds_epu8(abs_p0q0, abs_p0q0);

+    abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

+    mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

+    mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

+    // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

+    mask = _mm_max_epu8(max_abs_p1p0q1q0, mask);

+    // mask |= (abs(p1 - p0) > limit) * -1;

+    // mask |= (abs(q1 - q0) > limit) * -1;

+    work = _mm_max_epu8(abs_diff(p2, p1), abs_diff(p3, p2));

+    mask = _mm_max_epu8(work, mask);

+    work = _mm_max_epu8(abs_diff(q2, q1), abs_diff(q3, q2));

+    mask = _mm_max_epu8(work, mask);

+    mask = _mm_subs_epu8(mask, limit);

+    mask = _mm_cmpeq_epi8(mask, zero);

+  }

+  {

+    __m128i work;

+    work = _mm_max_epu8(abs_diff(p2, p0), abs_diff(q2, q0));

+    flat = _mm_max_epu8(work, max_abs_p1p0q1q0);

+    work = _mm_max_epu8(abs_diff(p3, p0), abs_diff(q3, q0));

+    flat = _mm_max_epu8(work, flat);

+    work = _mm_max_epu8(abs_diff(p4, p0), abs_diff(q4, q0));

+    flat = _mm_subs_epu8(flat, one);

+    flat = _mm_cmpeq_epi8(flat, zero);

+    flat = _mm_and_si128(flat, mask);

+    flat2 = _mm_max_epu8(abs_diff(p5, p0), abs_diff(q5, q0));

+    flat2 = _mm_max_epu8(work, flat2);

+    work = _mm_max_epu8(abs_diff(p6, p0), abs_diff(q6, q0));

+    flat2 = _mm_max_epu8(work, flat2);

+    work = _mm_max_epu8(abs_diff(p7, p0), abs_diff(q7, q0));

+    flat2 = _mm_max_epu8(work, flat2);

+    flat2 = _mm_subs_epu8(flat2, one);

+    flat2 = _mm_cmpeq_epi8(flat2, zero);

+    flat2 = _mm_and_si128(flat2, flat);  // flat2 & flat & mask

+  }

+  // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+  // filter4

+  {

+    const __m128i t4 = _mm_set1_epi8(4);

+    const __m128i t3 = _mm_set1_epi8(3);

+    const __m128i t80 = _mm_set1_epi8(0x80);

+    const __m128i te0 = _mm_set1_epi8(0xe0);

+    const __m128i t1f = _mm_set1_epi8(0x1f);

+    const __m128i t1 = _mm_set1_epi8(0x1);

+    const __m128i t7f = _mm_set1_epi8(0x7f);

+    const __m128i ff = _mm_cmpeq_epi8(t4, t4);

+    __m128i filt;

+    __m128i work_a;

+    __m128i filter1, filter2;

+    op1 = _mm_xor_si128(p1, t80);

+    op0 = _mm_xor_si128(p0, t80);

+    oq0 = _mm_xor_si128(q0, t80);

+    oq1 = _mm_xor_si128(q1, t80);

+    hev = _mm_subs_epu8(max_abs_p1p0q1q0, thresh);

+    hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

+    filt = _mm_and_si128(_mm_subs_epi8(op1, oq1), hev);

+    work_a = _mm_subs_epi8(oq0, op0);

+    filt = _mm_adds_epi8(filt, work_a);

+    filt = _mm_adds_epi8(filt, work_a);

+    filt = _mm_adds_epi8(filt, work_a);

+    // (vp9_filter + 3 * (qs0 - ps0)) & mask

+    filt = _mm_and_si128(filt, mask);

+    filter1 = _mm_adds_epi8(filt, t4);

+    filter2 = _mm_adds_epi8(filt, t3);

+    // Filter1 >> 3

+    work_a = _mm_cmpgt_epi8(zero, filter1);

+    filter1 = _mm_srli_epi16(filter1, 3);

+    work_a = _mm_and_si128(work_a, te0);

+    filter1 = _mm_and_si128(filter1, t1f);

+    filter1 = _mm_or_si128(filter1, work_a);

+    oq0 = _mm_xor_si128(_mm_subs_epi8(oq0, filter1), t80);

+    // Filter2 >> 3

+    work_a = _mm_cmpgt_epi8(zero, filter2);

+    filter2 = _mm_srli_epi16(filter2, 3);

+    work_a = _mm_and_si128(work_a, te0);

+    filter2 = _mm_and_si128(filter2, t1f);

+    filter2 = _mm_or_si128(filter2, work_a);

+    op0 = _mm_xor_si128(_mm_adds_epi8(op0, filter2), t80);

+    // filt >> 1

+    filt = _mm_adds_epi8(filter1, t1);

+    work_a = _mm_cmpgt_epi8(zero, filt);

+    filt = _mm_srli_epi16(filt, 1);

+    work_a = _mm_and_si128(work_a, t80);

+    filt = _mm_and_si128(filt, t7f);

+    filt = _mm_or_si128(filt, work_a);

+    filt = _mm_andnot_si128(hev, filt);

+    op1 = _mm_xor_si128(_mm_adds_epi8(op1, filt), t80);

+    oq1 = _mm_xor_si128(_mm_subs_epi8(oq1, filt), t80);

+    // loopfilter done

+    // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+    // filter8

+    {

+      const __m128i four = _mm_set1_epi16(4);

+      const __m128i p3_lo = _mm_unpacklo_epi8(p3, zero);

+      const __m128i p2_lo = _mm_unpacklo_epi8(p2, zero);

+      const __m128i p1_lo = _mm_unpacklo_epi8(p1, zero);

+      const __m128i p0_lo = _mm_unpacklo_epi8(p0, zero);

+      const __m128i q0_lo = _mm_unpacklo_epi8(q0, zero);

+      const __m128i q1_lo = _mm_unpacklo_epi8(q1, zero);

+      const __m128i q2_lo = _mm_unpacklo_epi8(q2, zero);

+      const __m128i q3_lo = _mm_unpacklo_epi8(q3, zero);

+      const __m128i p3_hi = _mm_unpackhi_epi8(p3, zero);

+      const __m128i p2_hi = _mm_unpackhi_epi8(p2, zero);

+      const __m128i p1_hi = _mm_unpackhi_epi8(p1, zero);

+      const __m128i p0_hi = _mm_unpackhi_epi8(p0, zero);

+      const __m128i q0_hi = _mm_unpackhi_epi8(q0, zero);

+      const __m128i q1_hi = _mm_unpackhi_epi8(q1, zero);

+      const __m128i q2_hi = _mm_unpackhi_epi8(q2, zero);

+      const __m128i q3_hi = _mm_unpackhi_epi8(q3, zero);

+      __m128i f8_lo, f8_hi;

+      f8_lo = _mm_add_epi16(_mm_add_epi16(p3_lo, four),

+                            _mm_add_epi16(p3_lo, p2_lo));

+      f8_lo = _mm_add_epi16(_mm_add_epi16(p3_lo, f8_lo),

+                            _mm_add_epi16(p2_lo, p1_lo));

+      f8_lo = _mm_add_epi16(_mm_add_epi16(p0_lo, q0_lo), f8_lo);

+      f8_hi = _mm_add_epi16(_mm_add_epi16(p3_hi, four),

+                            _mm_add_epi16(p3_hi, p2_hi));

+      f8_hi = _mm_add_epi16(_mm_add_epi16(p3_hi, f8_hi),

+                            _mm_add_epi16(p2_hi, p1_hi));

+      f8_hi = _mm_add_epi16(_mm_add_epi16(p0_hi, q0_hi), f8_hi);

+      op2 = filter8_mask(&flat, &p2, &f8_lo, &f8_hi);

+      f8_lo = filter_add2_sub2(&f8_lo, &q1_lo, &p1_lo, &p2_lo, &p3_lo);

+      f8_hi = filter_add2_sub2(&f8_hi, &q1_hi, &p1_hi, &p2_hi, &p3_hi);

+      op1 = filter8_mask(&flat, &op1, &f8_lo, &f8_hi);

+      f8_lo = filter_add2_sub2(&f8_lo, &q2_lo, &p0_lo, &p1_lo, &p3_lo);

+      f8_hi = filter_add2_sub2(&f8_hi, &q2_hi, &p0_hi, &p1_hi, &p3_hi);

+      op0 = filter8_mask(&flat, &op0, &f8_lo, &f8_hi);

+      f8_lo = filter_add2_sub2(&f8_lo, &q3_lo, &q0_lo, &p0_lo, &p3_lo);

+      f8_hi = filter_add2_sub2(&f8_hi, &q3_hi, &q0_hi, &p0_hi, &p3_hi);

+      oq0 = filter8_mask(&flat, &oq0, &f8_lo, &f8_hi);

+      f8_lo = filter_add2_sub2(&f8_lo, &q3_lo, &q1_lo, &q0_lo, &p2_lo);

+      f8_hi = filter_add2_sub2(&f8_hi, &q3_hi, &q1_hi, &q0_hi, &p2_hi);

+      oq1 = filter8_mask(&flat, &oq1, &f8_lo, &f8_hi);

+      f8_lo = filter_add2_sub2(&f8_lo, &q3_lo, &q2_lo, &q1_lo, &p1_lo);

+      f8_hi = filter_add2_sub2(&f8_hi, &q3_hi, &q2_hi, &q1_hi, &p1_hi);

+      oq2 = filter8_mask(&flat, &q2, &f8_lo, &f8_hi);

+    }

+    // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+    // wide flat calculations

+    {

+      const __m128i eight = _mm_set1_epi16(8);

+      const __m128i p7_lo = _mm_unpacklo_epi8(p7, zero);

+      const __m128i p6_lo = _mm_unpacklo_epi8(p6, zero);

+      const __m128i p5_lo = _mm_unpacklo_epi8(p5, zero);

+      const __m128i p4_lo = _mm_unpacklo_epi8(p4, zero);

+      const __m128i p3_lo = _mm_unpacklo_epi8(p3, zero);

+      const __m128i p2_lo = _mm_unpacklo_epi8(p2, zero);

+      const __m128i p1_lo = _mm_unpacklo_epi8(p1, zero);

+      const __m128i p0_lo = _mm_unpacklo_epi8(p0, zero);

+      const __m128i q0_lo = _mm_unpacklo_epi8(q0, zero);

+      const __m128i q1_lo = _mm_unpacklo_epi8(q1, zero);

+      const __m128i q2_lo = _mm_unpacklo_epi8(q2, zero);

+      const __m128i q3_lo = _mm_unpacklo_epi8(q3, zero);

+      const __m128i q4_lo = _mm_unpacklo_epi8(q4, zero);

+      const __m128i q5_lo = _mm_unpacklo_epi8(q5, zero);

+      const __m128i q6_lo = _mm_unpacklo_epi8(q6, zero);

+      const __m128i q7_lo = _mm_unpacklo_epi8(q7, zero);

+      const __m128i p7_hi = _mm_unpackhi_epi8(p7, zero);

+      const __m128i p6_hi = _mm_unpackhi_epi8(p6, zero);

+      const __m128i p5_hi = _mm_unpackhi_epi8(p5, zero);

+      const __m128i p4_hi = _mm_unpackhi_epi8(p4, zero);

+      const __m128i p3_hi = _mm_unpackhi_epi8(p3, zero);

+      const __m128i p2_hi = _mm_unpackhi_epi8(p2, zero);

+      const __m128i p1_hi = _mm_unpackhi_epi8(p1, zero);

+      const __m128i p0_hi = _mm_unpackhi_epi8(p0, zero);

+      const __m128i q0_hi = _mm_unpackhi_epi8(q0, zero);

+      const __m128i q1_hi = _mm_unpackhi_epi8(q1, zero);

+      const __m128i q2_hi = _mm_unpackhi_epi8(q2, zero);

+      const __m128i q3_hi = _mm_unpackhi_epi8(q3, zero);

+      const __m128i q4_hi = _mm_unpackhi_epi8(q4, zero);

+      const __m128i q5_hi = _mm_unpackhi_epi8(q5, zero);

+      const __m128i q6_hi = _mm_unpackhi_epi8(q6, zero);

+      const __m128i q7_hi = _mm_unpackhi_epi8(q7, zero);

+      __m128i f_lo;

+      __m128i f_hi;

+      f_lo = _mm_sub_epi16(_mm_slli_epi16(p7_lo, 3), p7_lo);  // p7 * 7

+      f_lo = _mm_add_epi16(_mm_slli_epi16(p6_lo, 1),

+                           _mm_add_epi16(p4_lo, f_lo));

+      f_lo = _mm_add_epi16(_mm_add_epi16(p3_lo, f_lo),

+                           _mm_add_epi16(p2_lo, p1_lo));

+      f_lo = _mm_add_epi16(_mm_add_epi16(p0_lo, q0_lo), f_lo);

+      f_lo = _mm_add_epi16(_mm_add_epi16(p5_lo, eight), f_lo);

+      f_hi = _mm_sub_epi16(_mm_slli_epi16(p7_hi, 3), p7_hi);  // p7 * 7

+      f_hi = _mm_add_epi16(_mm_slli_epi16(p6_hi, 1),

+                           _mm_add_epi16(p4_hi, f_hi));

+      f_hi = _mm_add_epi16(_mm_add_epi16(p3_hi, f_hi),

+                           _mm_add_epi16(p2_hi, p1_hi));

+      f_hi = _mm_add_epi16(_mm_add_epi16(p0_hi, q0_hi), f_hi);

+      f_hi = _mm_add_epi16(_mm_add_epi16(p5_hi, eight), f_hi);

+      p6 = filter16_mask(&flat2, &p6, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s - 7 * p), p6);

+      f_lo = filter_add2_sub2(&f_lo, &q1_lo, &p5_lo, &p6_lo, &p7_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q1_hi, &p5_hi, &p6_hi, &p7_hi);

+      p5 = filter16_mask(&flat2, &p5, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s - 6 * p), p5);

+      f_lo = filter_add2_sub2(&f_lo, &q2_lo, &p4_lo, &p5_lo, &p7_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q2_hi, &p4_hi, &p5_hi, &p7_hi);

+      p4 = filter16_mask(&flat2, &p4, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s - 5 * p), p4);

+      f_lo = filter_add2_sub2(&f_lo, &q3_lo, &p3_lo, &p4_lo, &p7_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q3_hi, &p3_hi, &p4_hi, &p7_hi);

+      p3 = filter16_mask(&flat2, &p3, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s - 4 * p), p3);

+      f_lo = filter_add2_sub2(&f_lo, &q4_lo, &p2_lo, &p3_lo, &p7_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q4_hi, &p2_hi, &p3_hi, &p7_hi);

+      op2 = filter16_mask(&flat2, &op2, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s - 3 * p), op2);

+      f_lo = filter_add2_sub2(&f_lo, &q5_lo, &p1_lo, &p2_lo, &p7_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q5_hi, &p1_hi, &p2_hi, &p7_hi);

+      op1 = filter16_mask(&flat2, &op1, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s - 2 * p), op1);

+      f_lo = filter_add2_sub2(&f_lo, &q6_lo, &p0_lo, &p1_lo, &p7_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q6_hi, &p0_hi, &p1_hi, &p7_hi);

+      op0 = filter16_mask(&flat2, &op0, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s - 1 * p), op0);

+      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q0_lo, &p0_lo, &p7_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q0_hi, &p0_hi, &p7_hi);

+      oq0 = filter16_mask(&flat2, &oq0, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s - 0 * p), oq0);

+      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q1_lo, &p6_lo, &q0_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q1_hi, &p6_hi, &q0_hi);

+      oq1 = filter16_mask(&flat2, &oq1, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s + 1 * p), oq1);

+      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q2_lo, &p5_lo, &q1_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q2_hi, &p5_hi, &q1_hi);

+      oq2 = filter16_mask(&flat2, &oq2, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s + 2 * p), oq2);

+      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q3_lo, &p4_lo, &q2_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q3_hi, &p4_hi, &q2_hi);

+      q3 = filter16_mask(&flat2, &q3, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s + 3 * p), q3);

+      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q4_lo, &p3_lo, &q3_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q4_hi, &p3_hi, &q3_hi);

+      q4 = filter16_mask(&flat2, &q4, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s + 4 * p), q4);

+      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q5_lo, &p2_lo, &q4_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q5_hi, &p2_hi, &q4_hi);

+      q5 = filter16_mask(&flat2, &q5, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s + 5 * p), q5);

+      f_lo = filter_add2_sub2(&f_lo, &q7_lo, &q6_lo, &p1_lo, &q5_lo);

+      f_hi = filter_add2_sub2(&f_hi, &q7_hi, &q6_hi, &p1_hi, &q5_hi);

+      q6 = filter16_mask(&flat2, &q6, &f_lo, &f_hi);

+      _mm_storeu_si128((__m128i *)(s + 6 * p), q6);

+    }

+    // wide flat

+    // ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

+  }

+}

+// TODO(yunqingwang): remove count and call these 2 functions(8 or 16) directly.

+void vp9_lpf_horizontal_16_sse2(unsigned char *s, int p,

+                                const unsigned char *_blimit,

+                                const unsigned char *_limit,

+                                const unsigned char *_thresh, int count) {

+  if (count == 1)

+    mb_lpf_horizontal_edge_w_sse2_8(s, p, _blimit, _limit, _thresh);

+  else

+    mb_lpf_horizontal_edge_w_sse2_16(s, p, _blimit, _limit, _thresh);

+}

+void vp9_lpf_horizontal_8_sse2(unsigned char *s, int p,

+                               const unsigned char *_blimit,

+                               const unsigned char *_limit,

+                               const unsigned char *_thresh, int count) {

+  DECLARE_ALIGNED(16, unsigned char, flat_op2[16]);

+  DECLARE_ALIGNED(16, unsigned char, flat_op1[16]);

+  DECLARE_ALIGNED(16, unsigned char, flat_op0[16]);

+  DECLARE_ALIGNED(16, unsigned char, flat_oq2[16]);

+  DECLARE_ALIGNED(16, unsigned char, flat_oq1[16]);

+  DECLARE_ALIGNED(16, unsigned char, flat_oq0[16]);

+  const __m128i zero = _mm_set1_epi16(0);

+  const __m128i blimit = _mm_load_si128((const __m128i *)_blimit);

+  const __m128i limit = _mm_load_si128((const __m128i *)_limit);

+  const __m128i thresh = _mm_load_si128((const __m128i *)_thresh);

+  __m128i mask, hev, flat;

+  __m128i p3, p2, p1, p0, q0, q1, q2, q3;

+  __m128i q3p3, q2p2, q1p1, q0p0, p1q1, p0q0;

+  (void)count;

+  q3p3 = _mm_unpacklo_epi64(_mm_loadl_epi64((__m128i *)(s - 4 * p)),

+                            _mm_loadl_epi64((__m128i *)(s + 3 * p)));

+  q2p2 = _mm_unpacklo_epi64(_mm_loadl_epi64((__m128i *)(s - 3 * p)),

+                            _mm_loadl_epi64((__m128i *)(s + 2 * p)));

+  q1p1 = _mm_unpacklo_epi64(_mm_loadl_epi64((__m128i *)(s - 2 * p)),

+                            _mm_loadl_epi64((__m128i *)(s + 1 * p)));

+  q0p0 = _mm_unpacklo_epi64(_mm_loadl_epi64((__m128i *)(s - 1 * p)),

+                            _mm_loadl_epi64((__m128i *)(s - 0 * p)));

+  p1q1 = _mm_shuffle_epi32(q1p1, 78);

+  p0q0 = _mm_shuffle_epi32(q0p0, 78);

+  {

+    // filter_mask and hev_mask

+    const __m128i one = _mm_set1_epi8(1);

+    const __m128i fe = _mm_set1_epi8(0xfe);

+    const __m128i ff = _mm_cmpeq_epi8(fe, fe);

+    __m128i abs_p1q1, abs_p0q0, abs_q1q0, abs_p1p0, work;

+    abs_p1p0 = abs_diff(q1p1, q0p0);

+    abs_q1q0 =  _mm_srli_si128(abs_p1p0, 8);

+    abs_p0q0 = abs_diff(q0p0, p0q0);

+    abs_p1q1 = abs_diff(q1p1, p1q1);

+    flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

+    hev = _mm_subs_epu8(flat, thresh);

+    hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

+    abs_p0q0 =_mm_adds_epu8(abs_p0q0, abs_p0q0);

+    abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

+    mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

+    mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

+    // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

+    mask = _mm_max_epu8(abs_p1p0, mask);

+    // mask |= (abs(p1 - p0) > limit) * -1;

+    // mask |= (abs(q1 - q0) > limit) * -1;

+    work = _mm_max_epu8(abs_diff(q2p2, q1p1),

+                        abs_diff(q3p3, q2p2));

+    mask = _mm_max_epu8(work, mask);

+    mask = _mm_max_epu8(mask, _mm_srli_si128(mask, 8));

+    mask = _mm_subs_epu8(mask, limit);

+    mask = _mm_cmpeq_epi8(mask, zero);

+    // flat_mask4

+    flat = _mm_max_epu8(abs_diff(q2p2, q0p0),

+                        abs_diff(q3p3, q0p0));

+    flat = _mm_max_epu8(abs_p1p0, flat);

+    flat = _mm_max_epu8(flat, _mm_srli_si128(flat, 8));

+    flat = _mm_subs_epu8(flat, one);

+    flat = _mm_cmpeq_epi8(flat, zero);

+    flat = _mm_and_si128(flat, mask);

+  }

+  {

+    const __m128i four = _mm_set1_epi16(4);

+    unsigned char *src = s;

+    {

+      __m128i workp_a, workp_b, workp_shft;

+      p3 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 4 * p)), zero);

+      p2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 3 * p)), zero);

+      p1 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 2 * p)), zero);

+      p0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 1 * p)), zero);

+      q0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 0 * p)), zero);

+      q1 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 1 * p)), zero);

+      q2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 2 * p)), zero);

+      q3 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 3 * p)), zero);

+      workp_a = _mm_add_epi16(_mm_add_epi16(p3, p3), _mm_add_epi16(p2, p1));

+      workp_a = _mm_add_epi16(_mm_add_epi16(workp_a, four), p0);

+      workp_b = _mm_add_epi16(_mm_add_epi16(q0, p2), p3);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_op2[0],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      workp_b = _mm_add_epi16(_mm_add_epi16(q0, q1), p1);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_op1[0],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q2);

+      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p1), p0);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_op0[0],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q3);

+      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p0), q0);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_oq0[0],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p2), q3);

+      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q0), q1);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_oq1[0],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p1), q3);

+      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q1), q2);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_oq2[0],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+    }

+  }

+  // lp filter

+  {

+    const __m128i t4 = _mm_set1_epi8(4);

+    const __m128i t3 = _mm_set1_epi8(3);

+    const __m128i t80 = _mm_set1_epi8(0x80);

+    const __m128i t1 = _mm_set1_epi8(0x1);

+    const __m128i ps1 = _mm_xor_si128(_mm_loadl_epi64((__m128i *)(s - 2 * p)),

+                                      t80);

+    const __m128i ps0 = _mm_xor_si128(_mm_loadl_epi64((__m128i *)(s - 1 * p)),

+                                      t80);

+    const __m128i qs0 = _mm_xor_si128(_mm_loadl_epi64((__m128i *)(s + 0 * p)),

+                                      t80);

+    const __m128i qs1 = _mm_xor_si128(_mm_loadl_epi64((__m128i *)(s + 1 * p)),

+                                      t80);

+    __m128i filt;

+    __m128i work_a;

+    __m128i filter1, filter2;

+    filt = _mm_and_si128(_mm_subs_epi8(ps1, qs1), hev);

+    work_a = _mm_subs_epi8(qs0, ps0);

+    filt = _mm_adds_epi8(filt, work_a);

+    filt = _mm_adds_epi8(filt, work_a);

+    filt = _mm_adds_epi8(filt, work_a);

+    // (vp9_filter + 3 * (qs0 - ps0)) & mask

+    filt = _mm_and_si128(filt, mask);

+    filter1 = _mm_adds_epi8(filt, t4);

+    filter2 = _mm_adds_epi8(filt, t3);

+    // Filter1 >> 3

+    filter1 = _mm_unpacklo_epi8(zero, filter1);

+    filter1 = _mm_srai_epi16(filter1, 11);

+    filter1 = _mm_packs_epi16(filter1, filter1);

+    // Filter2 >> 3

+    filter2 = _mm_unpacklo_epi8(zero, filter2);

+    filter2 = _mm_srai_epi16(filter2, 11);

+    filter2 = _mm_packs_epi16(filter2, zero);

+    // filt >> 1

+    filt = _mm_adds_epi8(filter1, t1);

+    filt = _mm_unpacklo_epi8(zero, filt);

+    filt = _mm_srai_epi16(filt, 9);

+    filt = _mm_packs_epi16(filt, zero);

+    filt = _mm_andnot_si128(hev, filt);

+    work_a = _mm_xor_si128(_mm_subs_epi8(qs0, filter1), t80);

+    q0 = _mm_loadl_epi64((__m128i *)flat_oq0);

+    work_a = _mm_andnot_si128(flat, work_a);

+    q0 = _mm_and_si128(flat, q0);

+    q0 = _mm_or_si128(work_a, q0);

+    work_a = _mm_xor_si128(_mm_subs_epi8(qs1, filt), t80);

+    q1 = _mm_loadl_epi64((__m128i *)flat_oq1);

+    work_a = _mm_andnot_si128(flat, work_a);

+    q1 = _mm_and_si128(flat, q1);

+    q1 = _mm_or_si128(work_a, q1);

+    work_a = _mm_loadu_si128((__m128i *)(s + 2 * p));

+    q2 = _mm_loadl_epi64((__m128i *)flat_oq2);

+    work_a = _mm_andnot_si128(flat, work_a);

+    q2 = _mm_and_si128(flat, q2);

+    q2 = _mm_or_si128(work_a, q2);

+    work_a = _mm_xor_si128(_mm_adds_epi8(ps0, filter2), t80);

+    p0 = _mm_loadl_epi64((__m128i *)flat_op0);

+    work_a = _mm_andnot_si128(flat, work_a);

+    p0 = _mm_and_si128(flat, p0);

+    p0 = _mm_or_si128(work_a, p0);

+    work_a = _mm_xor_si128(_mm_adds_epi8(ps1, filt), t80);

+    p1 = _mm_loadl_epi64((__m128i *)flat_op1);

+    work_a = _mm_andnot_si128(flat, work_a);

+    p1 = _mm_and_si128(flat, p1);

+    p1 = _mm_or_si128(work_a, p1);

+    work_a = _mm_loadu_si128((__m128i *)(s - 3 * p));

+    p2 = _mm_loadl_epi64((__m128i *)flat_op2);

+    work_a = _mm_andnot_si128(flat, work_a);

+    p2 = _mm_and_si128(flat, p2);

+    p2 = _mm_or_si128(work_a, p2);

+    _mm_storel_epi64((__m128i *)(s - 3 * p), p2);

+    _mm_storel_epi64((__m128i *)(s - 2 * p), p1);

+    _mm_storel_epi64((__m128i *)(s - 1 * p), p0);

+    _mm_storel_epi64((__m128i *)(s + 0 * p), q0);

+    _mm_storel_epi64((__m128i *)(s + 1 * p), q1);

+    _mm_storel_epi64((__m128i *)(s + 2 * p), q2);

+  }

+}

+void vp9_lpf_horizontal_8_dual_sse2(uint8_t *s, int p,

+                                    const uint8_t *_blimit0,

+                                    const uint8_t *_limit0,

+                                    const uint8_t *_thresh0,

+                                    const uint8_t *_blimit1,

+                                    const uint8_t *_limit1,

+                                    const uint8_t *_thresh1) {

+  DECLARE_ALIGNED(16, unsigned char, flat_op2[16]);

+  DECLARE_ALIGNED(16, unsigned char, flat_op1[16]);

+  DECLARE_ALIGNED(16, unsigned char, flat_op0[16]);

+  DECLARE_ALIGNED(16, unsigned char, flat_oq2[16]);

+  DECLARE_ALIGNED(16, unsigned char, flat_oq1[16]);

+  DECLARE_ALIGNED(16, unsigned char, flat_oq0[16]);

+  const __m128i zero = _mm_set1_epi16(0);

+  const __m128i blimit =

+      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_blimit0),

+                         _mm_load_si128((const __m128i *)_blimit1));

+  const __m128i limit =

+      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_limit0),

+                         _mm_load_si128((const __m128i *)_limit1));

+  const __m128i thresh =

+      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_thresh0),

+                         _mm_load_si128((const __m128i *)_thresh1));

+  __m128i mask, hev, flat;

+  __m128i p3, p2, p1, p0, q0, q1, q2, q3;

+  p3 = _mm_loadu_si128((__m128i *)(s - 4 * p));

+  p2 = _mm_loadu_si128((__m128i *)(s - 3 * p));

+  p1 = _mm_loadu_si128((__m128i *)(s - 2 * p));

+  p0 = _mm_loadu_si128((__m128i *)(s - 1 * p));

+  q0 = _mm_loadu_si128((__m128i *)(s - 0 * p));

+  q1 = _mm_loadu_si128((__m128i *)(s + 1 * p));

+  q2 = _mm_loadu_si128((__m128i *)(s + 2 * p));

+  q3 = _mm_loadu_si128((__m128i *)(s + 3 * p));

+  {

+    const __m128i abs_p1p0 = _mm_or_si128(_mm_subs_epu8(p1, p0),

+                                          _mm_subs_epu8(p0, p1));

+    const __m128i abs_q1q0 = _mm_or_si128(_mm_subs_epu8(q1, q0),

+                                          _mm_subs_epu8(q0, q1));

+    const __m128i one = _mm_set1_epi8(1);

+    const __m128i fe = _mm_set1_epi8(0xfe);

+    const __m128i ff = _mm_cmpeq_epi8(abs_p1p0, abs_p1p0);

+    __m128i abs_p0q0 = _mm_or_si128(_mm_subs_epu8(p0, q0),

+                                    _mm_subs_epu8(q0, p0));

+    __m128i abs_p1q1 = _mm_or_si128(_mm_subs_epu8(p1, q1),

+                                    _mm_subs_epu8(q1, p1));

+    __m128i work;

+    // filter_mask and hev_mask

+    flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

+    hev = _mm_subs_epu8(flat, thresh);

+    hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

+    abs_p0q0 =_mm_adds_epu8(abs_p0q0, abs_p0q0);

+    abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

+    mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

+    mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

+    // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

+    mask = _mm_max_epu8(flat, mask);

+    // mask |= (abs(p1 - p0) > limit) * -1;

+    // mask |= (abs(q1 - q0) > limit) * -1;

+    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(p2, p1),

+                                     _mm_subs_epu8(p1, p2)),

+                         _mm_or_si128(_mm_subs_epu8(p3, p2),

+                                      _mm_subs_epu8(p2, p3)));

+    mask = _mm_max_epu8(work, mask);

+    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(q2, q1),

+                                     _mm_subs_epu8(q1, q2)),

+                         _mm_or_si128(_mm_subs_epu8(q3, q2),

+                                      _mm_subs_epu8(q2, q3)));

+    mask = _mm_max_epu8(work, mask);

+    mask = _mm_subs_epu8(mask, limit);

+    mask = _mm_cmpeq_epi8(mask, zero);

+    // flat_mask4

+    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(p2, p0),

+                                     _mm_subs_epu8(p0, p2)),

+                         _mm_or_si128(_mm_subs_epu8(q2, q0),

+                                      _mm_subs_epu8(q0, q2)));

+    flat = _mm_max_epu8(work, flat);

+    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(p3, p0),

+                                     _mm_subs_epu8(p0, p3)),

+                         _mm_or_si128(_mm_subs_epu8(q3, q0),

+                                      _mm_subs_epu8(q0, q3)));

+    flat = _mm_max_epu8(work, flat);

+    flat = _mm_subs_epu8(flat, one);

+    flat = _mm_cmpeq_epi8(flat, zero);

+    flat = _mm_and_si128(flat, mask);

+  }

+  {

+    const __m128i four = _mm_set1_epi16(4);

+    unsigned char *src = s;

+    int i = 0;

+    do {

+      __m128i workp_a, workp_b, workp_shft;

+      p3 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 4 * p)), zero);

+      p2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 3 * p)), zero);

+      p1 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 2 * p)), zero);

+      p0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 1 * p)), zero);

+      q0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src - 0 * p)), zero);

+      q1 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 1 * p)), zero);

+      q2 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 2 * p)), zero);

+      q3 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(src + 3 * p)), zero);

+      workp_a = _mm_add_epi16(_mm_add_epi16(p3, p3), _mm_add_epi16(p2, p1));

+      workp_a = _mm_add_epi16(_mm_add_epi16(workp_a, four), p0);

+      workp_b = _mm_add_epi16(_mm_add_epi16(q0, p2), p3);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_op2[i * 8],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      workp_b = _mm_add_epi16(_mm_add_epi16(q0, q1), p1);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_op1[i * 8],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q2);

+      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p1), p0);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_op0[i * 8],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p3), q3);

+      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, p0), q0);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_oq0[i * 8],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p2), q3);

+      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q0), q1);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_oq1[i * 8],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      workp_a = _mm_add_epi16(_mm_sub_epi16(workp_a, p1), q3);

+      workp_b = _mm_add_epi16(_mm_sub_epi16(workp_b, q1), q2);

+      workp_shft = _mm_srli_epi16(_mm_add_epi16(workp_a, workp_b), 3);

+      _mm_storel_epi64((__m128i *)&flat_oq2[i * 8],

+                       _mm_packus_epi16(workp_shft, workp_shft));

+      src += 8;

+    } while (++i < 2);

+  }

+  // lp filter

+  {

+    const __m128i t4 = _mm_set1_epi8(4);

+    const __m128i t3 = _mm_set1_epi8(3);

+    const __m128i t80 = _mm_set1_epi8(0x80);

+    const __m128i te0 = _mm_set1_epi8(0xe0);

+    const __m128i t1f = _mm_set1_epi8(0x1f);

+    const __m128i t1 = _mm_set1_epi8(0x1);

+    const __m128i t7f = _mm_set1_epi8(0x7f);

+    const __m128i ps1 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s - 2 * p)),

+                                      t80);

+    const __m128i ps0 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s - 1 * p)),

+                                      t80);

+    const __m128i qs0 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s + 0 * p)),

+                                      t80);

+    const __m128i qs1 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s + 1 * p)),

+                                      t80);

+    __m128i filt;

+    __m128i work_a;

+    __m128i filter1, filter2;

+    filt = _mm_and_si128(_mm_subs_epi8(ps1, qs1), hev);

+    work_a = _mm_subs_epi8(qs0, ps0);

+    filt = _mm_adds_epi8(filt, work_a);

+    filt = _mm_adds_epi8(filt, work_a);

+    filt = _mm_adds_epi8(filt, work_a);

+    // (vp9_filter + 3 * (qs0 - ps0)) & mask

+    filt = _mm_and_si128(filt, mask);

+    filter1 = _mm_adds_epi8(filt, t4);

+    filter2 = _mm_adds_epi8(filt, t3);

+    // Filter1 >> 3

+    work_a = _mm_cmpgt_epi8(zero, filter1);

+    filter1 = _mm_srli_epi16(filter1, 3);

+    work_a = _mm_and_si128(work_a, te0);

+    filter1 = _mm_and_si128(filter1, t1f);

+    filter1 = _mm_or_si128(filter1, work_a);

+    // Filter2 >> 3

+    work_a = _mm_cmpgt_epi8(zero, filter2);

+    filter2 = _mm_srli_epi16(filter2, 3);

+    work_a = _mm_and_si128(work_a, te0);

+    filter2 = _mm_and_si128(filter2, t1f);

+    filter2 = _mm_or_si128(filter2, work_a);

+    // filt >> 1

+    filt = _mm_adds_epi8(filter1, t1);

+    work_a = _mm_cmpgt_epi8(zero, filt);

+    filt = _mm_srli_epi16(filt, 1);

+    work_a = _mm_and_si128(work_a, t80);

+    filt = _mm_and_si128(filt, t7f);

+    filt = _mm_or_si128(filt, work_a);

+    filt = _mm_andnot_si128(hev, filt);

+    work_a = _mm_xor_si128(_mm_subs_epi8(qs0, filter1), t80);

+    q0 = _mm_load_si128((__m128i *)flat_oq0);

+    work_a = _mm_andnot_si128(flat, work_a);

+    q0 = _mm_and_si128(flat, q0);

+    q0 = _mm_or_si128(work_a, q0);

+    work_a = _mm_xor_si128(_mm_subs_epi8(qs1, filt), t80);

+    q1 = _mm_load_si128((__m128i *)flat_oq1);

+    work_a = _mm_andnot_si128(flat, work_a);

+    q1 = _mm_and_si128(flat, q1);

+    q1 = _mm_or_si128(work_a, q1);

+    work_a = _mm_loadu_si128((__m128i *)(s + 2 * p));

+    q2 = _mm_load_si128((__m128i *)flat_oq2);

+    work_a = _mm_andnot_si128(flat, work_a);

+    q2 = _mm_and_si128(flat, q2);

+    q2 = _mm_or_si128(work_a, q2);

+    work_a = _mm_xor_si128(_mm_adds_epi8(ps0, filter2), t80);

+    p0 = _mm_load_si128((__m128i *)flat_op0);

+    work_a = _mm_andnot_si128(flat, work_a);

+    p0 = _mm_and_si128(flat, p0);

+    p0 = _mm_or_si128(work_a, p0);

+    work_a = _mm_xor_si128(_mm_adds_epi8(ps1, filt), t80);

+    p1 = _mm_load_si128((__m128i *)flat_op1);

+    work_a = _mm_andnot_si128(flat, work_a);

+    p1 = _mm_and_si128(flat, p1);

+    p1 = _mm_or_si128(work_a, p1);

+    work_a = _mm_loadu_si128((__m128i *)(s - 3 * p));

+    p2 = _mm_load_si128((__m128i *)flat_op2);

+    work_a = _mm_andnot_si128(flat, work_a);

+    p2 = _mm_and_si128(flat, p2);

+    p2 = _mm_or_si128(work_a, p2);

+    _mm_storeu_si128((__m128i *)(s - 3 * p), p2);

+    _mm_storeu_si128((__m128i *)(s - 2 * p), p1);

+    _mm_storeu_si128((__m128i *)(s - 1 * p), p0);

+    _mm_storeu_si128((__m128i *)(s + 0 * p), q0);

+    _mm_storeu_si128((__m128i *)(s + 1 * p), q1);

+    _mm_storeu_si128((__m128i *)(s + 2 * p), q2);

+  }

+}

+void vp9_lpf_horizontal_4_dual_sse2(unsigned char *s, int p,

+                                    const unsigned char *_blimit0,

+                                    const unsigned char *_limit0,

+                                    const unsigned char *_thresh0,

+                                    const unsigned char *_blimit1,

+                                    const unsigned char *_limit1,

+                                    const unsigned char *_thresh1) {

+  const __m128i blimit =

+      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_blimit0),

+                         _mm_load_si128((const __m128i *)_blimit1));

+  const __m128i limit =

+      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_limit0),

+                         _mm_load_si128((const __m128i *)_limit1));

+  const __m128i thresh =

+      _mm_unpacklo_epi64(_mm_load_si128((const __m128i *)_thresh0),

+                         _mm_load_si128((const __m128i *)_thresh1));

+  const __m128i zero = _mm_set1_epi16(0);

+  __m128i p3, p2, p1, p0, q0, q1, q2, q3;

+  __m128i mask, hev, flat;

+  p3 = _mm_loadu_si128((__m128i *)(s - 4 * p));

+  p2 = _mm_loadu_si128((__m128i *)(s - 3 * p));

+  p1 = _mm_loadu_si128((__m128i *)(s - 2 * p));

+  p0 = _mm_loadu_si128((__m128i *)(s - 1 * p));

+  q0 = _mm_loadu_si128((__m128i *)(s - 0 * p));

+  q1 = _mm_loadu_si128((__m128i *)(s + 1 * p));

+  q2 = _mm_loadu_si128((__m128i *)(s + 2 * p));

+  q3 = _mm_loadu_si128((__m128i *)(s + 3 * p));

+  // filter_mask and hev_mask

+  {

+    const __m128i abs_p1p0 = _mm_or_si128(_mm_subs_epu8(p1, p0),

+                                          _mm_subs_epu8(p0, p1));

+    const __m128i abs_q1q0 = _mm_or_si128(_mm_subs_epu8(q1, q0),

+                                          _mm_subs_epu8(q0, q1));

+    const __m128i fe = _mm_set1_epi8(0xfe);

+    const __m128i ff = _mm_cmpeq_epi8(abs_p1p0, abs_p1p0);

+    __m128i abs_p0q0 = _mm_or_si128(_mm_subs_epu8(p0, q0),

+                                    _mm_subs_epu8(q0, p0));

+    __m128i abs_p1q1 = _mm_or_si128(_mm_subs_epu8(p1, q1),

+                                    _mm_subs_epu8(q1, p1));

+    __m128i work;

+    flat = _mm_max_epu8(abs_p1p0, abs_q1q0);

+    hev = _mm_subs_epu8(flat, thresh);

+    hev = _mm_xor_si128(_mm_cmpeq_epi8(hev, zero), ff);

+    abs_p0q0 =_mm_adds_epu8(abs_p0q0, abs_p0q0);

+    abs_p1q1 = _mm_srli_epi16(_mm_and_si128(abs_p1q1, fe), 1);

+    mask = _mm_subs_epu8(_mm_adds_epu8(abs_p0q0, abs_p1q1), blimit);

+    mask = _mm_xor_si128(_mm_cmpeq_epi8(mask, zero), ff);

+    // mask |= (abs(p0 - q0) * 2 + abs(p1 - q1) / 2  > blimit) * -1;

+    mask = _mm_max_epu8(flat, mask);

+    // mask |= (abs(p1 - p0) > limit) * -1;

+    // mask |= (abs(q1 - q0) > limit) * -1;

+    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(p2, p1),

+                                     _mm_subs_epu8(p1, p2)),

+                         _mm_or_si128(_mm_subs_epu8(p3, p2),

+                                      _mm_subs_epu8(p2, p3)));

+    mask = _mm_max_epu8(work, mask);

+    work = _mm_max_epu8(_mm_or_si128(_mm_subs_epu8(q2, q1),

+                                     _mm_subs_epu8(q1, q2)),

+                         _mm_or_si128(_mm_subs_epu8(q3, q2),

+                                      _mm_subs_epu8(q2, q3)));

+    mask = _mm_max_epu8(work, mask);

+    mask = _mm_subs_epu8(mask, limit);

+    mask = _mm_cmpeq_epi8(mask, zero);

+  }

+  // filter4

+  {

+    const __m128i t4 = _mm_set1_epi8(4);

+    const __m128i t3 = _mm_set1_epi8(3);

+    const __m128i t80 = _mm_set1_epi8(0x80);

+    const __m128i te0 = _mm_set1_epi8(0xe0);

+    const __m128i t1f = _mm_set1_epi8(0x1f);

+    const __m128i t1 = _mm_set1_epi8(0x1);

+    const __m128i t7f = _mm_set1_epi8(0x7f);

+    const __m128i ps1 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s - 2 * p)),

+                                      t80);

+    const __m128i ps0 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s - 1 * p)),

+                                      t80);

+    const __m128i qs0 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s + 0 * p)),

+                                      t80);

+    const __m128i qs1 = _mm_xor_si128(_mm_loadu_si128((__m128i *)(s + 1 * p)),

+                                      t80);

+    __m128i filt;

+    __m128i work_a;

+    __m128i filter1, filter2;

+    filt = _mm_and_si128(_mm_subs_epi8(ps1, qs1), hev);

+    work_a = _mm_subs_epi8(qs0, ps0);

+    filt = _mm_adds_epi8(filt, work_a);

+    filt = _mm_adds_epi8(filt, work_a);

+    filt = _mm_adds_epi8(filt, work_a);

+    // (vp9_filter + 3 * (qs0 - ps0)) & mask

+    filt = _mm_and_si128(filt, mask);

+    filter1 = _mm_adds_epi8(filt, t4);

+    filter2 = _mm_adds_epi8(filt, t3);

+    // Filter1 >> 3

+    work_a = _mm_cmpgt_epi8(zero, filter1);

+    filter1 = _mm_srli_epi16(filter1, 3);

+    work_a = _mm_and_si128(work_a, te0);

+    filter1 = _mm_and_si128(filter1, t1f);

+    filter1 = _mm_or_si128(filter1, work_a);

+    // Filter2 >> 3

+    work_a = _mm_cmpgt_epi8(zero, filter2);

+    filter2 = _mm_srli_epi16(filter2, 3);

+    work_a = _mm_and_si128(work_a, te0);

+    filter2 = _mm_and_si128(filter2, t1f);

+    filter2 = _mm_or_si128(filter2, work_a);

+    // filt >> 1

+    filt = _mm_adds_epi8(filter1, t1);

+    work_a = _mm_cmpgt_epi8(zero, filt);

+    filt = _mm_srli_epi16(filt, 1);

+    work_a = _mm_and_si128(work_a, t80);

+    filt = _mm_and_si128(filt, t7f);

+    filt = _mm_or_si128(filt, work_a);

+    filt = _mm_andnot_si128(hev, filt);

+    q0 = _mm_xor_si128(_mm_subs_epi8(qs0, filter1), t80);

+    q1 = _mm_xor_si128(_mm_subs_epi8(qs1, filt), t80);

+    p0 = _mm_xor_si128(_mm_adds_epi8(ps0, filter2), t80);

+    p1 = _mm_xor_si128(_mm_adds_epi8(ps1, filt), t80);

+    _mm_storeu_si128((__m128i *)(s - 2 * p), p1);

+    _mm_storeu_si128((__m128i *)(s - 1 * p), p0);

+    _mm_storeu_si128((__m128i *)(s + 0 * p), q0);

+    _mm_storeu_si128((__m128i *)(s + 1 * p), q1);

+  }

+}

+static INLINE void transpose8x16(unsigned char *in0, unsigned char *in1,

+                                 int in_p, unsigned char *out, int out_p) {

+  __m128i x0, x1, x2, x3, x4, x5, x6, x7;

+  __m128i x8, x9, x10, x11, x12, x13, x14, x15;

+  // 2-way interleave w/hoisting of unpacks

+  x0 = _mm_loadl_epi64((__m128i *)in0);  // 1

+  x1 = _mm_loadl_epi64((__m128i *)(in0 + in_p));  // 3

+  x0 = _mm_unpacklo_epi8(x0, x1);  // 1

+  x2 = _mm_loadl_epi64((__m128i *)(in0 + 2 * in_p));  // 5

+  x3 = _mm_loadl_epi64((__m128i *)(in0 + 3*in_p));  // 7

+  x1 = _mm_unpacklo_epi8(x2, x3);  // 2

+  x4 = _mm_loadl_epi64((__m128i *)(in0 + 4*in_p));  // 9

+  x5 = _mm_loadl_epi64((__m128i *)(in0 + 5*in_p));  // 11

+  x2 = _mm_unpacklo_epi8(x4, x5);  // 3

+  x6 = _mm_loadl_epi64((__m128i *)(in0 + 6*in_p));  // 13

+  x7 = _mm_loadl_epi64((__m128i *)(in0 + 7*in_p));  // 15

+  x3 = _mm_unpacklo_epi8(x6, x7);  // 4

+  x4 = _mm_unpacklo_epi16(x0, x1);  // 9

+  x8 = _mm_loadl_epi64((__m128i *)in1);  // 2

+  x9 = _mm_loadl_epi64((__m128i *)(in1 + in_p));  // 4

+  x8 = _mm_unpacklo_epi8(x8, x9);  // 5

+  x5 = _mm_unpacklo_epi16(x2, x3);  // 10

+  x10 = _mm_loadl_epi64((__m128i *)(in1 + 2 * in_p));  // 6

+  x11 = _mm_loadl_epi64((__m128i *)(in1 + 3*in_p));  // 8

+  x9 = _mm_unpacklo_epi8(x10, x11);  // 6

+  x12 = _mm_loadl_epi64((__m128i *)(in1 + 4*in_p));  // 10

+  x13 = _mm_loadl_epi64((__m128i *)(in1 + 5*in_p));  // 12

+  x10 = _mm_unpacklo_epi8(x12, x13);  // 7

+  x12 = _mm_unpacklo_epi16(x8, x9);  // 11

+  x14 = _mm_loadl_epi64((__m128i *)(in1 + 6*in_p));  // 14

+  x15 = _mm_loadl_epi64((__m128i *)(in1 + 7*in_p));  // 16

+  x11 = _mm_unpacklo_epi8(x14, x15);  // 8

+  x13 = _mm_unpacklo_epi16(x10, x11);  // 12

+  x6 = _mm_unpacklo_epi32(x4, x5);  // 13

+  x7 = _mm_unpackhi_epi32(x4, x5);  // 14

+  x14 = _mm_unpacklo_epi32(x12, x13);  // 15

+  x15 = _mm_unpackhi_epi32(x12, x13);  // 16

+  // Store first 4-line result

+  _mm_storeu_si128((__m128i *)out, _mm_unpacklo_epi64(x6, x14));

+  _mm_storeu_si128((__m128i *)(out + out_p), _mm_unpackhi_epi64(x6, x14));

+  _mm_storeu_si128((__m128i *)(out + 2 * out_p), _mm_unpacklo_epi64(x7, x15));

+  _mm_storeu_si128((__m128i *)(out + 3 * out_p), _mm_unpackhi_epi64(x7, x15));

+  x4 = _mm_unpackhi_epi16(x0, x1);

+  x5 = _mm_unpackhi_epi16(x2, x3);

+  x12 = _mm_unpackhi_epi16(x8, x9);

+  x13 = _mm_unpackhi_epi16(x10, x11);

+  x6 = _mm_unpacklo_epi32(x4, x5);

+  x7 = _mm_unpackhi_epi32(x4, x5);

+  x14 = _mm_unpacklo_epi32(x12, x13);

+  x15 = _mm_unpackhi_epi32(x12, x13);

+  // Store second 4-line result

+  _mm_storeu_si128((__m128i *)(out + 4 * out_p), _mm_unpacklo_epi64(x6, x14));

+  _mm_storeu_si128((__m128i *)(out + 5 * out_p), _mm_unpackhi_epi64(x6, x14));

+  _mm_storeu_si128((__m128i *)(out + 6 * out_p), _mm_unpacklo_epi64(x7, x15));

+  _mm_storeu_si128((__m128i *)(out + 7 * out_p), _mm_unpackhi_epi64(x7, x15));

+}

+static INLINE void transpose(unsigned char *src[], int in_p,

+                             unsigned char *dst[], int out_p,

+                             int num_8x8_to_transpose) {

+  int idx8x8 = 0;

+  __m128i x0, x1, x2, x3, x4, x5, x6, x7;

+  do {

+    unsigned char *in = src[idx8x8];

+    unsigned char *out = dst[idx8x8];

+    x0 = _mm_loadl_epi64((__m128i *)(in + 0*in_p));  // 00 01 02 03 04 05 06 07

+    x1 = _mm_loadl_epi64((__m128i *)(in + 1*in_p));  // 10 11 12 13 14 15 16 17

+    // 00 10 01 11 02 12 03 13 04 14 05 15 06 16 07 17

+    x0 = _mm_unpacklo_epi8(x0, x1);

+    x2 = _mm_loadl_epi64((__m128i *)(in + 2*in_p));  // 20 21 22 23 24 25 26 27

+    x3 = _mm_loadl_epi64((__m128i *)(in + 3*in_p));  // 30 31 32 33 34 35 36 37

+    // 20 30 21 31 22 32 23 33 24 34 25 35 26 36 27 37

+    x1 = _mm_unpacklo_epi8(x2, x3);

+    x4 = _mm_loadl_epi64((__m128i *)(in + 4*in_p));  // 40 41 42 43 44 45 46 47

+    x5 = _mm_loadl_epi64((__m128i *)(in + 5*in_p));  // 50 51 52 53 54 55 56 57

+    // 40 50 41 51 42 52 43 53 44 54 45 55 46 56 47 57

+    x2 = _mm_unpacklo_epi8(x4, x5);

+    x6 = _mm_loadl_epi64((__m128i *)(in + 6*in_p));  // 60 61 62 63 64 65 66 67

+    x7 = _mm_loadl_epi64((__m128i *)(in + 7*in_p));  // 70 71 72 73 74 75 76 77

+    // 60 70 61 71 62 72 63 73 64 74 65 75 66 76 67 77

+    x3 = _mm_unpacklo_epi8(x6, x7);

+    // 00 10 20 30 01 11 21 31 02 12 22 32 03 13 23 33

+    x4 = _mm_unpacklo_epi16(x0, x1);

+    // 40 50 60 70 41 51 61 71 42 52 62 72 43 53 63 73

+    x5 = _mm_unpacklo_epi16(x2, x3);

+    // 00 10 20 30 40 50 60 70 01 11 21 31 41 51 61 71

+    x6 = _mm_unpacklo_epi32(x4, x5);

+    _mm_storel_pd((double *)(out + 0*out_p),

+                  _mm_castsi128_pd(x6));  // 00 10 20 30 40 50 60 70

+    _mm_storeh_pd((double *)(out + 1*out_p),

+                  _mm_castsi128_pd(x6));  // 01 11 21 31 41 51 61 71

+    // 02 12 22 32 42 52 62 72 03 13 23 33 43 53 63 73

+    x7 = _mm_unpackhi_epi32(x4, x5);

+    _mm_storel_pd((double *)(out + 2*out_p),

+                  _mm_castsi128_pd(x7));  // 02 12 22 32 42 52 62 72

+    _mm_storeh_pd((double *)(out + 3*out_p),

+                  _mm_castsi128_pd(x7));  // 03 13 23 33 43 53 63 73

+    // 04 14 24 34 05 15 25 35 06 16 26 36 07 17 27 37

+    x4 = _mm_unpackhi_epi16(x0, x1);

+    // 44 54 64 74 45 55 65 75 46 56 66 76 47 57 67 77

+    x5 = _mm_unpackhi_epi16(x2, x3);

+    // 04 14 24 34 44 54 64 74 05 15 25 35 45 55 65 75

+    x6 = _mm_unpacklo_epi32(x4, x5);

+    _mm_storel_pd((double *)(out + 4*out_p),

+                  _mm_castsi128_pd(x6));  // 04 14 24 34 44 54 64 74

+    _mm_storeh_pd((double *)(out + 5*out_p),

+                  _mm_castsi128_pd(x6));  // 05 15 25 35 45 55 65 75

+    // 06 16 26 36 46 56 66 76 07 17 27 37 47 57 67 77

+    x7 = _mm_unpackhi_epi32(x4, x5);

+    _mm_storel_pd((double *)(out + 6*out_p),

+                  _mm_castsi128_pd(x7));  // 06 16 26 36 46 56 66 76

+    _mm_storeh_pd((double *)(out + 7*out_p),

+                  _mm_castsi128_pd(x7));  // 07 17 27 37 47 57 67 77

+  } while (++idx8x8 < num_8x8_to_transpose);

+}

+void vp9_lpf_vertical_4_dual_sse2(uint8_t *s, int p, const uint8_t *blimit0,

+                                  const uint8_t *limit0,

+                                  const uint8_t *thresh0,

+                                  const uint8_t *blimit1,

+                                  const uint8_t *limit1,

+                                  const uint8_t *thresh1) {

+  DECLARE_ALIGNED(16, unsigned char, t_dst[16 * 8]);

+  unsigned char *src[2];

+  unsigned char *dst[2];

+  // Transpose 8x16

+  transpose8x16(s - 4, s - 4 + p * 8, p, t_dst, 16);

+  // Loop filtering

+  vp9_lpf_horizontal_4_dual_sse2(t_dst + 4 * 16, 16, blimit0, limit0, thresh0,

+                                 blimit1, limit1, thresh1);

+  src[0] = t_dst;

+  src[1] = t_dst + 8;

+  dst[0] = s - 4;

+  dst[1] = s - 4 + p * 8;

+  // Transpose back

+  transpose(src, 16, dst, p, 2);

+}

+void vp9_lpf_vertical_8_sse2(unsigned char *s, int p,

+                             const unsigned char *blimit,

+                             const unsigned char *limit,

+                             const unsigned char *thresh, int count) {

+  DECLARE_ALIGNED(8, unsigned char, t_dst[8 * 8]);

+  unsigned char *src[1];

+  unsigned char *dst[1];

+  (void)count;

+  // Transpose 8x8

+  src[0] = s - 4;

+  dst[0] = t_dst;

+  transpose(src, p, dst, 8, 1);

+  // Loop filtering

+  vp9_lpf_horizontal_8_sse2(t_dst + 4 * 8, 8, blimit, limit, thresh, 1);

+  src[0] = t_dst;

+  dst[0] = s - 4;

+  // Transpose back

+  transpose(src, 8, dst, p, 1);

+}

+void vp9_lpf_vertical_8_dual_sse2(uint8_t *s, int p, const uint8_t *blimit0,

+                                  const uint8_t *limit0,

+                                  const uint8_t *thresh0,

+                                  const uint8_t *blimit1,

+                                  const uint8_t *limit1,

+                                  const uint8_t *thresh1) {

+  DECLARE_ALIGNED(16, unsigned char, t_dst[16 * 8]);

+  unsigned char *src[2];

+  unsigned char *dst[2];

+  // Transpose 8x16

+  transpose8x16(s - 4, s - 4 + p * 8, p, t_dst, 16);

+  // Loop filtering

+  vp9_lpf_horizontal_8_dual_sse2(t_dst + 4 * 16, 16, blimit0, limit0, thresh0,

+                                 blimit1, limit1, thresh1);

+  src[0] = t_dst;

+  src[1] = t_dst + 8;

+  dst[0] = s - 4;

+  dst[1] = s - 4 + p * 8;

+  // Transpose back

+  transpose(src, 16, dst, p, 2);

+}

+void vp9_lpf_vertical_16_sse2(unsigned char *s, int p,

+                              const unsigned char *blimit,

+                              const unsigned char *limit,

+                              const unsigned char *thresh) {

+  DECLARE_ALIGNED(8, unsigned char, t_dst[8 * 16]);

+  unsigned char *src[2];

+  unsigned char *dst[2];

+  src[0] = s - 8;

+  src[1] = s;

+  dst[0] = t_dst;

+  dst[1] = t_dst + 8 * 8;

+  // Transpose 16x8

+  transpose(src, p, dst, 8, 2);

+  // Loop filtering

+  mb_lpf_horizontal_edge_w_sse2_8(t_dst + 8 * 8, 8, blimit, limit, thresh);

+  src[0] = t_dst;

+  src[1] = t_dst + 8 * 8;

+  dst[0] = s - 8;

+  dst[1] = s;

+  // Transpose back

+  transpose(src, 8, dst, p, 2);

+}

+void vp9_lpf_vertical_16_dual_sse2(unsigned char *s, int p,

+                                   const uint8_t *blimit, const uint8_t *limit,

+                                   const uint8_t *thresh) {

+  DECLARE_ALIGNED(16, unsigned char, t_dst[256]);

+  // Transpose 16x16

+  transpose8x16(s - 8, s - 8 + 8 * p, p, t_dst, 16);

+  transpose8x16(s, s + 8 * p, p, t_dst + 8 * 16, 16);

+  // Loop filtering

+  mb_lpf_horizontal_edge_w_sse2_16(t_dst + 8 * 16, 16, blimit, limit,

+                                   thresh);

+  // Transpose back

+  transpose8x16(t_dst, t_dst + 8 * 16, 16, s - 8, p);

+  transpose8x16(t_dst + 8, t_dst + 8 + 8 * 16, 16, s - 8 + 8 * p, p);

+}