shithub: libvpx

--- a/vp8/common/x86/variance_impl_mmx.asm

+++ /dev/null

@@ -1,353 +1,0 @@

-;

-;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

-;

-;  Use of this source code is governed by a BSD-style license

-;  that can be found in the LICENSE file in the root of the source

-;  tree. An additional intellectual property rights grant can be found

-;  in the file PATENTS.  All contributing project authors may

-;  be found in the AUTHORS file in the root of the source tree.

-;

-%include "vpx_ports/x86_abi_support.asm"

-%define mmx_filter_shift            7

-;void vp8_filter_block2d_bil4x4_var_mmx

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned short *HFilter,

-;    unsigned short *VFilter,

-;    int *sum,

-;    unsigned int *sumsquared

-;)

-global sym(vp8_filter_block2d_bil4x4_var_mmx) PRIVATE

-sym(vp8_filter_block2d_bil4x4_var_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 8

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    sub         rsp, 16

-    ; end prolog

-        pxor            mm6,            mm6                 ;

-        pxor            mm7,            mm7                 ;

-        mov             rax,            arg(4) ;HFilter             ;

-        mov             rdx,            arg(5) ;VFilter             ;

-        mov             rsi,            arg(0) ;ref_ptr              ;

-        mov             rdi,            arg(2) ;src_ptr              ;

-        mov             rcx,            4                   ;

-        pxor            mm0,            mm0                 ;

-        movd            mm1,            [rsi]               ;

-        movd            mm3,            [rsi+1]             ;

-        punpcklbw       mm1,            mm0                 ;

-        pmullw          mm1,            [rax]               ;

-        punpcklbw       mm3,            mm0                 ;

-        pmullw          mm3,            [rax+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        movq            mm5,            mm1

-%if ABI_IS_32BIT

-        add             rsi, dword ptr  arg(1) ;ref_pixels_per_line    ;

-%else

-        movsxd          r8, dword ptr  arg(1) ;ref_pixels_per_line    ;

-        add             rsi, r8

-%endif

-.filter_block2d_bil4x4_var_mmx_loop:

-        movd            mm1,            [rsi]               ;

-        movd            mm3,            [rsi+1]             ;

-        punpcklbw       mm1,            mm0                 ;

-        pmullw          mm1,            [rax]               ;

-        punpcklbw       mm3,            mm0                 ;

-        pmullw          mm3,            [rax+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        movq            mm3,            mm5                 ;

-        movq            mm5,            mm1                 ;

-        pmullw          mm3,            [rdx]               ;

-        pmullw          mm1,            [rdx+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        movd            mm3,            [rdi]               ;

-        punpcklbw       mm3,            mm0                 ;

-        psubw           mm1,            mm3                 ;

-        paddw           mm6,            mm1                 ;

-        pmaddwd         mm1,            mm1                 ;

-        paddd           mm7,            mm1                 ;

-%if ABI_IS_32BIT

-        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line    ;

-        add             rdi,            dword ptr arg(3) ;src_pixels_per_line    ;

-%else

-        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line

-        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

-        add             rsi,            r8

-        add             rdi,            r9

-%endif

-        sub             rcx,            1                   ;

-        jnz             .filter_block2d_bil4x4_var_mmx_loop       ;

-        pxor            mm3,            mm3                 ;

-        pxor            mm2,            mm2                 ;

-        punpcklwd       mm2,            mm6                 ;

-        punpckhwd       mm3,            mm6                 ;

-        paddd           mm2,            mm3                 ;

-        movq            mm6,            mm2                 ;

-        psrlq           mm6,            32                  ;

-        paddd           mm2,            mm6                 ;

-        psrad           mm2,            16                  ;

-        movq            mm4,            mm7                 ;

-        psrlq           mm4,            32                  ;

-        paddd           mm4,            mm7                 ;

-        mov             rdi,            arg(6) ;sum

-        mov             rsi,            arg(7) ;sumsquared

-        movd            dword ptr [rdi],          mm2                 ;

-        movd            dword ptr [rsi],          mm4                 ;

-    ; begin epilog

-    add rsp, 16

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-;void vp8_filter_block2d_bil_var_mmx

-;(

-;    unsigned char *ref_ptr,

-;    int ref_pixels_per_line,

-;    unsigned char *src_ptr,

-;    int src_pixels_per_line,

-;    unsigned int Height,

-;    unsigned short *HFilter,

-;    unsigned short *VFilter,

-;    int *sum,

-;    unsigned int *sumsquared

-;)

-global sym(vp8_filter_block2d_bil_var_mmx) PRIVATE

-sym(vp8_filter_block2d_bil_var_mmx):

-    push        rbp

-    mov         rbp, rsp

-    SHADOW_ARGS_TO_STACK 9

-    GET_GOT     rbx

-    push rsi

-    push rdi

-    sub         rsp, 16

-    ; end prolog

-        pxor            mm6,            mm6                 ;

-        pxor            mm7,            mm7                 ;

-        mov             rax,            arg(5) ;HFilter             ;

-        mov             rdx,            arg(6) ;VFilter             ;

-        mov             rsi,            arg(0) ;ref_ptr              ;

-        mov             rdi,            arg(2) ;src_ptr              ;

-        movsxd          rcx,            dword ptr arg(4) ;Height              ;

-        pxor            mm0,            mm0                 ;

-        movq            mm1,            [rsi]               ;

-        movq            mm3,            [rsi+1]             ;

-        movq            mm2,            mm1                 ;

-        movq            mm4,            mm3                 ;

-        punpcklbw       mm1,            mm0                 ;

-        punpckhbw       mm2,            mm0                 ;

-        pmullw          mm1,            [rax]               ;

-        pmullw          mm2,            [rax]               ;

-        punpcklbw       mm3,            mm0                 ;

-        punpckhbw       mm4,            mm0                 ;

-        pmullw          mm3,            [rax+8]             ;

-        pmullw          mm4,            [rax+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm2,            mm4                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm2,            mmx_filter_shift    ;

-        movq            mm5,            mm1

-        packuswb        mm5,            mm2                 ;

-%if ABI_IS_32BIT

-        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line

-%else

-        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line

-        add             rsi,            r8

-%endif

-.filter_block2d_bil_var_mmx_loop:

-        movq            mm1,            [rsi]               ;

-        movq            mm3,            [rsi+1]             ;

-        movq            mm2,            mm1                 ;

-        movq            mm4,            mm3                 ;

-        punpcklbw       mm1,            mm0                 ;

-        punpckhbw       mm2,            mm0                 ;

-        pmullw          mm1,            [rax]               ;

-        pmullw          mm2,            [rax]               ;

-        punpcklbw       mm3,            mm0                 ;

-        punpckhbw       mm4,            mm0                 ;

-        pmullw          mm3,            [rax+8]             ;

-        pmullw          mm4,            [rax+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm2,            mm4                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm2,            mmx_filter_shift    ;

-        movq            mm3,            mm5                 ;

-        movq            mm4,            mm5                 ;

-        punpcklbw       mm3,            mm0                 ;

-        punpckhbw       mm4,            mm0                 ;

-        movq            mm5,            mm1                 ;

-        packuswb        mm5,            mm2                 ;

-        pmullw          mm3,            [rdx]               ;

-        pmullw          mm4,            [rdx]               ;

-        pmullw          mm1,            [rdx+8]             ;

-        pmullw          mm2,            [rdx+8]             ;

-        paddw           mm1,            mm3                 ;

-        paddw           mm2,            mm4                 ;

-        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

-        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

-        psraw           mm1,            mmx_filter_shift    ;

-        psraw           mm2,            mmx_filter_shift    ;

-        movq            mm3,            [rdi]               ;

-        movq            mm4,            mm3                 ;

-        punpcklbw       mm3,            mm0                 ;

-        punpckhbw       mm4,            mm0                 ;

-        psubw           mm1,            mm3                 ;

-        psubw           mm2,            mm4                 ;

-        paddw           mm6,            mm1                 ;

-        pmaddwd         mm1,            mm1                 ;

-        paddw           mm6,            mm2                 ;

-        pmaddwd         mm2,            mm2                 ;

-        paddd           mm7,            mm1                 ;

-        paddd           mm7,            mm2                 ;

-%if ABI_IS_32BIT

-        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line    ;

-        add             rdi,            dword ptr arg(3) ;src_pixels_per_line    ;

-%else

-        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line    ;

-        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line    ;

-        add             rsi,            r8

-        add             rdi,            r9

-%endif

-        sub             rcx,            1                   ;

-        jnz             .filter_block2d_bil_var_mmx_loop       ;

-        pxor            mm3,            mm3                 ;

-        pxor            mm2,            mm2                 ;

-        punpcklwd       mm2,            mm6                 ;

-        punpckhwd       mm3,            mm6                 ;

-        paddd           mm2,            mm3                 ;

-        movq            mm6,            mm2                 ;

-        psrlq           mm6,            32                  ;

-        paddd           mm2,            mm6                 ;

-        psrad           mm2,            16                  ;

-        movq            mm4,            mm7                 ;

-        psrlq           mm4,            32                  ;

-        paddd           mm4,            mm7                 ;

-        mov             rdi,            arg(7) ;sum

-        mov             rsi,            arg(8) ;sumsquared

-        movd            dword ptr [rdi],          mm2                 ;

-        movd            dword ptr [rsi],          mm4                 ;

-    ; begin epilog

-    add rsp, 16

-    pop rdi

-    pop rsi

-    RESTORE_GOT

-    UNSHADOW_ARGS

-    pop         rbp

-    ret

-SECTION_RODATA

-;short mmx_bi_rd[4] = { 64, 64, 64, 64};

-align 16

-mmx_bi_rd:

-    times 4 dw 64

--- a/vp8/common/x86/variance_mmx.c

+++ /dev/null

@@ -1,244 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "./vp8_rtcd.h"

-#include "vpx_config.h"

-#include "vp8/common/variance.h"

-#include "vpx_ports/mem.h"

-#include "vp8/common/x86/filter_x86.h"

-extern void filter_block1d_h6_mmx

-(

-    const unsigned char *src_ptr,

-    unsigned short *output_ptr,

-    unsigned int src_pixels_per_line,

-    unsigned int pixel_step,

-    unsigned int output_height,

-    unsigned int output_width,

-    short *filter

-);

-extern void filter_block1d_v6_mmx

-(

-    const short *src_ptr,

-    unsigned char *output_ptr,

-    unsigned int pixels_per_line,

-    unsigned int pixel_step,

-    unsigned int output_height,

-    unsigned int output_width,

-    short *filter

-);

-extern void vp8_filter_block2d_bil4x4_var_mmx

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    const short *HFilter,

-    const short *VFilter,

-    int *sum,

-    unsigned int *sumsquared

-);

-extern void vp8_filter_block2d_bil_var_mmx

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    const short *HFilter,

-    const short *VFilter,

-    int *sum,

-    unsigned int *sumsquared

-);

-unsigned int vp8_sub_pixel_variance4x4_mmx

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse)

-{

-    int xsum;

-    unsigned int xxsum;

-    vp8_filter_block2d_bil4x4_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum, &xxsum

-    );

-    *sse = xxsum;

-    return (xxsum - (((unsigned int)xsum * xsum) >> 4));

-}

-unsigned int vp8_sub_pixel_variance8x8_mmx

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum;

-    unsigned int xxsum;

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 8,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum, &xxsum

-    );

-    *sse = xxsum;

-    return (xxsum - (((unsigned int)xsum * xsum) >> 6));

-}

-unsigned int vp8_sub_pixel_variance16x16_mmx

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum0, xsum1;

-    unsigned int xxsum0, xxsum1;

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 16,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum0, &xxsum0

-    );

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr + 8, src_pixels_per_line,

-        dst_ptr + 8, dst_pixels_per_line, 16,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum1, &xxsum1

-    );

-    xsum0 += xsum1;

-    xxsum0 += xxsum1;

-    *sse = xxsum0;

-    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 8));

-}

-unsigned int vp8_sub_pixel_variance16x8_mmx

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum0, xsum1;

-    unsigned int xxsum0, xxsum1;

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 8,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum0, &xxsum0

-    );

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr + 8, src_pixels_per_line,

-        dst_ptr + 8, dst_pixels_per_line, 8,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum1, &xxsum1

-    );

-    xsum0 += xsum1;

-    xxsum0 += xxsum1;

-    *sse = xxsum0;

-    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 7));

-}

-unsigned int vp8_sub_pixel_variance8x16_mmx

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum;

-    unsigned int xxsum;

-    vp8_filter_block2d_bil_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 16,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum, &xxsum

-    );

-    *sse = xxsum;

-    return (xxsum - (((unsigned int)xsum * xsum) >> 7));

-}

-unsigned int vp8_variance_halfpixvar16x16_h_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 4, 0,

-                                           ref_ptr, recon_stride, sse);

-}

-unsigned int vp8_variance_halfpixvar16x16_v_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 0, 4,

-                                           ref_ptr, recon_stride, sse);

-}

-unsigned int vp8_variance_halfpixvar16x16_hv_mmx(

-    const unsigned char *src_ptr,

-    int  source_stride,

-    const unsigned char *ref_ptr,

-    int  recon_stride,

-    unsigned int *sse)

-{

-    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 4, 4,

-                                           ref_ptr, recon_stride, sse);

-}

--- a/vp8/common/x86/variance_sse2.c

+++ /dev/null

@@ -1,403 +1,0 @@

-/*

- *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

- *

- *  Use of this source code is governed by a BSD-style license

- *  that can be found in the LICENSE file in the root of the source

- *  tree. An additional intellectual property rights grant can be found

- *  in the file PATENTS.  All contributing project authors may

- *  be found in the AUTHORS file in the root of the source tree.

- */

-#include "./vp8_rtcd.h"

-#include "vpx_config.h"

-#include "vp8/common/variance.h"

-#include "vpx_ports/mem.h"

-#include "vp8/common/x86/filter_x86.h"

-extern void filter_block1d_h6_mmx(const unsigned char *src_ptr, unsigned short *output_ptr, unsigned int src_pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

-extern void filter_block1d_v6_mmx(const short *src_ptr, unsigned char *output_ptr, unsigned int pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

-extern void filter_block1d8_h6_sse2(const unsigned char *src_ptr, unsigned short *output_ptr, unsigned int src_pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

-extern void filter_block1d8_v6_sse2(const short *src_ptr, unsigned char *output_ptr, unsigned int pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

-extern void vp8_filter_block2d_bil4x4_var_mmx

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    const short *HFilter,

-    const short *VFilter,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_filter_block2d_bil_var_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int  xoffset,

-    int  yoffset,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_horiz_vert_variance8x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_horiz_vert_variance16x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_horiz_variance8x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_horiz_variance16x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_vert_variance8x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-void vp8_half_vert_variance16x_h_sse2

-(

-    const unsigned char *ref_ptr,

-    int ref_pixels_per_line,

-    const unsigned char *src_ptr,

-    int src_pixels_per_line,

-    unsigned int Height,

-    int *sum,

-    unsigned int *sumsquared

-);

-unsigned int vp8_sub_pixel_variance4x4_wmt

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum;

-    unsigned int xxsum;

-    vp8_filter_block2d_bil4x4_var_mmx(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line,

-        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

-        &xsum, &xxsum

-    );

-    *sse = xxsum;

-    return (xxsum - (((unsigned int)xsum * xsum) >> 4));

-}

-unsigned int vp8_sub_pixel_variance8x8_wmt

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum;

-    unsigned int xxsum;

-    if (xoffset == 4 && yoffset == 0)

-    {

-        vp8_half_horiz_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum, &xxsum);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        vp8_half_vert_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum, &xxsum);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        vp8_half_horiz_vert_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum, &xxsum);

-    }

-    else

-    {

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            xoffset, yoffset,

-            &xsum, &xxsum);

-    }

-    *sse = xxsum;

-    return (xxsum - (((unsigned int)xsum * xsum) >> 6));

-}

-unsigned int vp8_sub_pixel_variance16x16_wmt

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum0, xsum1;

-    unsigned int xxsum0, xxsum1;

-    /* note we could avoid these if statements if the calling function

-     * just called the appropriate functions inside.

-     */

-    if (xoffset == 4 && yoffset == 0)

-    {

-        vp8_half_horiz_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        vp8_half_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        vp8_half_horiz_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum0, &xxsum0);

-    }

-    else

-    {

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            xoffset, yoffset,

-            &xsum0, &xxsum0

-        );

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr + 8, src_pixels_per_line,

-            dst_ptr + 8, dst_pixels_per_line, 16,

-            xoffset, yoffset,

-            &xsum1, &xxsum1

-        );

-        xsum0 += xsum1;

-        xxsum0 += xxsum1;

-    }

-    *sse = xxsum0;

-    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 8));

-}

-unsigned int vp8_sub_pixel_variance16x8_wmt

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum0, xsum1;

-    unsigned int xxsum0, xxsum1;

-    if (xoffset == 4 && yoffset == 0)

-    {

-        vp8_half_horiz_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        vp8_half_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum0, &xxsum0);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        vp8_half_horiz_vert_variance16x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            &xsum0, &xxsum0);

-    }

-    else

-    {

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 8,

-            xoffset, yoffset,

-            &xsum0, &xxsum0);

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr + 8, src_pixels_per_line,

-            dst_ptr + 8, dst_pixels_per_line, 8,

-            xoffset, yoffset,

-            &xsum1, &xxsum1);

-        xsum0 += xsum1;

-        xxsum0 += xxsum1;

-    }

-    *sse = xxsum0;

-    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 7));

-}

-unsigned int vp8_sub_pixel_variance8x16_wmt

-(

-    const unsigned char  *src_ptr,

-    int  src_pixels_per_line,

-    int  xoffset,

-    int  yoffset,

-    const unsigned char *dst_ptr,

-    int dst_pixels_per_line,

-    unsigned int *sse

-)

-{

-    int xsum;

-    unsigned int xxsum;

-    if (xoffset == 4 && yoffset == 0)

-    {

-        vp8_half_horiz_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum, &xxsum);

-    }

-    else if (xoffset == 0 && yoffset == 4)

-    {

-        vp8_half_vert_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum, &xxsum);

-    }

-    else if (xoffset == 4 && yoffset == 4)

-    {

-        vp8_half_horiz_vert_variance8x_h_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            &xsum, &xxsum);

-    }

-    else

-    {

-        vp8_filter_block2d_bil_var_sse2(

-            src_ptr, src_pixels_per_line,

-            dst_ptr, dst_pixels_per_line, 16,

-            xoffset, yoffset,

-            &xsum, &xxsum);

-    }

-    *sse = xxsum;

-    return (xxsum - (((unsigned int)xsum * xsum) >> 7));

-}

-unsigned int vp8_variance_halfpixvar16x16_h_wmt(

-    const unsigned char *src_ptr,

-    int  src_pixels_per_line,

-    const unsigned char *dst_ptr,

-    int  dst_pixels_per_line,

-    unsigned int *sse)

-{

-    int xsum0;

-    unsigned int xxsum0;

-    vp8_half_horiz_variance16x_h_sse2(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 16,

-        &xsum0, &xxsum0);

-    *sse = xxsum0;

-    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 8));

-}

-unsigned int vp8_variance_halfpixvar16x16_v_wmt(

-    const unsigned char *src_ptr,

-    int  src_pixels_per_line,

-    const unsigned char *dst_ptr,

-    int  dst_pixels_per_line,

-    unsigned int *sse)

-{

-    int xsum0;

-    unsigned int xxsum0;

-    vp8_half_vert_variance16x_h_sse2(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 16,

-        &xsum0, &xxsum0);

-    *sse = xxsum0;

-    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 8));

-}

-unsigned int vp8_variance_halfpixvar16x16_hv_wmt(

-    const unsigned char *src_ptr,

-    int  src_pixels_per_line,

-    const unsigned char *dst_ptr,

-    int  dst_pixels_per_line,

-    unsigned int *sse)

-{

-    int xsum0;

-    unsigned int xxsum0;

-    vp8_half_horiz_vert_variance16x_h_sse2(

-        src_ptr, src_pixels_per_line,

-        dst_ptr, dst_pixels_per_line, 16,

-        &xsum0, &xxsum0);

-    *sse = xxsum0;

-    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 8));

-}

--- /dev/null

+++ b/vp8/common/x86/vp8_variance_impl_mmx.asm

@@ -1,0 +1,353 @@

+;

+;  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+;

+;  Use of this source code is governed by a BSD-style license

+;  that can be found in the LICENSE file in the root of the source

+;  tree. An additional intellectual property rights grant can be found

+;  in the file PATENTS.  All contributing project authors may

+;  be found in the AUTHORS file in the root of the source tree.

+;

+%include "vpx_ports/x86_abi_support.asm"

+%define mmx_filter_shift            7

+;void vp8_filter_block2d_bil4x4_var_mmx

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned short *HFilter,

+;    unsigned short *VFilter,

+;    int *sum,

+;    unsigned int *sumsquared

+;)

+global sym(vp8_filter_block2d_bil4x4_var_mmx) PRIVATE

+sym(vp8_filter_block2d_bil4x4_var_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 8

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    sub         rsp, 16

+    ; end prolog

+        pxor            mm6,            mm6                 ;

+        pxor            mm7,            mm7                 ;

+        mov             rax,            arg(4) ;HFilter             ;

+        mov             rdx,            arg(5) ;VFilter             ;

+        mov             rsi,            arg(0) ;ref_ptr              ;

+        mov             rdi,            arg(2) ;src_ptr              ;

+        mov             rcx,            4                   ;

+        pxor            mm0,            mm0                 ;

+        movd            mm1,            [rsi]               ;

+        movd            mm3,            [rsi+1]             ;

+        punpcklbw       mm1,            mm0                 ;

+        pmullw          mm1,            [rax]               ;

+        punpcklbw       mm3,            mm0                 ;

+        pmullw          mm3,            [rax+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        movq            mm5,            mm1

+%if ABI_IS_32BIT

+        add             rsi, dword ptr  arg(1) ;ref_pixels_per_line    ;

+%else

+        movsxd          r8, dword ptr  arg(1) ;ref_pixels_per_line    ;

+        add             rsi, r8

+%endif

+.filter_block2d_bil4x4_var_mmx_loop:

+        movd            mm1,            [rsi]               ;

+        movd            mm3,            [rsi+1]             ;

+        punpcklbw       mm1,            mm0                 ;

+        pmullw          mm1,            [rax]               ;

+        punpcklbw       mm3,            mm0                 ;

+        pmullw          mm3,            [rax+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        movq            mm3,            mm5                 ;

+        movq            mm5,            mm1                 ;

+        pmullw          mm3,            [rdx]               ;

+        pmullw          mm1,            [rdx+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        movd            mm3,            [rdi]               ;

+        punpcklbw       mm3,            mm0                 ;

+        psubw           mm1,            mm3                 ;

+        paddw           mm6,            mm1                 ;

+        pmaddwd         mm1,            mm1                 ;

+        paddd           mm7,            mm1                 ;

+%if ABI_IS_32BIT

+        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line    ;

+        add             rdi,            dword ptr arg(3) ;src_pixels_per_line    ;

+%else

+        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line

+        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line

+        add             rsi,            r8

+        add             rdi,            r9

+%endif

+        sub             rcx,            1                   ;

+        jnz             .filter_block2d_bil4x4_var_mmx_loop       ;

+        pxor            mm3,            mm3                 ;

+        pxor            mm2,            mm2                 ;

+        punpcklwd       mm2,            mm6                 ;

+        punpckhwd       mm3,            mm6                 ;

+        paddd           mm2,            mm3                 ;

+        movq            mm6,            mm2                 ;

+        psrlq           mm6,            32                  ;

+        paddd           mm2,            mm6                 ;

+        psrad           mm2,            16                  ;

+        movq            mm4,            mm7                 ;

+        psrlq           mm4,            32                  ;

+        paddd           mm4,            mm7                 ;

+        mov             rdi,            arg(6) ;sum

+        mov             rsi,            arg(7) ;sumsquared

+        movd            dword ptr [rdi],          mm2                 ;

+        movd            dword ptr [rsi],          mm4                 ;

+    ; begin epilog

+    add rsp, 16

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+;void vp8_filter_block2d_bil_var_mmx

+;(

+;    unsigned char *ref_ptr,

+;    int ref_pixels_per_line,

+;    unsigned char *src_ptr,

+;    int src_pixels_per_line,

+;    unsigned int Height,

+;    unsigned short *HFilter,

+;    unsigned short *VFilter,

+;    int *sum,

+;    unsigned int *sumsquared

+;)

+global sym(vp8_filter_block2d_bil_var_mmx) PRIVATE

+sym(vp8_filter_block2d_bil_var_mmx):

+    push        rbp

+    mov         rbp, rsp

+    SHADOW_ARGS_TO_STACK 9

+    GET_GOT     rbx

+    push rsi

+    push rdi

+    sub         rsp, 16

+    ; end prolog

+        pxor            mm6,            mm6                 ;

+        pxor            mm7,            mm7                 ;

+        mov             rax,            arg(5) ;HFilter             ;

+        mov             rdx,            arg(6) ;VFilter             ;

+        mov             rsi,            arg(0) ;ref_ptr              ;

+        mov             rdi,            arg(2) ;src_ptr              ;

+        movsxd          rcx,            dword ptr arg(4) ;Height              ;

+        pxor            mm0,            mm0                 ;

+        movq            mm1,            [rsi]               ;

+        movq            mm3,            [rsi+1]             ;

+        movq            mm2,            mm1                 ;

+        movq            mm4,            mm3                 ;

+        punpcklbw       mm1,            mm0                 ;

+        punpckhbw       mm2,            mm0                 ;

+        pmullw          mm1,            [rax]               ;

+        pmullw          mm2,            [rax]               ;

+        punpcklbw       mm3,            mm0                 ;

+        punpckhbw       mm4,            mm0                 ;

+        pmullw          mm3,            [rax+8]             ;

+        pmullw          mm4,            [rax+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm2,            mm4                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm2,            mmx_filter_shift    ;

+        movq            mm5,            mm1

+        packuswb        mm5,            mm2                 ;

+%if ABI_IS_32BIT

+        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line

+%else

+        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line

+        add             rsi,            r8

+%endif

+.filter_block2d_bil_var_mmx_loop:

+        movq            mm1,            [rsi]               ;

+        movq            mm3,            [rsi+1]             ;

+        movq            mm2,            mm1                 ;

+        movq            mm4,            mm3                 ;

+        punpcklbw       mm1,            mm0                 ;

+        punpckhbw       mm2,            mm0                 ;

+        pmullw          mm1,            [rax]               ;

+        pmullw          mm2,            [rax]               ;

+        punpcklbw       mm3,            mm0                 ;

+        punpckhbw       mm4,            mm0                 ;

+        pmullw          mm3,            [rax+8]             ;

+        pmullw          mm4,            [rax+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm2,            mm4                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm2,            mmx_filter_shift    ;

+        movq            mm3,            mm5                 ;

+        movq            mm4,            mm5                 ;

+        punpcklbw       mm3,            mm0                 ;

+        punpckhbw       mm4,            mm0                 ;

+        movq            mm5,            mm1                 ;

+        packuswb        mm5,            mm2                 ;

+        pmullw          mm3,            [rdx]               ;

+        pmullw          mm4,            [rdx]               ;

+        pmullw          mm1,            [rdx+8]             ;

+        pmullw          mm2,            [rdx+8]             ;

+        paddw           mm1,            mm3                 ;

+        paddw           mm2,            mm4                 ;

+        paddw           mm1,            [GLOBAL(mmx_bi_rd)] ;

+        paddw           mm2,            [GLOBAL(mmx_bi_rd)] ;

+        psraw           mm1,            mmx_filter_shift    ;

+        psraw           mm2,            mmx_filter_shift    ;

+        movq            mm3,            [rdi]               ;

+        movq            mm4,            mm3                 ;

+        punpcklbw       mm3,            mm0                 ;

+        punpckhbw       mm4,            mm0                 ;

+        psubw           mm1,            mm3                 ;

+        psubw           mm2,            mm4                 ;

+        paddw           mm6,            mm1                 ;

+        pmaddwd         mm1,            mm1                 ;

+        paddw           mm6,            mm2                 ;

+        pmaddwd         mm2,            mm2                 ;

+        paddd           mm7,            mm1                 ;

+        paddd           mm7,            mm2                 ;

+%if ABI_IS_32BIT

+        add             rsi,            dword ptr arg(1) ;ref_pixels_per_line    ;

+        add             rdi,            dword ptr arg(3) ;src_pixels_per_line    ;

+%else

+        movsxd          r8,             dword ptr arg(1) ;ref_pixels_per_line    ;

+        movsxd          r9,             dword ptr arg(3) ;src_pixels_per_line    ;

+        add             rsi,            r8

+        add             rdi,            r9

+%endif

+        sub             rcx,            1                   ;

+        jnz             .filter_block2d_bil_var_mmx_loop       ;

+        pxor            mm3,            mm3                 ;

+        pxor            mm2,            mm2                 ;

+        punpcklwd       mm2,            mm6                 ;

+        punpckhwd       mm3,            mm6                 ;

+        paddd           mm2,            mm3                 ;

+        movq            mm6,            mm2                 ;

+        psrlq           mm6,            32                  ;

+        paddd           mm2,            mm6                 ;

+        psrad           mm2,            16                  ;

+        movq            mm4,            mm7                 ;

+        psrlq           mm4,            32                  ;

+        paddd           mm4,            mm7                 ;

+        mov             rdi,            arg(7) ;sum

+        mov             rsi,            arg(8) ;sumsquared

+        movd            dword ptr [rdi],          mm2                 ;

+        movd            dword ptr [rsi],          mm4                 ;

+    ; begin epilog

+    add rsp, 16

+    pop rdi

+    pop rsi

+    RESTORE_GOT

+    UNSHADOW_ARGS

+    pop         rbp

+    ret

+SECTION_RODATA

+;short mmx_bi_rd[4] = { 64, 64, 64, 64};

+align 16

+mmx_bi_rd:

+    times 4 dw 64

--- /dev/null

+++ b/vp8/common/x86/vp8_variance_mmx.c

@@ -1,0 +1,244 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "./vp8_rtcd.h"

+#include "vpx_config.h"

+#include "vp8/common/variance.h"

+#include "vpx_ports/mem.h"

+#include "vp8/common/x86/filter_x86.h"

+extern void filter_block1d_h6_mmx

+(

+    const unsigned char *src_ptr,

+    unsigned short *output_ptr,

+    unsigned int src_pixels_per_line,

+    unsigned int pixel_step,

+    unsigned int output_height,

+    unsigned int output_width,

+    short *filter

+);

+extern void filter_block1d_v6_mmx

+(

+    const short *src_ptr,

+    unsigned char *output_ptr,

+    unsigned int pixels_per_line,

+    unsigned int pixel_step,

+    unsigned int output_height,

+    unsigned int output_width,

+    short *filter

+);

+extern void vp8_filter_block2d_bil4x4_var_mmx

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    const short *HFilter,

+    const short *VFilter,

+    int *sum,

+    unsigned int *sumsquared

+);

+extern void vp8_filter_block2d_bil_var_mmx

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    const short *HFilter,

+    const short *VFilter,

+    int *sum,

+    unsigned int *sumsquared

+);

+unsigned int vp8_sub_pixel_variance4x4_mmx

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse)

+{

+    int xsum;

+    unsigned int xxsum;

+    vp8_filter_block2d_bil4x4_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum, &xxsum

+    );

+    *sse = xxsum;

+    return (xxsum - (((unsigned int)xsum * xsum) >> 4));

+}

+unsigned int vp8_sub_pixel_variance8x8_mmx

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum;

+    unsigned int xxsum;

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 8,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum, &xxsum

+    );

+    *sse = xxsum;

+    return (xxsum - (((unsigned int)xsum * xsum) >> 6));

+}

+unsigned int vp8_sub_pixel_variance16x16_mmx

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum0, xsum1;

+    unsigned int xxsum0, xxsum1;

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 16,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum0, &xxsum0

+    );

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr + 8, src_pixels_per_line,

+        dst_ptr + 8, dst_pixels_per_line, 16,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum1, &xxsum1

+    );

+    xsum0 += xsum1;

+    xxsum0 += xxsum1;

+    *sse = xxsum0;

+    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 8));

+}

+unsigned int vp8_sub_pixel_variance16x8_mmx

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum0, xsum1;

+    unsigned int xxsum0, xxsum1;

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 8,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum0, &xxsum0

+    );

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr + 8, src_pixels_per_line,

+        dst_ptr + 8, dst_pixels_per_line, 8,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum1, &xxsum1

+    );

+    xsum0 += xsum1;

+    xxsum0 += xxsum1;

+    *sse = xxsum0;

+    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 7));

+}

+unsigned int vp8_sub_pixel_variance8x16_mmx

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum;

+    unsigned int xxsum;

+    vp8_filter_block2d_bil_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 16,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum, &xxsum

+    );

+    *sse = xxsum;

+    return (xxsum - (((unsigned int)xsum * xsum) >> 7));

+}

+unsigned int vp8_variance_halfpixvar16x16_h_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 4, 0,

+                                           ref_ptr, recon_stride, sse);

+}

+unsigned int vp8_variance_halfpixvar16x16_v_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 0, 4,

+                                           ref_ptr, recon_stride, sse);

+}

+unsigned int vp8_variance_halfpixvar16x16_hv_mmx(

+    const unsigned char *src_ptr,

+    int  source_stride,

+    const unsigned char *ref_ptr,

+    int  recon_stride,

+    unsigned int *sse)

+{

+    return vp8_sub_pixel_variance16x16_mmx(src_ptr, source_stride, 4, 4,

+                                           ref_ptr, recon_stride, sse);

+}

--- /dev/null

+++ b/vp8/common/x86/vp8_variance_sse2.c

@@ -1,0 +1,403 @@

+/*

+ *  Copyright (c) 2010 The WebM project authors. All Rights Reserved.

+ *

+ *  Use of this source code is governed by a BSD-style license

+ *  that can be found in the LICENSE file in the root of the source

+ *  tree. An additional intellectual property rights grant can be found

+ *  in the file PATENTS.  All contributing project authors may

+ *  be found in the AUTHORS file in the root of the source tree.

+ */

+#include "./vp8_rtcd.h"

+#include "vpx_config.h"

+#include "vp8/common/variance.h"

+#include "vpx_ports/mem.h"

+#include "vp8/common/x86/filter_x86.h"

+extern void filter_block1d_h6_mmx(const unsigned char *src_ptr, unsigned short *output_ptr, unsigned int src_pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

+extern void filter_block1d_v6_mmx(const short *src_ptr, unsigned char *output_ptr, unsigned int pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

+extern void filter_block1d8_h6_sse2(const unsigned char *src_ptr, unsigned short *output_ptr, unsigned int src_pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

+extern void filter_block1d8_v6_sse2(const short *src_ptr, unsigned char *output_ptr, unsigned int pixels_per_line, unsigned int pixel_step, unsigned int output_height, unsigned int output_width, short *filter);

+extern void vp8_filter_block2d_bil4x4_var_mmx

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    const short *HFilter,

+    const short *VFilter,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_filter_block2d_bil_var_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int  xoffset,

+    int  yoffset,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_horiz_vert_variance8x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_horiz_vert_variance16x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_horiz_variance8x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_horiz_variance16x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_vert_variance8x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+void vp8_half_vert_variance16x_h_sse2

+(

+    const unsigned char *ref_ptr,

+    int ref_pixels_per_line,

+    const unsigned char *src_ptr,

+    int src_pixels_per_line,

+    unsigned int Height,

+    int *sum,

+    unsigned int *sumsquared

+);

+unsigned int vp8_sub_pixel_variance4x4_wmt

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum;

+    unsigned int xxsum;

+    vp8_filter_block2d_bil4x4_var_mmx(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line,

+        vp8_bilinear_filters_x86_4[xoffset], vp8_bilinear_filters_x86_4[yoffset],

+        &xsum, &xxsum

+    );

+    *sse = xxsum;

+    return (xxsum - (((unsigned int)xsum * xsum) >> 4));

+}

+unsigned int vp8_sub_pixel_variance8x8_wmt

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum;

+    unsigned int xxsum;

+    if (xoffset == 4 && yoffset == 0)

+    {

+        vp8_half_horiz_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum, &xxsum);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        vp8_half_vert_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum, &xxsum);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        vp8_half_horiz_vert_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum, &xxsum);

+    }

+    else

+    {

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            xoffset, yoffset,

+            &xsum, &xxsum);

+    }

+    *sse = xxsum;

+    return (xxsum - (((unsigned int)xsum * xsum) >> 6));

+}

+unsigned int vp8_sub_pixel_variance16x16_wmt

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum0, xsum1;

+    unsigned int xxsum0, xxsum1;

+    /* note we could avoid these if statements if the calling function

+     * just called the appropriate functions inside.

+     */

+    if (xoffset == 4 && yoffset == 0)

+    {

+        vp8_half_horiz_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        vp8_half_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        vp8_half_horiz_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum0, &xxsum0);

+    }

+    else

+    {

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            xoffset, yoffset,

+            &xsum0, &xxsum0

+        );

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr + 8, src_pixels_per_line,

+            dst_ptr + 8, dst_pixels_per_line, 16,

+            xoffset, yoffset,

+            &xsum1, &xxsum1

+        );

+        xsum0 += xsum1;

+        xxsum0 += xxsum1;

+    }

+    *sse = xxsum0;

+    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 8));

+}

+unsigned int vp8_sub_pixel_variance16x8_wmt

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum0, xsum1;

+    unsigned int xxsum0, xxsum1;

+    if (xoffset == 4 && yoffset == 0)

+    {

+        vp8_half_horiz_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        vp8_half_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum0, &xxsum0);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        vp8_half_horiz_vert_variance16x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            &xsum0, &xxsum0);

+    }

+    else

+    {

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 8,

+            xoffset, yoffset,

+            &xsum0, &xxsum0);

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr + 8, src_pixels_per_line,

+            dst_ptr + 8, dst_pixels_per_line, 8,

+            xoffset, yoffset,

+            &xsum1, &xxsum1);

+        xsum0 += xsum1;

+        xxsum0 += xxsum1;

+    }

+    *sse = xxsum0;

+    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 7));

+}

+unsigned int vp8_sub_pixel_variance8x16_wmt

+(

+    const unsigned char  *src_ptr,

+    int  src_pixels_per_line,

+    int  xoffset,

+    int  yoffset,

+    const unsigned char *dst_ptr,

+    int dst_pixels_per_line,

+    unsigned int *sse

+)

+{

+    int xsum;

+    unsigned int xxsum;

+    if (xoffset == 4 && yoffset == 0)

+    {

+        vp8_half_horiz_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum, &xxsum);

+    }

+    else if (xoffset == 0 && yoffset == 4)

+    {

+        vp8_half_vert_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum, &xxsum);

+    }

+    else if (xoffset == 4 && yoffset == 4)

+    {

+        vp8_half_horiz_vert_variance8x_h_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            &xsum, &xxsum);

+    }

+    else

+    {

+        vp8_filter_block2d_bil_var_sse2(

+            src_ptr, src_pixels_per_line,

+            dst_ptr, dst_pixels_per_line, 16,

+            xoffset, yoffset,

+            &xsum, &xxsum);

+    }

+    *sse = xxsum;

+    return (xxsum - (((unsigned int)xsum * xsum) >> 7));

+}

+unsigned int vp8_variance_halfpixvar16x16_h_wmt(

+    const unsigned char *src_ptr,

+    int  src_pixels_per_line,

+    const unsigned char *dst_ptr,

+    int  dst_pixels_per_line,

+    unsigned int *sse)

+{

+    int xsum0;

+    unsigned int xxsum0;

+    vp8_half_horiz_variance16x_h_sse2(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 16,

+        &xsum0, &xxsum0);

+    *sse = xxsum0;

+    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 8));

+}

+unsigned int vp8_variance_halfpixvar16x16_v_wmt(

+    const unsigned char *src_ptr,

+    int  src_pixels_per_line,

+    const unsigned char *dst_ptr,

+    int  dst_pixels_per_line,

+    unsigned int *sse)

+{

+    int xsum0;

+    unsigned int xxsum0;

+    vp8_half_vert_variance16x_h_sse2(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 16,

+        &xsum0, &xxsum0);

+    *sse = xxsum0;

+    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 8));

+}

+unsigned int vp8_variance_halfpixvar16x16_hv_wmt(

+    const unsigned char *src_ptr,

+    int  src_pixels_per_line,

+    const unsigned char *dst_ptr,

+    int  dst_pixels_per_line,

+    unsigned int *sse)

+{

+    int xsum0;

+    unsigned int xxsum0;

+    vp8_half_horiz_vert_variance16x_h_sse2(

+        src_ptr, src_pixels_per_line,

+        dst_ptr, dst_pixels_per_line, 16,

+        &xsum0, &xxsum0);

+    *sse = xxsum0;

+    return (xxsum0 - (((unsigned int)xsum0 * xsum0) >> 8));

+}

--- a/vp8/vp8_common.mk

+++ b/vp8/vp8_common.mk

@@ -86,8 +86,8 @@

 VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/loopfilter_mmx.asm

 VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/recon_mmx.asm

 VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/subpixel_mmx.asm

-VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/variance_mmx.c

-VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/variance_impl_mmx.asm

+VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/vp8_variance_mmx.c

+VP8_COMMON_SRCS-$(HAVE_MMX) += common/x86/vp8_variance_impl_mmx.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/copy_sse2.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/idct_blk_sse2.c

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/idctllm_sse2.asm

@@ -96,7 +96,7 @@

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/subpixel_sse2.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/loopfilter_sse2.asm

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/iwalsh_sse2.asm

-VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/variance_sse2.c

+VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/vp8_variance_sse2.c

 VP8_COMMON_SRCS-$(HAVE_SSE2) += common/x86/variance_impl_sse2.asm

 VP8_COMMON_SRCS-$(HAVE_SSE3) += common/x86/copy_sse3.asm

 VP8_COMMON_SRCS-$(HAVE_SSSE3) += common/x86/subpixel_ssse3.asm