cpu.mode fastest code on the internet
solution

sol_1621688_1778820953323773412_1317

Asm josusanmartin 2 runs public
01 source
Submitted source 22771 bytes
Compiler clang Flags -nostdlib -static -O3 -march=native
show source
.text
.globl _start
.type _start,@function
_start:
	callq run
	hlt
.size _start, .-_start
	.file	"v114.69275908a0e0deff-cgu.0"
	.section	.rodata.cst8,"aM",@progbits,8
	.p2align	3, 0x0
.LCPI0_0:
	.quad	0x4059000000000000
.LCPI0_1:
	.quad	0x3fe0000000000000
.LCPI0_2:
	.quad	0xc059000000000000
.LCPI0_3:
	.quad	0x43e0000000000000
.LCPI0_4:
	.quad	0x43efffffffffffff
	.section	.text._RNvCs91JiLRm4Cx7_4v11412write_fixed2,"ax",@progbits
	.p2align	4
	.type	_RNvCs91JiLRm4Cx7_4v11412write_fixed2,@function
_RNvCs91JiLRm4Cx7_4v11412write_fixed2:
	.cfi_startproc
	vxorpd	%xmm1, %xmm1, %xmm1
	vmovupd	%ymm1, -40(%rsp)
	vxorpd	%xmm1, %xmm1, %xmm1
	vucomisd	%xmm0, %xmm1
	jbe	.LBB0_1
	movb	$45, -40(%rsp)
	vmulsd	.LCPI0_2(%rip), %xmm0, %xmm0
	vaddsd	.LCPI0_1(%rip), %xmm0, %xmm0
	movl	$1, %eax
	jmp	.LBB0_3
.LBB0_1:
	vmulsd	.LCPI0_0(%rip), %xmm0, %xmm0
	vaddsd	.LCPI0_1(%rip), %xmm0, %xmm0
	xorl	%eax, %eax
.LBB0_3:
	vcvttsd2si	%xmm0, %rcx
	movq	%rcx, %rdx
	sarq	$63, %rdx
	vsubsd	.LCPI0_3(%rip), %xmm0, %xmm1
	vcvttsd2si	%xmm1, %rsi
	andq	%rdx, %rsi
	orq	%rcx, %rsi
	xorl	%ecx, %ecx
	vxorpd	%xmm1, %xmm1, %xmm1
	vucomisd	%xmm1, %xmm0
	cmovaeq	%rsi, %rcx
	vucomisd	.LCPI0_4(%rip), %xmm0
	movq	$-1, %rsi
	cmovbeq	%rcx, %rsi
	movq	%rsi, %rdx
	shrq	$2, %rdx
	movabsq	$2951479051793528259, %rcx
	mulxq	%rcx, %rdx, %rdx
	shrq	$2, %rdx
	imulq	$100, %rdx, %rcx
	subq	%rcx, %rsi
	leaq	-2(%rax), %rcx
	movabsq	$-3689348814741910323, %rdi
	.p2align	4
.LBB0_4:
	mulxq	%rdi, %r8, %r8
	shrq	$3, %r8
	imull	$246, %r8d, %r9d
	addl	%edx, %r9d
	addb	$48, %r9b
	movb	%r9b, -38(%rsp,%rcx)
	incq	%rcx
	cmpq	$9, %rdx
	movq	%r8, %rdx
	ja	.LBB0_4
	leaq	1(%rcx), %rdx
	cmpq	%rdx, %rax
	jae	.LBB0_8
	movq	%rcx, %rdx
	.p2align	4
.LBB0_7:
	movzbl	-40(%rsp,%rax), %edi
	movzbl	-39(%rsp,%rdx), %r8d
	movb	%r8b, -40(%rsp,%rax)
	movb	%dil, -39(%rsp,%rdx)
	incq	%rax
	cmpq	%rdx, %rax
	leaq	-1(%rdx), %rdx
	jb	.LBB0_7
.LBB0_8:
	movb	$46, -38(%rsp,%rcx)
	imull	$205, %esi, %eax
	movzwl	%ax, %eax
	shrl	$11, %eax
	movl	%eax, %edx
	orb	$48, %dl
	movb	%dl, -37(%rsp,%rcx)
	addl	%eax, %eax
	leal	(%rax,%rax,4), %eax
	subb	%al, %sil
	orb	$48, %sil
	movb	%sil, -36(%rsp,%rcx)
	addq	$5, %rcx
	leaq	-40(%rsp), %rsi
	movl	$1, %eax
	movl	$1, %edi
	movq	%rcx, %rdx
	#APP

	syscall

	#NO_APP
	vzeroupper
	retq
.Lfunc_end0:
	.size	_RNvCs91JiLRm4Cx7_4v11412write_fixed2, .Lfunc_end0-_RNvCs91JiLRm4Cx7_4v11412write_fixed2
	.cfi_endproc

	.section	.text._RNvCs9yhMa3bQ28w_7___rustc17rust_begin_unwind,"ax",@progbits
	.hidden	_RNvCs9yhMa3bQ28w_7___rustc17rust_begin_unwind
	.globl	_RNvCs9yhMa3bQ28w_7___rustc17rust_begin_unwind
	.p2align	4
	.type	_RNvCs9yhMa3bQ28w_7___rustc17rust_begin_unwind,@function
_RNvCs9yhMa3bQ28w_7___rustc17rust_begin_unwind:
	.cfi_startproc
	pushq	%rax
	.cfi_def_cfa_offset 16
	movl	$60, %eax
	movl	$1, %edi
	#APP

	syscall

	#NO_APP
	ud2
.Lfunc_end1:
	.size	_RNvCs9yhMa3bQ28w_7___rustc17rust_begin_unwind, .Lfunc_end1-_RNvCs9yhMa3bQ28w_7___rustc17rust_begin_unwind
	.cfi_endproc

	.section	.rodata.cst32,"aM",@progbits,32
	.p2align	5, 0x0
.LCPI2_0:
	.byte	0
	.byte	128
	.byte	0
	.byte	128
	.byte	0
	.byte	128
	.byte	0
	.byte	128
	.byte	1
	.byte	128
	.byte	1
	.byte	128
	.byte	1
	.byte	128
	.byte	1
	.byte	128
	.byte	2
	.byte	128
	.byte	2
	.byte	128
	.byte	2
	.byte	128
	.byte	2
	.byte	128
	.byte	3
	.byte	128
	.byte	3
	.byte	128
	.byte	3
	.byte	128
	.byte	3
	.byte	128
.LCPI2_1:
	.byte	4
	.byte	128
	.byte	4
	.byte	128
	.byte	4
	.byte	128
	.byte	4
	.byte	128
	.byte	5
	.byte	128
	.byte	5
	.byte	128
	.byte	5
	.byte	128
	.byte	5
	.byte	128
	.byte	6
	.byte	128
	.byte	6
	.byte	128
	.byte	6
	.byte	128
	.byte	6
	.byte	128
	.byte	7
	.byte	128
	.byte	7
	.byte	128
	.byte	7
	.byte	128
	.byte	7
	.byte	128
.LCPI2_2:
	.byte	8
	.byte	128
	.byte	8
	.byte	128
	.byte	8
	.byte	128
	.byte	8
	.byte	128
	.byte	9
	.byte	128
	.byte	9
	.byte	128
	.byte	9
	.byte	128
	.byte	9
	.byte	128
	.byte	10
	.byte	128
	.byte	10
	.byte	128
	.byte	10
	.byte	128
	.byte	10
	.byte	128
	.byte	11
	.byte	128
	.byte	11
	.byte	128
	.byte	11
	.byte	128
	.byte	11
	.byte	128
.LCPI2_3:
	.byte	12
	.byte	128
	.byte	12
	.byte	128
	.byte	12
	.byte	128
	.byte	12
	.byte	128
	.byte	13
	.byte	128
	.byte	13
	.byte	128
	.byte	13
	.byte	128
	.byte	13
	.byte	128
	.byte	14
	.byte	128
	.byte	14
	.byte	128
	.byte	14
	.byte	128
	.byte	14
	.byte	128
	.byte	15
	.byte	128
	.byte	15
	.byte	128
	.byte	15
	.byte	128
	.byte	15
	.byte	128
.LCPI2_4:
	.zero	32,15
	.section	.rodata.cst4,"aM",@progbits,4
	.p2align	2, 0x0
.LCPI2_5:
	.zero	4,15
	.section	.text.run,"ax",@progbits
	.globl	run
	.p2align	4
	.type	run,@function
run:
	.cfi_startproc
	pushq	%rbp
	.cfi_def_cfa_offset 16
	pushq	%r15
	.cfi_def_cfa_offset 24
	pushq	%r14
	.cfi_def_cfa_offset 32
	pushq	%r13
	.cfi_def_cfa_offset 40
	pushq	%r12
	.cfi_def_cfa_offset 48
	pushq	%rbx
	.cfi_def_cfa_offset 56
	subq	$136, %rsp
	.cfi_def_cfa_offset 192
	.cfi_offset %rbx, -56
	.cfi_offset %r12, -48
	.cfi_offset %r13, -40
	.cfi_offset %r14, -32
	.cfi_offset %r15, -24
	.cfi_offset %rbp, -16
	xorl	%ebx, %ebx
	movl	$8, %eax
	movl	$2, %edx
	xorl	%edi, %edi
	xorl	%esi, %esi
	#APP

	syscall

	#NO_APP
	movq	%rax, %r8
	movl	$8, %eax
	xorl	%edi, %edi
	xorl	%esi, %esi
	xorl	%edx, %edx
	#APP

	syscall

	#NO_APP
	movl	$9, %eax
	movl	$1, %edx
	movl	$32770, %r10d
	xorl	%edi, %edi
	movq	%r8, %rsi
	xorl	%r8d, %r8d
	xorl	%r9d, %r9d
	#APP

	syscall

	#NO_APP
	leaq	24(%rax), %rcx
	leaq	276(%rax), %rdx
	addq	$9368, %rax
	vxorpd	%xmm0, %xmm0, %xmm0
	vpbroadcastd	.LCPI2_5(%rip), %ymm9
	jmp	.LBB2_2
	.p2align	4
.LBB2_1:
	movq	16(%rsp), %rbx
	incq	%rbx
	addq	$4727936, %rcx
	addq	$4727936, %rdx
	movq	8(%rsp), %rax
	addq	$4727936, %rax
	cmpq	$16, %rbx
	je	.LBB2_10
.LBB2_2:
	movq	%rbx, 16(%rsp)
	leaq	_RNvNvCs91JiLRm4Cx7_4v1143run4META+1136(%rip), %rsi
	xorl	%r8d, %r8d
	.p2align	4
.LBB2_3:
	movl	(%rcx,%r8), %r9d
	movl	%r9d, -112(%rsi)
	vmovdqu	260(%rcx,%r8), %xmm1
	vphaddw	276(%rcx,%r8), %xmm1, %xmm1
	vmovdqa	%xmm1, -96(%rsi)
	movl	292(%rcx,%r8), %r9d
	movl	%r9d, -80(%rsi)
	vmovdqu	552(%rcx,%r8), %xmm1
	vphaddw	568(%rcx,%r8), %xmm1, %xmm1
	vmovdqa	%xmm1, -64(%rsi)
	movl	584(%rcx,%r8), %r9d
	movl	%r9d, -48(%rsi)
	vmovdqu	844(%rcx,%r8), %xmm1
	vphaddw	860(%rcx,%r8), %xmm1, %xmm1
	vmovdqa	%xmm1, -32(%rsi)
	movl	876(%rcx,%r8), %r9d
	movl	%r9d, -16(%rsi)
	vmovdqu	1136(%rcx,%r8), %xmm1
	vphaddw	1152(%rcx,%r8), %xmm1, %xmm1
	vmovdqa	%xmm1, (%rsi)
	addq	$1168, %r8
	subq	$-128, %rsi
	cmpq	$9344, %r8
	jne	.LBB2_3
	movq	%rax, 8(%rsp)
	movq	%rax, %r8
	xorl	%r9d, %r9d
	jmp	.LBB2_5
	.p2align	4
.LBB2_8:
	vmovshdup	%xmm5, %xmm0
	vshufpd	$1, %xmm5, %xmm5, %xmm1
	vshufps	$255, %xmm5, %xmm5, %xmm2
	vextractf128	$1, %ymm5, %xmm3
	vmovshdup	%xmm3, %xmm4
	vshufpd	$1, %xmm3, %xmm3, %xmm8
	vshufps	$255, %xmm3, %xmm3, %xmm7
	vcvtss2sd	%xmm5, %xmm5, %xmm6
	vaddsd	24(%rsp), %xmm6, %xmm6
	vcvtss2sd	%xmm0, %xmm0, %xmm0
	vaddsd	%xmm0, %xmm6, %xmm0
	vcvtss2sd	%xmm1, %xmm1, %xmm1
	vaddsd	%xmm1, %xmm0, %xmm0
	vcvtss2sd	%xmm2, %xmm2, %xmm1
	vaddsd	%xmm1, %xmm0, %xmm0
	vcvtss2sd	%xmm3, %xmm3, %xmm1
	vaddsd	%xmm1, %xmm0, %xmm0
	vcvtss2sd	%xmm4, %xmm4, %xmm1
	vaddsd	%xmm1, %xmm0, %xmm0
	vcvtss2sd	%xmm8, %xmm8, %xmm1
	vaddsd	%xmm1, %xmm0, %xmm0
	vcvtss2sd	%xmm7, %xmm7, %xmm1
	vaddsd	%xmm1, %xmm0, %xmm0
	incq	%r9
	addq	$36864, %r8
	cmpq	$128, %r9
	je	.LBB2_1
.LBB2_5:
	vmovsd	%xmm0, 24(%rsp)
	vxorps	%xmm5, %xmm5, %xmm5
	leaq	_RNvNvCs91JiLRm4Cx7_4v1143run4META+1054(%rip), %r10
	movq	%r8, %r11
	movq	%rdx, %r14
	xorl	%r15d, %r15d
	jmp	.LBB2_6
	.p2align	4
.LBB2_7:
	movl	32(%r11), %ebp
	movl	36(%r11), %r12d
	movl	40(%r11), %esi
	movl	%ebp, %r13d
	andl	$1061109567, %r13d
	movl	%esi, %ebx
	andl	$252645135, %ebx
	shrl	$2, %ebp
	andl	$808464432, %ebp
	orl	%ebx, %ebp
	movl	%r12d, %ebx
	andl	$1061109567, %ebx
	shrl	$4, %esi
	andl	$252645135, %esi
	shrl	$2, %r12d
	andl	$808464432, %r12d
	orl	%esi, %r12d
	shlq	$32, %rbp
	orq	%r13, %rbp
	shlq	$32, %r12
	orq	%rbx, %r12
	movl	44(%r11), %esi
	movl	48(%r11), %r13d
	movl	52(%r11), %ebx
	movl	%esi, %edi
	andl	$1061109567, %edi
	movl	%ebx, %eax
	andl	$252645135, %eax
	shrl	$2, %esi
	andl	$808464432, %esi
	orl	%eax, %esi
	movl	%r13d, %eax
	andl	$1061109567, %eax
	shrl	$4, %ebx
	andl	$252645135, %ebx
	shrl	$2, %r13d
	andl	$808464432, %r13d
	orl	%ebx, %r13d
	shlq	$32, %rsi
	orq	%rdi, %rsi
	shlq	$32, %r13
	orq	%rax, %r13
	vmovq	%rsi, %xmm0
	vmovq	%rbp, %xmm1
	vpunpcklqdq	%xmm0, %xmm1, %xmm0
	vinserti128	$1, %xmm0, %ymm0, %ymm0
	vmovdqa	.LCPI2_0(%rip), %ymm1
	vpshufb	%ymm1, %ymm0, %ymm7
	vmovdqa	.LCPI2_1(%rip), %ymm1
	vpshufb	%ymm1, %ymm0, %ymm5
	vmovdqa	.LCPI2_2(%rip), %ymm1
	vpshufb	%ymm1, %ymm0, %ymm11
	vmovdqa	.LCPI2_3(%rip), %ymm1
	vpshufb	%ymm1, %ymm0, %ymm10
	vmovdqu	128(%r11), %ymm0
	vmovdqu	160(%r11), %ymm1
	vpsrlw	$4, %ymm0, %ymm2
	vpsrlw	$4, %ymm1, %ymm3
	vpbroadcastq	-248(%r14), %ymm8
	vpbroadcastq	-216(%r14), %ymm12
	vpand	%ymm0, %ymm9, %ymm0
	vpmaddubsw	%ymm8, %ymm0, %ymm0
	vpand	%ymm1, %ymm9, %ymm1
	vpmaddubsw	%ymm8, %ymm1, %ymm1
	vpand	%ymm2, %ymm9, %ymm2
	vpmaddubsw	%ymm12, %ymm2, %ymm13
	vpand	%ymm3, %ymm9, %ymm2
	vpmaddubsw	%ymm12, %ymm2, %ymm3
	vmovdqu	192(%r11), %ymm2
	vmovdqu	224(%r11), %ymm12
	vpsrlw	$4, %ymm2, %ymm14
	vpsrlw	$4, %ymm12, %ymm15
	vpbroadcastq	-240(%r14), %ymm4
	vpbroadcastq	-208(%r14), %ymm6
	vpand	%ymm2, %ymm9, %ymm2
	vpmaddubsw	%ymm4, %ymm2, %ymm2
	vpaddw	%ymm0, %ymm2, %ymm8
	vpand	%ymm9, %ymm12, %ymm0
	vpmaddubsw	%ymm4, %ymm0, %ymm0
	vpaddw	%ymm1, %ymm0, %ymm2
	vpand	%ymm9, %ymm14, %ymm0
	vpmaddubsw	%ymm6, %ymm0, %ymm0
	vpaddw	%ymm0, %ymm13, %ymm1
	vpand	%ymm9, %ymm15, %ymm0
	vpmaddubsw	%ymm6, %ymm0, %ymm0
	vpaddw	%ymm3, %ymm0, %ymm0
	vmovdqu	256(%r11), %ymm3
	vmovdqu	288(%r11), %ymm4
	vpsrlw	$4, %ymm3, %ymm6
	vpsrlw	$4, %ymm4, %ymm12
	vpbroadcastq	-232(%r14), %ymm13
	vpbroadcastq	-200(%r14), %ymm14
	vpand	%ymm3, %ymm9, %ymm3
	vpmaddubsw	%ymm13, %ymm3, %ymm3
	vpand	%ymm4, %ymm9, %ymm4
	vpmaddubsw	%ymm13, %ymm4, %ymm4
	vpand	%ymm6, %ymm9, %ymm6
	vpmaddubsw	%ymm14, %ymm6, %ymm6
	vpand	%ymm9, %ymm12, %ymm12
	vpmaddubsw	%ymm14, %ymm12, %ymm12
	vmovdqu	320(%r11), %ymm13
	vpbroadcastq	-224(%r14), %ymm14
	vpand	%ymm9, %ymm13, %ymm15
	vpmaddubsw	%ymm14, %ymm15, %ymm15
	vpaddw	%ymm3, %ymm15, %ymm3
	vmovdqu	352(%r11), %ymm15
	vpsrlw	$4, %ymm13, %ymm13
	vpaddw	%ymm3, %ymm8, %ymm3
	vpsrlw	$4, %ymm15, %ymm8
	vpand	%ymm9, %ymm15, %ymm15
	vpmaddubsw	%ymm14, %ymm15, %ymm14
	vpbroadcastq	-192(%r14), %ymm15
	vpaddw	%ymm4, %ymm14, %ymm4
	vpaddw	%ymm4, %ymm2, %ymm2
	vpand	%ymm9, %ymm13, %ymm4
	vpmaddubsw	%ymm15, %ymm4, %ymm4
	vpaddw	%ymm4, %ymm6, %ymm4
	vpaddw	%ymm4, %ymm1, %ymm1
	vpand	%ymm9, %ymm8, %ymm4
	vpmaddubsw	%ymm15, %ymm4, %ymm4
	vpaddw	%ymm4, %ymm12, %ymm4
	vpaddw	%ymm4, %ymm0, %ymm0
	vpxor	%xmm4, %xmm4, %xmm4
	{vex}	vpdpwssd	%ymm7, %ymm3, %ymm4
	{vex}	vpdpwssd	%ymm11, %ymm1, %ymm4
	vmovdqa	%ymm4, %ymm7
	vpxor	%xmm8, %xmm8, %xmm8
	{vex}	vpdpwssd	%ymm5, %ymm2, %ymm8
	{vex}	vpdpwssd	%ymm10, %ymm0, %ymm8
	vmovq	%r12, %xmm0
	vpmovzxbd	%xmm0, %ymm0
	vmovq	%r13, %xmm1
	vpmovzxbd	%xmm1, %ymm1
	vmovd	-14(%r10), %xmm2
	vpbroadcastd	%xmm2, %ymm2
	movzwl	-12(%r10), %eax
	vmovd	%eax, %xmm3
	vpbroadcastd	%xmm3, %ymm3
	vpmaddwd	%ymm1, %ymm3, %ymm1
	{vex}	vpdpwssd	%ymm0, %ymm2, %ymm1
	vmovdqu	%ymm1, 32(%rsp)
	movl	56(%r11), %ebp
	movl	60(%r11), %r12d
	movl	64(%r11), %eax
	movl	%ebp, %esi
	andl	$1061109567, %esi
	movl	%eax, %edi
	andl	$252645135, %edi
	shrl	$2, %ebp
	andl	$808464432, %ebp
	orl	%edi, %ebp
	movl	%r12d, %edi
	andl	$1061109567, %edi
	shrl	$4, %eax
	andl	$252645135, %eax
	shrl	$2, %r12d
	andl	$808464432, %r12d
	orl	%eax, %r12d
	shlq	$32, %rbp
	orq	%rsi, %rbp
	shlq	$32, %r12
	orq	%rdi, %r12
	movl	68(%r11), %esi
	movl	72(%r11), %r13d
	movl	76(%r11), %eax
	movl	%esi, %edi
	andl	$1061109567, %edi
	movl	%eax, %ebx
	andl	$252645135, %ebx
	shrl	$2, %esi
	andl	$808464432, %esi
	orl	%ebx, %esi
	movl	%r13d, %ebx
	andl	$1061109567, %ebx
	shrl	$4, %eax
	andl	$252645135, %eax
	shrl	$2, %r13d
	andl	$808464432, %r13d
	orl	%eax, %r13d
	shlq	$32, %rsi
	orq	%rdi, %rsi
	shlq	$32, %r13
	orq	%rbx, %r13
	vmovq	%rsi, %xmm0
	vmovq	%rbp, %xmm1
	vpunpcklqdq	%xmm0, %xmm1, %xmm0
	vinserti128	$1, %xmm0, %ymm0, %ymm10
	vmovdqu	384(%r11), %ymm0
	vmovdqu	416(%r11), %ymm1
	vpsrlw	$4, %ymm0, %ymm2
	vpsrlw	$4, %ymm1, %ymm3
	vpbroadcastq	-184(%r14), %ymm4
	vpbroadcastq	-152(%r14), %ymm6
	vpand	%ymm0, %ymm9, %ymm0
	vpmaddubsw	%ymm4, %ymm0, %ymm0
	vpand	%ymm1, %ymm9, %ymm1
	vpmaddubsw	%ymm4, %ymm1, %ymm1
	vpand	%ymm2, %ymm9, %ymm2
	vpmaddubsw	%ymm6, %ymm2, %ymm4
	vpand	%ymm3, %ymm9, %ymm2
	vpmaddubsw	%ymm6, %ymm2, %ymm3
	vmovdqu	448(%r11), %ymm2
	vmovdqu	480(%r11), %ymm6
	vpsrlw	$4, %ymm2, %ymm11
	vpsrlw	$4, %ymm6, %ymm13
	vpbroadcastq	-176(%r14), %ymm12
	vpbroadcastq	-144(%r14), %ymm14
	vpand	%ymm2, %ymm9, %ymm2
	vpmaddubsw	%ymm12, %ymm2, %ymm2
	vpaddw	%ymm0, %ymm2, %ymm2
	vpand	%ymm6, %ymm9, %ymm0
	vpmaddubsw	%ymm12, %ymm0, %ymm0
	vpaddw	%ymm1, %ymm0, %ymm1
	vpand	%ymm9, %ymm11, %ymm0
	vpmaddubsw	%ymm14, %ymm0, %ymm0
	vpaddw	%ymm4, %ymm0, %ymm12
	vpand	%ymm9, %ymm13, %ymm0
	vpmaddubsw	%ymm14, %ymm0, %ymm0
	vpaddw	%ymm3, %ymm0, %ymm11
	vmovdqu	512(%r11), %ymm0
	vmovdqu	544(%r11), %ymm3
	vpsrlw	$4, %ymm0, %ymm4
	vpsrlw	$4, %ymm3, %ymm6
	vpbroadcastq	-168(%r14), %ymm13
	vpbroadcastq	-136(%r14), %ymm14
	vpand	%ymm0, %ymm9, %ymm0
	vpmaddubsw	%ymm13, %ymm0, %ymm15
	vpand	%ymm3, %ymm9, %ymm0
	vpmaddubsw	%ymm13, %ymm0, %ymm3
	vpand	%ymm4, %ymm9, %ymm0
	vpmaddubsw	%ymm14, %ymm0, %ymm4
	vpand	%ymm6, %ymm9, %ymm0
	vpmaddubsw	%ymm14, %ymm0, %ymm0
	vmovdqu	576(%r11), %ymm6
	vpbroadcastq	-160(%r14), %ymm13
	vpand	%ymm6, %ymm9, %ymm14
	vpmaddubsw	%ymm13, %ymm14, %ymm14
	vpaddw	%ymm14, %ymm15, %ymm14
	vpshufb	.LCPI2_0(%rip), %ymm10, %ymm15
	vpaddw	%ymm2, %ymm14, %ymm2
	vpshufb	.LCPI2_1(%rip), %ymm10, %ymm14
	{vex}	vpdpwssd	%ymm15, %ymm2, %ymm7
	vmovdqu	608(%r11), %ymm2
	vpand	%ymm2, %ymm9, %ymm15
	vpmaddubsw	%ymm13, %ymm15, %ymm13
	vmovdqa	.LCPI2_2(%rip), %ymm5
	vpshufb	%ymm5, %ymm10, %ymm15
	vmovdqa	.LCPI2_3(%rip), %ymm5
	vpshufb	%ymm5, %ymm10, %ymm10
	vpsrlw	$4, %ymm6, %ymm6
	vpsrlw	$4, %ymm2, %ymm2
	vpaddw	%ymm3, %ymm13, %ymm3
	vpbroadcastq	-128(%r14), %ymm13
	vpaddw	%ymm3, %ymm1, %ymm1
	{vex}	vpdpwssd	%ymm14, %ymm1, %ymm8
	vpand	%ymm6, %ymm9, %ymm1
	vpmaddubsw	%ymm13, %ymm1, %ymm1
	vpaddw	%ymm1, %ymm4, %ymm1
	vpaddw	%ymm1, %ymm12, %ymm1
	{vex}	vpdpwssd	%ymm15, %ymm1, %ymm7
	vpand	%ymm2, %ymm9, %ymm1
	vpmaddubsw	%ymm13, %ymm1, %ymm1
	vpaddw	%ymm1, %ymm0, %ymm0
	vpaddw	%ymm0, %ymm11, %ymm0
	{vex}	vpdpwssd	%ymm10, %ymm0, %ymm8
	vmovq	%r12, %xmm0
	vpmovzxbd	%xmm0, %ymm0
	vmovq	%r13, %xmm1
	vpmovzxbd	%xmm1, %ymm1
	vmovd	-10(%r10), %xmm2
	vpbroadcastd	%xmm2, %ymm2
	vmovdqu	32(%rsp), %ymm5
	{vex}	vpdpwssd	%ymm0, %ymm2, %ymm5
	movzwl	-8(%r10), %eax
	vmovd	%eax, %xmm0
	vpbroadcastd	%xmm0, %ymm0
	{vex}	vpdpwssd	%ymm1, %ymm0, %ymm5
	movl	80(%r11), %ebp
	movl	84(%r11), %r12d
	movl	88(%r11), %eax
	movl	%ebp, %esi
	andl	$1061109567, %esi
	movl	%eax, %edi
	andl	$252645135, %edi
	shrl	$2, %ebp
	andl	$808464432, %ebp
	orl	%edi, %ebp
	movl	%r12d, %edi
	andl	$1061109567, %edi
	shrl	$4, %eax
	andl	$252645135, %eax
	shrl	$2, %r12d
	andl	$808464432, %r12d
	orl	%eax, %r12d
	shlq	$32, %rbp
	orq	%rsi, %rbp
	shlq	$32, %r12
	orq	%rdi, %r12
	movl	92(%r11), %esi
	movl	96(%r11), %r13d
	movl	100(%r11), %eax
	movl	%esi, %edi
	andl	$1061109567, %edi
	movl	%eax, %ebx
	andl	$252645135, %ebx
	shrl	$2, %esi
	andl	$808464432, %esi
	orl	%ebx, %esi
	movl	%r13d, %ebx
	andl	$1061109567, %ebx
	shrl	$4, %eax
	andl	$252645135, %eax
	shrl	$2, %r13d
	andl	$808464432, %r13d
	orl	%eax, %r13d
	shlq	$32, %rsi
	orq	%rdi, %rsi
	shlq	$32, %r13
	orq	%rbx, %r13
	vmovq	%rsi, %xmm0
	vmovq	%rbp, %xmm1
	vpunpcklqdq	%xmm0, %xmm1, %xmm0
	vinserti128	$1, %xmm0, %ymm0, %ymm10
	vmovdqu	640(%r11), %ymm0
	vmovdqu	672(%r11), %ymm1
	vpsrlw	$4, %ymm0, %ymm2
	vpsrlw	$4, %ymm1, %ymm3
	vpbroadcastq	-120(%r14), %ymm4
	vpbroadcastq	-88(%r14), %ymm6
	vpand	%ymm0, %ymm9, %ymm0
	vpmaddubsw	%ymm4, %ymm0, %ymm0
	vpand	%ymm1, %ymm9, %ymm1
	vpmaddubsw	%ymm4, %ymm1, %ymm1
	vpand	%ymm2, %ymm9, %ymm2
	vpmaddubsw	%ymm6, %ymm2, %ymm4
	vpand	%ymm3, %ymm9, %ymm2
	vpmaddubsw	%ymm6, %ymm2, %ymm3
	vmovdqu	704(%r11), %ymm2
	vmovdqu	736(%r11), %ymm6
	vpsrlw	$4, %ymm2, %ymm11
	vpsrlw	$4, %ymm6, %ymm13
	vpbroadcastq	-112(%r14), %ymm12
	vpbroadcastq	-80(%r14), %ymm14
	vpand	%ymm2, %ymm9, %ymm2
	vpmaddubsw	%ymm12, %ymm2, %ymm2
	vpaddw	%ymm0, %ymm2, %ymm2
	vpand	%ymm6, %ymm9, %ymm0
	vpmaddubsw	%ymm12, %ymm0, %ymm0
	vpaddw	%ymm1, %ymm0, %ymm1
	vpand	%ymm9, %ymm11, %ymm0
	vpmaddubsw	%ymm14, %ymm0, %ymm0
	vpaddw	%ymm4, %ymm0, %ymm12
	vpand	%ymm9, %ymm13, %ymm0
	vpmaddubsw	%ymm14, %ymm0, %ymm0
	vpaddw	%ymm3, %ymm0, %ymm11
	vmovdqu	768(%r11), %ymm0
	vmovdqu	800(%r11), %ymm3
	vpsrlw	$4, %ymm0, %ymm4
	vpsrlw	$4, %ymm3, %ymm6
	vpbroadcastq	-104(%r14), %ymm13
	vpbroadcastq	-72(%r14), %ymm14
	vpand	%ymm0, %ymm9, %ymm0
	vpmaddubsw	%ymm13, %ymm0, %ymm15
	vpand	%ymm3, %ymm9, %ymm0
	vpmaddubsw	%ymm13, %ymm0, %ymm3
	vpand	%ymm4, %ymm9, %ymm0
	vpmaddubsw	%ymm14, %ymm0, %ymm4
	vpand	%ymm6, %ymm9, %ymm0
	vpmaddubsw	%ymm14, %ymm0, %ymm0
	vmovdqu	832(%r11), %ymm6
	vpbroadcastq	-96(%r14), %ymm13
	vpand	%ymm6, %ymm9, %ymm14
	vpmaddubsw	%ymm13, %ymm14, %ymm14
	vpaddw	%ymm14, %ymm15, %ymm14
	vmovdqa	.LCPI2_0(%rip), %ymm15
	vpshufb	%ymm15, %ymm10, %ymm15
	vpaddw	%ymm2, %ymm14, %ymm2
	vpshufb	.LCPI2_1(%rip), %ymm10, %ymm14
	{vex}	vpdpwssd	%ymm15, %ymm2, %ymm7
	vmovdqu	864(%r11), %ymm2
	vpand	%ymm2, %ymm9, %ymm15
	vpmaddubsw	%ymm13, %ymm15, %ymm13
	vpshufb	.LCPI2_2(%rip), %ymm10, %ymm15
	vpshufb	.LCPI2_3(%rip), %ymm10, %ymm10
	vpsrlw	$4, %ymm6, %ymm6
	vpsrlw	$4, %ymm2, %ymm2
	vpaddw	%ymm3, %ymm13, %ymm3
	vpbroadcastq	-64(%r14), %ymm13
	vpaddw	%ymm3, %ymm1, %ymm1
	{vex}	vpdpwssd	%ymm14, %ymm1, %ymm8
	vpand	%ymm6, %ymm9, %ymm1
	vpmaddubsw	%ymm13, %ymm1, %ymm1
	vpaddw	%ymm1, %ymm4, %ymm1
	vpaddw	%ymm1, %ymm12, %ymm1
	{vex}	vpdpwssd	%ymm15, %ymm1, %ymm7
	vpand	%ymm2, %ymm9, %ymm1
	vpmaddubsw	%ymm13, %ymm1, %ymm1
	vpaddw	%ymm1, %ymm0, %ymm0
	vpaddw	%ymm0, %ymm11, %ymm0
	{vex}	vpdpwssd	%ymm10, %ymm0, %ymm8
	vmovq	%r12, %xmm0
	vpmovzxbd	%xmm0, %ymm0
	vmovq	%r13, %xmm1
	vpmovzxbd	%xmm1, %ymm1
	vmovd	-6(%r10), %xmm2
	vpbroadcastd	%xmm2, %ymm2
	{vex}	vpdpwssd	%ymm0, %ymm2, %ymm5
	movzwl	-4(%r10), %eax
	vmovd	%eax, %xmm0
	vpbroadcastd	%xmm0, %ymm0
	{vex}	vpdpwssd	%ymm1, %ymm0, %ymm5
	vmovdqu	%ymm5, 32(%rsp)
	movl	104(%r11), %r13d
	movl	112(%r11), %ebp
	movl	%r13d, %eax
	andl	$1061109567, %eax
	movl	%ebp, %esi
	andl	$252645135, %esi
	shrl	$2, %r13d
	andl	$808464432, %r13d
	orl	%esi, %r13d
	shlq	$32, %r13
	orq	%rax, %r13
	movl	116(%r11), %esi
	movl	124(%r11), %r12d
	movl	%esi, %eax
	andl	$1061109567, %eax
	movl	%r12d, %edi
	andl	$252645135, %edi
	shrl	$2, %esi
	andl	$808464432, %esi
	orl	%edi, %esi
	shlq	$32, %rsi
	orq	%rax, %rsi
	vmovq	%rsi, %xmm0
	vmovq	%r13, %xmm1
	vpunpcklqdq	%xmm0, %xmm1, %xmm5
	vmovdqu	896(%r11), %ymm13
	vmovdqu	928(%r11), %ymm3
	vmovdqu	%ymm3, 64(%rsp)
	vpbroadcastq	-56(%r14), %ymm0
	vpand	%ymm9, %ymm13, %ymm1
	vpmaddubsw	%ymm0, %ymm1, %ymm2
	vpand	%ymm3, %ymm9, %ymm1
	vpmaddubsw	%ymm0, %ymm1, %ymm12
	vmovdqu	960(%r11), %ymm14
	vpbroadcastq	-48(%r14), %ymm1
	vpand	%ymm9, %ymm14, %ymm0
	vpmaddubsw	%ymm1, %ymm0, %ymm0
	vpaddw	%ymm2, %ymm0, %ymm3
	vmovdqu	1024(%r11), %ymm15
	vpbroadcastq	-40(%r14), %ymm2
	vpand	%ymm9, %ymm15, %ymm0
	vpmaddubsw	%ymm2, %ymm0, %ymm4
	vmovdqu	1088(%r11), %ymm0
	vpbroadcastq	-32(%r14), %ymm6
	vpand	%ymm0, %ymm9, %ymm11
	vpmaddubsw	%ymm6, %ymm11, %ymm11
	vpaddw	%ymm4, %ymm11, %ymm4
	vinserti128	$1, %xmm5, %ymm5, %ymm11
	vpaddw	%ymm4, %ymm3, %ymm3
	vpshufb	.LCPI2_0(%rip), %ymm11, %ymm4
	vpsrlw	$4, %ymm13, %ymm5
	{vex}	vpdpwssd	%ymm4, %ymm3, %ymm7
	vmovdqu	992(%r11), %ymm13
	vpand	%ymm9, %ymm13, %ymm3
	vpmaddubsw	%ymm1, %ymm3, %ymm3
	vpbroadcastq	-24(%r14), %ymm1
	vpand	%ymm5, %ymm9, %ymm4
	vpmaddubsw	%ymm1, %ymm4, %ymm4
	vpsrlw	$4, %ymm14, %ymm5
	vpaddw	%ymm3, %ymm12, %ymm12
	vpbroadcastq	-16(%r14), %ymm3
	vpand	%ymm5, %ymm9, %ymm5
	vpmaddubsw	%ymm3, %ymm5, %ymm5
	vpaddw	%ymm4, %ymm5, %ymm4
	vmovdqu	1056(%r11), %ymm5
	vpand	%ymm5, %ymm9, %ymm14
	vpmaddubsw	%ymm2, %ymm14, %ymm2
	vmovdqu	1120(%r11), %ymm14
	vpand	%ymm9, %ymm14, %ymm10
	vpmaddubsw	%ymm6, %ymm10, %ymm6
	vpaddw	%ymm6, %ymm2, %ymm2
	vpaddw	%ymm2, %ymm12, %ymm2
	vpshufb	.LCPI2_1(%rip), %ymm11, %ymm6
	vpsrlw	$4, %ymm15, %ymm10
	{vex}	vpdpwssd	%ymm6, %ymm2, %ymm8
	vpbroadcastq	-8(%r14), %ymm2
	vpand	%ymm9, %ymm10, %ymm6
	vpmaddubsw	%ymm2, %ymm6, %ymm6
	vpsrlw	$4, %ymm0, %ymm0
	vpbroadcastq	(%r14), %ymm10
	vpand	%ymm0, %ymm9, %ymm0
	vpmaddubsw	%ymm10, %ymm0, %ymm0
	vpaddw	%ymm0, %ymm6, %ymm0
	vpaddw	%ymm0, %ymm4, %ymm0
	vpshufb	.LCPI2_2(%rip), %ymm11, %ymm4
	{vex}	vpdpwssd	%ymm4, %ymm0, %ymm7
	vmovdqu	64(%rsp), %ymm0
	vpsrlw	$4, %ymm0, %ymm0
	vpand	%ymm0, %ymm9, %ymm0
	vpmaddubsw	%ymm1, %ymm0, %ymm0
	vpsrlw	$4, %ymm13, %ymm1
	vpand	%ymm1, %ymm9, %ymm1
	vpmaddubsw	%ymm3, %ymm1, %ymm1
	vpaddw	%ymm0, %ymm1, %ymm0
	vpsrlw	$4, %ymm5, %ymm1
	vpand	%ymm1, %ymm9, %ymm1
	vpmaddubsw	%ymm2, %ymm1, %ymm1
	vpsrlw	$4, %ymm14, %ymm2
	vpand	%ymm2, %ymm9, %ymm2
	vpmaddubsw	%ymm10, %ymm2, %ymm2
	vpaddw	%ymm2, %ymm1, %ymm1
	vpaddw	%ymm1, %ymm0, %ymm0
	vpshufb	.LCPI2_3(%rip), %ymm11, %ymm1
	{vex}	vpdpwssd	%ymm1, %ymm0, %ymm8
	movl	108(%r11), %eax
	movl	%eax, %esi
	andl	$1061109567, %esi
	shrl	$4, %ebp
	andl	$252645135, %ebp
	shrl	$2, %eax
	andl	$808464432, %eax
	orl	%ebp, %eax
	shlq	$32, %rax
	orq	%rsi, %rax
	movl	120(%r11), %esi
	movl	%esi, %edi
	andl	$1061109567, %edi
	shrl	$4, %r12d
	andl	$252645135, %r12d
	shrl	$2, %esi
	andl	$808464432, %esi
	orl	%r12d, %esi
	vphaddd	%ymm8, %ymm7, %ymm0
	shlq	$32, %rsi
	orq	%rdi, %rsi
	vmovq	%rax, %xmm1
	vpmovzxbd	%xmm1, %ymm1
	vmovd	-2(%r10), %xmm2
	vpbroadcastd	%xmm2, %ymm2
	vmovdqu	32(%rsp), %ymm3
	{vex}	vpdpwssd	%ymm1, %ymm2, %ymm3
	vmovq	%rsi, %xmm1
	vpmovzxbd	%xmm1, %ymm1
	movzwl	(%r10), %eax
	vmovd	%eax, %xmm2
	vpbroadcastd	%xmm2, %ymm2
	{vex}	vpdpwssd	%ymm1, %ymm2, %ymm3
	vbroadcastss	-30(%r10), %ymm1
	vcvtph2ps	(%r11), %ymm2
	vmulps	%ymm2, %ymm1, %ymm2
	vpermq	$216, %ymm0, %ymm0
	vcvtdq2ps	%ymm0, %ymm0
	vfmadd213ps	96(%rsp), %ymm2, %ymm0
	vcvtph2ps	16(%r11), %ymm2
	vmulps	%ymm2, %ymm1, %ymm1
	vcvtdq2ps	%ymm3, %ymm2
	vmulps	%ymm2, %ymm1, %ymm1
	vsubps	%ymm1, %ymm0, %ymm5
	incq	%r15
	addq	$292, %r14
	addq	$1152, %r11
	addq	$32, %r10
	cmpq	$32, %r15
	je	.LBB2_8
.LBB2_6:
	vmovups	%ymm5, 96(%rsp)
	cmpq	$26, %r15
	jae	.LBB2_7
	prefetcht1	6912(%r11)
	prefetcht1	6976(%r11)
	prefetcht1	7040(%r11)
	prefetcht1	7104(%r11)
	jmp	.LBB2_7
.LBB2_10:
	vzeroupper
	callq	_RNvCs91JiLRm4Cx7_4v11412write_fixed2
	movl	$60, %eax
	xorl	%edi, %edi
	#APP

	syscall

	#NO_APP
	ud2
.Lfunc_end2:
	.size	run, .Lfunc_end2-run
	.cfi_endproc

	.type	_RNvNvCs91JiLRm4Cx7_4v1143run4META,@object
	.section	.bss._RNvNvCs91JiLRm4Cx7_4v1143run4META,"aw",@nobits
	.p2align	6, 0x0
_RNvNvCs91JiLRm4Cx7_4v1143run4META:
	.zero	2048
	.size	_RNvNvCs91JiLRm4Cx7_4v1143run4META, 2048

	.ident	"rustc version 1.97.0-nightly (7c3c88f42 2026-05-14)"
	.section	".note.GNU-stack","",@progbits
02 jobs
Systems 02 jobs
03 counters
Performance counters 17 counters
cyclesi
19,423,743
Show more
branch_instructionsi
246,841
branch_missesi
1,382
dtlb_load_misses.walk_completedi
276
instructionsi
37,977,170
mem_bound_stalls.load_dram_hiti
170,543
mem_bound_stalls.load_l2_hiti
5,072,791
mem_bound_stalls.load_llc_hiti
25,140
mem_inst_retired.split_loadsi
1,179,877
mem_load_retired.l1_missi
4,894,947
mem_load_retired.l2_missi
2,712
mem_load_retired.l3_missi
1,764
tma_backend_boundi
36,166,819
tma_bad_speculationi
396,982
tma_frontend_boundi
1,564,842
tma_memory_boundi
28,865
tma_retiringi
61,880,949
04 top down
Top-down analysis Gracemont E-core
05 profile
load profile