01 specification

Llama.cpp's ggml_gemv_q4_K_8x8_q8_K

Implement llama.cpp's ggml_gemv_q4_K_8x8_q8_K function. The judge builds your source as libsolution.so and calls the exported function from a verifier executable.

This kernel multiplies a repacked Q4_K weight matrix by a Q8_K activation vector, producing floating-point dot-product results for one or more output columns. It is one of llama.cpp's CPU decode hot paths for quantized models: the weights are stored as 4-bit grouped blocks with scales, the runtime activations are quantized to Q8_K blocks, and the function has to unpack, scale, multiply, and accumulate those blocks fast enough to matter for real token generation.

The required symbol is extern "C" void ggml_gemv_q4_K_8x8_q8_K(int n, float * s, size_t bs, const void * vx, const void * vy, int nr, int nc).

The verifier supplies block_q4_Kx8 and block_q8_K buffers in llama.cpp layout and compares the printed aggregate against the scalar reference with a small floating-point tolerance.

minimal Rust solution

use std::ffi::c_void;

const QK_K: usize = 256;

#[repr(C)]
struct BlockQ4Kx8 {
    d: [u16; 8],
    dmin: [u16; 8],
    scales: [u8; 96],
    qs: [u8; 1024],
}

#[repr(C)]
struct BlockQ8K {
    d: f32,
    qs: [i8; QK_K],
    bsums: [i16; QK_K / 16],
}

#[unsafe(no_mangle)]
pub unsafe extern "C" fn ggml_gemv_q4_K_8x8_q8_K(
    n: i32,
    s: *mut f32,
    _bs: usize,
    vx: *const c_void,
    vy: *const c_void,
    nr: i32,
    nc: i32,
) {
    let nb = n as usize / QK_K;
    let nr = nr as usize;
    let nc = nc as usize;
    let q4 = unsafe { std::slice::from_raw_parts(vx.cast::<BlockQ4Kx8>(), (nc / 8) * nb) };
    let q8 = unsafe { std::slice::from_raw_parts(vy.cast::<BlockQ8K>(), nr * nb) };
    let out = unsafe { std::slice::from_raw_parts_mut(s, nr * nc) };
    reference_gemv(nb, nr, nc, q4, q8, out);
}

fn reference_gemv(
    nb: usize,
    nr: usize,
    nc: usize,
    q4: &[BlockQ4Kx8],
    q8: &[BlockQ8K],
    out: &mut [f32],
) {
    let kmask1 = 0x3f3f3f3f_u32;
    let kmask2 = 0x0f0f0f0f_u32;
    let kmask3 = 0x03030303_u32;

    for y in 0..nr {
        let a_ptr = &q8[y * nb..];
        for x in 0..nc / 8 {
            let b_ptr = &q4[x * nb..];
            let mut sumf = [0.0_f32; 8];
            let mut sum_minf = [0.0_f32; 8];
            let mut utmp = [0_u32; 32];

            for l in 0..nb {
                for sb in 0..8 {
                    let src = sb * 12;
                    let dst = sb * 4;
                    utmp[dst] = read_u32(&b_ptr[l].scales[src..src + 4]);
                    utmp[dst + 1] = read_u32(&b_ptr[l].scales[src + 4..src + 8]);
                    utmp[dst + 2] = read_u32(&b_ptr[l].scales[src + 8..src + 12]);
                    utmp[dst + 3] =
                        ((utmp[dst + 2] >> 4) & kmask2) | (((utmp[dst + 1] >> 6) & kmask3) << 4);
                    let uaux = utmp[dst + 1] & kmask1;
                    utmp[dst + 1] =
                        (utmp[dst + 2] & kmask2) | (((utmp[dst] >> 6) & kmask3) << 4);
                    utmp[dst + 2] = uaux;
                    utmp[dst] &= kmask1;
                }

                for k in 0..QK_K / 16 {
                    let scales_0 = (k / 4) * 32;
                    let scales_1 = scales_0 + 16;
                    for j in 0..8 {
                        let mut sumi = 0_i32;
                        for i in 0..8 {
                            let idx = k * 64 + j * 8 + i;
                            let v0 = i32::from(b_ptr[l].qs[idx] & 0x0f);
                            let v1 = i32::from(b_ptr[l].qs[idx] >> 4);
                            let q8_base = (k >> 2) * 64 + (k & 3) * 8 + i;
                            sumi += v0
                                * i32::from(a_ptr[l].qs[q8_base])
                                * i32::from(utmp_byte(&utmp, scales_0 + j));
                            sumi += v1
                                * i32::from(a_ptr[l].qs[q8_base + 32])
                                * i32::from(utmp_byte(&utmp, scales_1 + j));
                        }
                        sumf[j] +=
                            sumi as f32 * f16_to_f32(b_ptr[l].d[j]) * a_ptr[l].d;
                    }
                }

                for sb in 0..8 {
                    let mins = 8 + sb * 16;
                    let q8sum = i32::from(a_ptr[l].bsums[sb * 2])
                        + i32::from(a_ptr[l].bsums[sb * 2 + 1]);
                    for j in 0..8 {
                        sum_minf[j] += f32::from(utmp_byte(&utmp, mins + j))
                            * q8sum as f32
                            * f16_to_f32(b_ptr[l].dmin[j])
                            * a_ptr[l].d;
                    }
                }
            }

            for j in 0..8 {
                out[y * nc + x * 8 + j] = sumf[j] - sum_minf[j];
            }
        }
    }
}

fn f16_to_f32(bits: u16) -> f32 {
    let sign = ((bits & 0x8000) as u32) << 16;
    let exp = ((bits >> 10) & 0x1f) as i32;
    let frac = (bits & 0x03ff) as u32;
    let out = if exp == 0 {
        if frac == 0 {
            sign
        } else {
            let mut mant = frac;
            let mut exponent = -14_i32;
            while (mant & 0x0400) == 0 {
                mant <<= 1;
                exponent -= 1;
            }
            mant &= 0x03ff;
            sign | (((exponent + 127) as u32) << 23) | (mant << 13)
        }
    } else if exp == 31 {
        sign | 0x7f80_0000 | (frac << 13)
    } else {
        sign | (((exp - 15 + 127) as u32) << 23) | (frac << 13)
    };
    f32::from_bits(out)
}

fn read_u32(bytes: &[u8]) -> u32 {
    u32::from_le_bytes(bytes.try_into().expect("slice length"))
}

fn utmp_byte(words: &[u32; 32], byte_index: usize) -> u8 {
    ((words[byte_index / 4] >> ((byte_index % 4) * 8)) & 0xff) as u8
}

02 scope / runtime over time

Lang

System

double-click zooms out

03 leaderboard

Leaderboard · top 8 click any row to expand · open multiple to compare

Rank User Lang Best Position in CDF Analysis When

01 josusanmartin Asm 24.569ms leader Analysis 1mo ago

02 s7nfo Asm 25.101ms 1.02x Analysis 1mo ago

03 josusanmartin Rust 26.702ms 1.09x Analysis 1mo ago

04 andser612345 Rust 28.664ms 1.17x Analysis 1mo ago

BEST 28.664ms

WORST RUN 28.898ms

CYCLESi 70,127,087

INSTRi 246,644,998

IPCi 3.517

BRANCHESi 10,925,789

BR MISSESi 17,676

BR MISPi 0.16%

L1 MISSi 800,981

L2 MISSi 126,032

L3 MISSi 4,990

DTLB MISSi 996

UOPS P0i 52,838,644

UOPS P1i 53,260,202

UOPS P2/3/10i 60,432,877

UOPS P4/9i 8,368,597

UOPS P5/11i 56,402,113

UOPS P6i 12,406,586

UOPS P7/8i 7,463,112

TMA SLOTSi 422,040,708

TMA BEi 142,706,568

TMA BADi 3,297,013

TMA FEi 16,337,884

TMA RETi 259,721,077

TMA MEMi 20,047,416

TMA BR BADi 2,516,603

STALL TOTi 5,836,629

STALL L1Di 2,550,569

STALL L2i 1,333,811

STALL L3i 476,140

EXE LOADi 3,535,348

EXE STOREi 674,839

SPLIT LDi 10,751,472

CLEARSi 5,392

UOPS MSi 0

05 josusanmartin C++ 28.926ms 1.18x Analysis 1mo ago

06 s7nfo C++ 30.971ms 1.26x Analysis 1mo ago

llama.cpp x86 ggml_gemv_q4_K_8x8_q8_K C++ 39.336ms 1.60x Analysis 22d ago

BEST 39.336ms

WORST RUN 39.502ms

CYCLESi 96,727,316

INSTRi 406,569,861

IPCi 4.203

BRANCHESi 5,591,715

BR MISSESi 29,397

BR MISPi 0.53%

L1 MISSi 763,987

L2 MISSi 82,892

L3 MISSi 5,780

DTLB MISSi 1,746

UOPS P0i 79,080,783

UOPS P1i 82,910,402

UOPS P2/3/10i 83,826,059

UOPS P4/9i 19,087,336

UOPS P5/11i 106,808,253

UOPS P6i 36,027,127

UOPS P7/8i 12,286,170

TMA SLOTSi 581,475,846

TMA BEi 136,132,272

TMA BADi 5,284,299

TMA FEi 19,456,547

TMA RETi 420,635,222

TMA MEMi 17,730,294

TMA BR BADi 4,614,400

STALL TOTi 5,362,011

STALL L1Di 1,700,725

STALL L2i 1,234,347

STALL L3i 562,498

EXE LOADi 2,787,826

EXE STOREi 768,416

SPLIT LDi 8,639,062

CLEARSi 5,922

UOPS MSi 0

07 s7nfo Rust 691.902ms 28.16x Analysis 1mo ago

Rank User Lang Best Position in CDF Analysis When

05 josusanmartin C++ 28.926ms leader Analysis 1mo ago

06 s7nfo C++ 30.971ms 1.07x Analysis 1mo ago

llama.cpp x86 ggml_gemv_q4_K_8x8_q8_K C++ 39.336ms 1.36x Analysis 22d ago

BEST 39.336ms

WORST RUN 39.502ms

CYCLESi 96,727,316

INSTRi 406,569,861

IPCi 4.203

BRANCHESi 5,591,715

BR MISSESi 29,397

BR MISPi 0.53%

L1 MISSi 763,987

L2 MISSi 82,892

L3 MISSi 5,780

DTLB MISSi 1,746

UOPS P0i 79,080,783

UOPS P1i 82,910,402

UOPS P2/3/10i 83,826,059

UOPS P4/9i 19,087,336

UOPS P5/11i 106,808,253

UOPS P6i 36,027,127

UOPS P7/8i 12,286,170

TMA SLOTSi 581,475,846

TMA BEi 136,132,272

TMA BADi 5,284,299

TMA FEi 19,456,547

TMA RETi 420,635,222

TMA MEMi 17,730,294

TMA BR BADi 4,614,400

STALL TOTi 5,362,011

STALL L1Di 1,700,725

STALL L2i 1,234,347

STALL L3i 562,498

EXE LOADi 2,787,826

EXE STOREi 768,416

SPLIT LDi 8,639,062

CLEARSi 5,922

UOPS MSi 0

Rank User Lang Best Position in CDF Analysis When

01 josusanmartin Asm 24.569ms leader Analysis 1mo ago

02 s7nfo Asm 25.101ms 1.02x Analysis 1mo ago

04 submit

Your Solution

Single File

use std::ffi::c_void;

const QK_K: usize = 256;

#[repr(C)]
struct BlockQ4Kx8 {
    d: [u16; 8],
    dmin: [u16; 8],
    scales: [u8; 96],
    qs: [u8; 1024],
}

#[repr(C)]
struct BlockQ8K {
    d: f32,
    qs: [i8; QK_K],
    bsums: [i16; QK_K / 16],
}

#[unsafe(no_mangle)]
pub unsafe extern "C" fn ggml_gemv_q4_K_8x8_q8_K(
    n: i32,
    s: *mut f32,
    _bs: usize,
    vx: *const c_void,
    vy: *const c_void,
    nr: i32,
    nc: i32,
) {
    let nb = n as usize / QK_K;
    let nr = nr as usize;
    let nc = nc as usize;
    let q4 = unsafe { std::slice::from_raw_parts(vx.cast::<BlockQ4Kx8>(), (nc / 8) * nb) };
    let q8 = unsafe { std::slice::from_raw_parts(vy.cast::<BlockQ8K>(), nr * nb) };
    let out = unsafe { std::slice::from_raw_parts_mut(s, nr * nc) };
    reference_gemv(nb, nr, nc, q4, q8, out);
}

fn reference_gemv(
    nb: usize,
    nr: usize,
    nc: usize,
    q4: &[BlockQ4Kx8],
    q8: &[BlockQ8K],
    out: &mut [f32],
) {
    let kmask1 = 0x3f3f3f3f_u32;
    let kmask2 = 0x0f0f0f0f_u32;
    let kmask3 = 0x03030303_u32;

for y in 0..nr {
        let a_ptr = &q8[y * nb..];
        for x in 0..nc / 8 {
            let b_ptr = &q4[x * nb..];
            let mut sumf = [0.0_f32; 8];
            let mut sum_minf = [0.0_f32; 8];
            let mut utmp = [0_u32; 32];

for l in 0..nb {
                for sb in 0..8 {
                    let src = sb * 12;
                    let dst = sb * 4;
                    utmp[dst] = read_u32(&b_ptr[l].scales[src..src + 4]);
                    utmp[dst + 1] = read_u32(&b_ptr[l].scales[src + 4..src + 8]);
                    utmp[dst + 2] = read_u32(&b_ptr[l].scales[src + 8..src + 12]);
                    utmp[dst + 3] =
                        ((utmp[dst + 2] >> 4) & kmask2) | (((utmp[dst + 1] >> 6) & kmask3) << 4);
                    let uaux = utmp[dst + 1] & kmask1;
                    utmp[dst + 1] =
                        (utmp[dst + 2] & kmask2) | (((utmp[dst] >> 6) & kmask3) << 4);
                    utmp[dst + 2] = uaux;
                    utmp[dst] &= kmask1;
                }

for k in 0..QK_K / 16 {
                    let scales_0 = (k / 4) * 32;
                    let scales_1 = scales_0 + 16;
                    for j in 0..8 {
                        let mut sumi = 0_i32;
                        for i in 0..8 {
                            let idx = k * 64 + j * 8 + i;
                            let v0 = i32::from(b_ptr[l].qs[idx] & 0x0f);
                            let v1 = i32::from(b_ptr[l].qs[idx] >> 4);
                            let q8_base = (k >> 2) * 64 + (k & 3) * 8 + i;
                            sumi += v0
                                * i32::from(a_ptr[l].qs[q8_base])
                                * i32::from(utmp_byte(&utmp, scales_0 + j));
                            sumi += v1
                                * i32::from(a_ptr[l].qs[q8_base + 32])
                                * i32::from(utmp_byte(&utmp, scales_1 + j));
                        }
                        sumf[j] +=
                            sumi as f32 * f16_to_f32(b_ptr[l].d[j]) * a_ptr[l].d;
                    }
                }

for sb in 0..8 {
                    let mins = 8 + sb * 16;
                    let q8sum = i32::from(a_ptr[l].bsums[sb * 2])
                        + i32::from(a_ptr[l].bsums[sb * 2 + 1]);
                    for j in 0..8 {
                        sum_minf[j] += f32::from(utmp_byte(&utmp, mins + j))
                            * q8sum as f32
                            * f16_to_f32(b_ptr[l].dmin[j])
                            * a_ptr[l].d;
                    }
                }
            }

for j in 0..8 {
                out[y * nc + x * 8 + j] = sumf[j] - sum_minf[j];
            }
        }
    }
}

fn f16_to_f32(bits: u16) -> f32 {
    let sign = ((bits & 0x8000) as u32) << 16;
    let exp = ((bits >> 10) & 0x1f) as i32;
    let frac = (bits & 0x03ff) as u32;
    let out = if exp == 0 {
        if frac == 0 {
            sign
        } else {
            let mut mant = frac;
            let mut exponent = -14_i32;
            while (mant & 0x0400) == 0 {
                mant <<= 1;
                exponent -= 1;
            }
            mant &= 0x03ff;
            sign | (((exponent + 127) as u32) << 23) | (mant << 13)
        }
    } else if exp == 31 {
        sign | 0x7f80_0000 | (frac << 13)
    } else {
        sign | (((exp - 15 + 127) as u32) << 23) | (frac << 13)
    };
    f32::from_bits(out)
}

fn read_u32(bytes: &[u8]) -> u32 {
    u32::from_le_bytes(bytes.try_into().expect("slice length"))
}

fn utmp_byte(words: &[u32; 32], byte_index: usize) -> u8 {
    ((words[byte_index / 4] >> ((byte_index % 4) * 8)) & 0xff) as u8
}

Flags