diff --git a/ggml/include/ggml.h b/ggml/include/ggml.h
index ec45e96d8f..94e09840ed 100644
--- a/ggml/include/ggml.h
+++ b/ggml/include/ggml.h
@@ -386,45 +386,44 @@ extern "C" {
 
     // NOTE: always add types at the end of the enum to keep backward compatibility
     enum ggml_type {
-        GGML_TYPE_F32     = 0,
-        GGML_TYPE_F16     = 1,
-        GGML_TYPE_Q4_0    = 2,
-        GGML_TYPE_Q4_1    = 3,
-        // GGML_TYPE_Q4_2 = 4, support has been removed
-        // GGML_TYPE_Q4_3 = 5, support has been removed
-        GGML_TYPE_Q5_0    = 6,
-        GGML_TYPE_Q5_1    = 7,
-        GGML_TYPE_Q8_0    = 8,
-        GGML_TYPE_Q8_1    = 9,
-        GGML_TYPE_Q2_K    = 10,
-        GGML_TYPE_Q3_K    = 11,
-        GGML_TYPE_Q4_K    = 12,
-        GGML_TYPE_Q5_K    = 13,
-        GGML_TYPE_Q6_K    = 14,
-        GGML_TYPE_Q8_K    = 15,
-        GGML_TYPE_IQ2_XXS = 16,
-        GGML_TYPE_IQ2_XS  = 17,
-        GGML_TYPE_IQ3_XXS = 18,
-        GGML_TYPE_IQ1_S   = 19,
-        GGML_TYPE_IQ4_NL  = 20,
-        GGML_TYPE_IQ3_S   = 21,
-        GGML_TYPE_IQ2_S   = 22,
-        GGML_TYPE_IQ4_XS  = 23,
-        GGML_TYPE_I8      = 24,
-        GGML_TYPE_I16     = 25,
-        GGML_TYPE_I32     = 26,
-        GGML_TYPE_I64     = 27,
-        GGML_TYPE_F64     = 28,
-        GGML_TYPE_IQ1_M   = 29,
-        GGML_TYPE_BF16    = 30,
-        GGML_TYPE_Q4_0_4_4 = 31,
-        GGML_TYPE_Q4_0_4_8 = 32,
-        GGML_TYPE_Q4_0_8_8 = 33,
-        GGML_TYPE_MXFP4    = 39,  // so we are compatible with mainline
+        GGML_TYPE_F32       = 0,
+        GGML_TYPE_F16       = 1,
+        GGML_TYPE_Q4_0      = 2,
+        GGML_TYPE_Q4_1      = 3,
+        // GGML_TYPE_Q4_2   = 4, support has been removed
+        // GGML_TYPE_Q4_3   = 5, support has been removed
+        GGML_TYPE_Q5_0      = 6,
+        GGML_TYPE_Q5_1      = 7,
+        GGML_TYPE_Q8_0      = 8,
+        GGML_TYPE_Q8_1      = 9,
+        GGML_TYPE_Q2_K      = 10,
+        GGML_TYPE_Q3_K      = 11,
+        GGML_TYPE_Q4_K      = 12,
+        GGML_TYPE_Q5_K      = 13,
+        GGML_TYPE_Q6_K      = 14,
+        GGML_TYPE_Q8_K      = 15,
+        GGML_TYPE_IQ2_XXS   = 16,
+        GGML_TYPE_IQ2_XS    = 17,
+        GGML_TYPE_IQ3_XXS   = 18,
+        GGML_TYPE_IQ1_S     = 19,
+        GGML_TYPE_IQ4_NL    = 20,
+        GGML_TYPE_IQ3_S     = 21,
+        GGML_TYPE_IQ2_S     = 22,
+        GGML_TYPE_IQ4_XS    = 23,
+        GGML_TYPE_I8        = 24,
+        GGML_TYPE_I16       = 25,
+        GGML_TYPE_I32       = 26,
+        GGML_TYPE_I64       = 27,
+        GGML_TYPE_F64       = 28,
+        GGML_TYPE_IQ1_M     = 29,
+        GGML_TYPE_BF16      = 30,
+        GGML_TYPE_Q4_0_4_4  = 31,
+        GGML_TYPE_Q4_0_4_8  = 32,
+        GGML_TYPE_Q4_0_8_8  = 33,
+        GGML_TYPE_I2_S      = 36,  // So we are able to consume MS BitNet I2_S quants
+        GGML_TYPE_MXFP4     = 39,  // so we are compatible with mainline
+        GGML_TYPE_Q1_0_G128 = 41,  // Bonsai 1-bit quants
         //
-        // So we are able to consume MS BitNet I2_S quants
-        //
-        GGML_TYPE_I2_S    = 36,
         //
         GGML_TYPE_Q8_0_X4 = 97,
         GGML_TYPE_Q8_1_X4 = 98,
@@ -530,6 +529,7 @@ extern "C" {
         GGML_FTYPE_MOSTLY_Q4_0_4_4 = 26, // except 1d tensors
         GGML_FTYPE_MOSTLY_Q4_0_4_8 = 27, // except 1d tensors
         GGML_FTYPE_MOSTLY_Q4_0_8_8 = 28, // except 1d tensors
+        GGML_FTYPE_MOSTLY_Q1_0_128 = 29, // except 1d tensors
         //
         GGML_FTYPE_MOSTLY_Q6_0    = 127, // except 1d tensors
         GGML_FTYPE_MOSTLY_IQ1_BN  = 128, // except 1d tensors
diff --git a/ggml/src/ggml-common.h b/ggml/src/ggml-common.h
index a59b5a0204..708f46f257 100644
--- a/ggml/src/ggml-common.h
+++ b/ggml/src/ggml-common.h
@@ -541,6 +541,16 @@ typedef struct {
 } block_iq1_m_r4;
 static_assert(sizeof(block_iq1_m_r4) == 28, "wrong iq1_m_r4 block size/padding");
 
+//
+// Bonsai
+//
+#define QK1_0_G128 128
+typedef struct {
+    ggml_half  d;
+    uint8_t    qs[QK1_0_G128 / 8];
+} block_q1_0_g128;
+static_assert(sizeof(block_q1_0_g128) == sizeof(ggml_half) + QK1_0_G128 / 8, "wrong q1_0_g128 block size/padding");
+
 //
 // Bitnet and TriLM - implemented as 1.625 bpw
 //
diff --git a/ggml/src/ggml-quants.c b/ggml/src/ggml-quants.c
index 0f3caece74..6f9007e079 100644
--- a/ggml/src/ggml-quants.c
+++ b/ggml/src/ggml-quants.c
@@ -15435,6 +15435,7 @@ bool ggml_validate_row_data(enum ggml_type type, const void * data, size_t nbyte
         case GGML_TYPE_IQ2_KT: break;
         case GGML_TYPE_IQ3_KT: break;
         case GGML_TYPE_IQ4_KT: break;
+        case GGML_TYPE_Q1_0_G128: break;
         case GGML_TYPE_IQ3_K: break;
         case GGML_TYPE_IQ3_KS: break;
         case GGML_TYPE_IQ2_KL: break;
diff --git a/ggml/src/ggml.c b/ggml/src/ggml.c
index b7a4a14e44..7b67b600ac 100644
--- a/ggml/src/ggml.c
+++ b/ggml/src/ggml.c
@@ -1677,6 +1677,19 @@ static const ggml_type_traits_t type_traits[GGML_TYPE_COUNT] = {
         .nrows                    = 1,
         .row_meta_size            = 4,
     },
+    [GGML_TYPE_Q1_0_G128] = {
+        .type_name                = "q1_0_g128",
+        .blck_size                = QK1_0_G128,
+        .type_size                = sizeof(block_q1_0_g128),
+        .is_quantized             = true,
+        .to_float                 = (ggml_to_float_t) dequantize_row_q1_0_g128,
+        .from_float               = quantize_row_q1_0_g128,
+        .from_float_ref           = (ggml_from_float_t)quantize_row_q1_0_g128_ref,
+        .vec_dot                  = vec_dot_q1_0_g128_q8_0,
+        .vec_dot_type             = GGML_TYPE_Q8_0_X4,
+        .nrows                    = 1,
+        .row_meta_size            = 0,
+    },
     [GGML_TYPE_IQ3_K] = {
         .type_name                = "iq3_k",
         .blck_size                = QK_K,
@@ -4900,6 +4913,7 @@ enum ggml_type ggml_ftype_to_ggml_type(enum ggml_ftype ftype) {
         case GGML_FTYPE_MOSTLY_IQ2_KT:        wtype = GGML_TYPE_IQ2_KT;   break;
         case GGML_FTYPE_MOSTLY_IQ3_KT:        wtype = GGML_TYPE_IQ3_KT;   break;
         case GGML_FTYPE_MOSTLY_IQ4_KT:        wtype = GGML_TYPE_IQ4_KT;   break;
+        case GGML_FTYPE_MOSTLY_Q1_0_128:      wtype = GGML_TYPE_Q1_0_G128;break;
         case GGML_FTYPE_MOSTLY_IQ3_K:         wtype = GGML_TYPE_IQ3_K;    break;
         case GGML_FTYPE_MOSTLY_IQ3_KS:        wtype = GGML_TYPE_IQ3_KS;   break;
         case GGML_FTYPE_MOSTLY_IQ2_KL:        wtype = GGML_TYPE_IQ2_KL;   break;
@@ -12817,6 +12831,7 @@ static void ggml_compute_forward_add(
         case GGML_TYPE_IQ2_KT:
         case GGML_TYPE_IQ3_KT:
         case GGML_TYPE_IQ4_KT:
+        case GGML_TYPE_Q1_0_G128:
         case GGML_TYPE_IQ3_K:
         case GGML_TYPE_IQ3_KS:
         case GGML_TYPE_IQ2_KL:
@@ -13370,6 +13385,7 @@ static void ggml_compute_forward_add1(
         case GGML_TYPE_IQ2_KT:
         case GGML_TYPE_IQ3_KT:
         case GGML_TYPE_IQ4_KT:
+        case GGML_TYPE_Q1_0_G128:
         case GGML_TYPE_IQ3_K:
         case GGML_TYPE_IQ3_KS:
         case GGML_TYPE_IQ2_KL:
@@ -13549,6 +13565,7 @@ static void ggml_compute_forward_acc(
         case GGML_TYPE_IQ2_KT:
         case GGML_TYPE_IQ3_KT:
         case GGML_TYPE_IQ4_KT:
+        case GGML_TYPE_Q1_0_G128:
         case GGML_TYPE_IQ3_K:
         case GGML_TYPE_IQ3_KS:
         case GGML_TYPE_IQ2_KL:
@@ -17874,6 +17891,7 @@ static void ggml_compute_forward_out_prod(
         case GGML_TYPE_IQ2_KT:
         case GGML_TYPE_IQ3_KT:
         case GGML_TYPE_IQ4_KT:
+        case GGML_TYPE_Q1_0_G128:
         case GGML_TYPE_IQ3_K:
         case GGML_TYPE_IQ3_KS:
         case GGML_TYPE_IQ2_KL:
@@ -18297,6 +18315,7 @@ static void ggml_compute_forward_set(
         case GGML_TYPE_IQ2_KT:
         case GGML_TYPE_IQ3_KT:
         case GGML_TYPE_IQ4_KT:
+        case GGML_TYPE_Q1_0_G128:
         case GGML_TYPE_IQ3_K:
         case GGML_TYPE_IQ3_KS:
         case GGML_TYPE_IQ2_KL:
@@ -18626,6 +18645,7 @@ static void ggml_compute_forward_get_rows(
         case GGML_TYPE_IQ2_KT:
         case GGML_TYPE_IQ3_KT:
         case GGML_TYPE_IQ4_KT:
+        case GGML_TYPE_Q1_0_G128:
         case GGML_TYPE_IQ3_K:
         case GGML_TYPE_IQ3_KS:
         case GGML_TYPE_IQ2_KL:
@@ -19383,6 +19403,7 @@ static void ggml_compute_forward_clamp(
         case GGML_TYPE_IQ2_KT:
         case GGML_TYPE_IQ3_KT:
         case GGML_TYPE_IQ4_KT:
+        case GGML_TYPE_Q1_0_G128:
         case GGML_TYPE_IQ3_K:
         case GGML_TYPE_IQ3_KS:
         case GGML_TYPE_IQ2_KL:
@@ -28464,6 +28485,7 @@ size_t ggml_quantize_chunk(
         case GGML_TYPE_IQ2_KT:  result = quantize_iq2_kt (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
         case GGML_TYPE_IQ3_KT:  result = quantize_iq3_kt (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
         case GGML_TYPE_IQ4_KT:  result = quantize_iq4_kt (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
+        case GGML_TYPE_Q1_0_G128: result = quantize_q1_0_g128(src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
         case GGML_TYPE_IQ3_K:   result = quantize_iq3_k  (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
         case GGML_TYPE_IQ3_KS:  result = quantize_iq3_ks (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
         case GGML_TYPE_IQ2_KL:  result = quantize_iq2_kl (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
diff --git a/ggml/src/iqk/iqk_gemm_1bit.cpp b/ggml/src/iqk/iqk_gemm_1bit.cpp
index 33363c8ed3..35d6ca99fe 100644
--- a/ggml/src/iqk/iqk_gemm_1bit.cpp
+++ b/ggml/src/iqk/iqk_gemm_1bit.cpp
@@ -1445,6 +1445,63 @@ IQK_NOINLINE void mul_mat_iq2bn_q8_K64(int n, const void * vx, size_t bx, const
     }
 }
 
+template <int nrc_y>
+static void mul_mat_q1_0_g128_q8_0(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
+    constexpr int n4 = QK1_0_G128 / QK8_0;
+    Q8<nrc_y, block_q8_0> q8(info);
+    const block_q8_0_x4 * y[nrc_y];
+    for (int iy = 0; iy < nrc_y; ++iy) {
+        y[iy] = (const block_q8_0_x4 *)info.src1_row(iy);
+    }
+    __m256i shuffle[4] = {
+        _mm256_set_epi64x(0x0303030303030303, 0x0202020202020202, 0x0101010101010101, 0x0000000000000000),
+        _mm256_set_epi64x(0x0707070707070707, 0x0606060606060606, 0x0505050505050505, 0x0404040404040404),
+        _mm256_set_epi64x(0x0b0b0b0b0b0b0b0b, 0x0a0a0a0a0a0a0a0a, 0x0909090909090909, 0x0808080808080808),
+        _mm256_set_epi64x(0x0f0f0f0f0f0f0f0f, 0x0e0e0e0e0e0e0e0e, 0x0d0d0d0d0d0d0d0d, 0x0c0c0c0c0c0c0c0c),
+    };
+    auto mask = _mm256_set1_epi64x(0x8040201008040201);
+    auto mp1  = _mm256_set1_epi8( 1);
+    auto mm1  = _mm256_set1_epi8(-1);
+    auto m1   = _mm256_set1_epi16(1);
+    int nb = n / QK1_0_G128;
+    __m256i qx[4];
+    __m256i sumi[4];
+    for (int ix = 0; ix < nrc_x; ++ix) {
+        auto x = (const block_q1_0_g128 *)((const char *)vx + ix*bx);
+        __m256  acc[nrc_y] = {};
+        for (int ib = 0; ib < nb; ++ib) {
+            float d = GGML_FP16_TO_FP32(x[ib].d);
+            auto vd = _mm256_set1_ps(d);
+            auto bits128 = _mm_loadu_si128((const __m128i *)x[ib].qs);
+            auto bits = MM256_SET_M128I(bits128, bits128);
+            for (int k = 0; k < 4; ++k) {
+                qx[k] = _mm256_shuffle_epi8(bits, shuffle[k]);
+                qx[k] = _mm256_cmpeq_epi8(_mm256_and_si256(qx[k], mask), mask);
+                qx[k] = _mm256_or_si256(_mm256_and_si256(qx[k], mp1), _mm256_andnot_si256(qx[k], mm1));
+            }
+            for (int iy = 0; iy < nrc_y; ++iy) {
+                for (int k = 0; k < n4; ++k) {
+                    auto qy = _mm256_loadu_si256((const __m256i *)y[iy][ib].qs + k);
+#ifdef HAVE_VNNI256
+                    sumi[k] = _mm256_dpbusd_epi32(_mm256_setzero_si256(), mp1, _mm256_sign_epi8(qy, qx[k]));
+#else
+                    sumi[k] = _mm256_madd_epi16(m1, _mm256_maddubs_epi16(mp1, _mm256_sign_epi8(qy, qx[k])));
+#endif
+                }
+                sumi[0] = _mm256_madd_epi16(m1, _mm256_packs_epi32(sumi[0], sumi[1]));
+                sumi[2] = _mm256_madd_epi16(m1, _mm256_packs_epi32(sumi[2], sumi[3]));
+                sumi[0] = _mm256_madd_epi16(m1, _mm256_packs_epi32(sumi[0], sumi[2]));
+                auto dy = _mm_cvtph_ps(_mm_loadl_epi64((const __m128i *)y[iy][ib].d));
+                auto dxy= _mm256_mul_ps(vd, _mm256_set_m128(dy, dy));
+                acc[iy] = _mm256_fmadd_ps(dxy, _mm256_cvtepi32_ps(sumi[0]), acc[iy]);
+            }
+        }
+        for (int iy = 0; iy < nrc_y; ++iy) {
+            info.store(ix, iy, hsum_float_8(acc[iy]));
+        }
+    }
+}
+
 template <int nrc_y>
 static void mul_mat_iq2_bn_r4_q8_k16_avx2(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
     if (nrc_x%4) {
@@ -1903,6 +1960,11 @@ bool iqk_set_kernels_1bit(int ne00, int typeA, int typeB, std::array<mul_mat_t,
             IQK_SET_MUL_MAT_FUNCTIONS(mul_mat_iq2_bn_r4_q8_k16, funcs);
             expected_typeB = GGML_TYPE_Q8_K16;
             break;
+        case GGML_TYPE_Q1_0_G128:
+            if (ne00 % QK1_0_G128 != 0) return false;
+            expected_typeB = GGML_TYPE_Q8_0_X4;
+            IQK_SET_MUL_MAT_FUNCTIONS(mul_mat_q1_0_g128_q8_0, funcs);
+            break;
 
         default:
             return false;
@@ -2279,6 +2341,19 @@ static void mul_mat_iq2bn_q8_K64(int n, const void * vx, size_t bx, const DataIn
     }
 }
 
+template <int nrc_y>
+static void mul_mat_q1_0_g128_q8_0(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
+    Q8<nrc_y, block_q8_0_x4> q8(info);
+    for (int ix = 0; ix < nrc_x; ++ix) {
+        auto x = (const block_q1_0_g128 *)((const char *)vx + ix*bx);
+        for (int iy = 0; iy < nrc_y; ++iy) {
+            float s;
+            vec_dot_q1_0_g128_q8_0(n, &s, 0, x, bx, q8.y[iy], 0, 1);
+            info.store(ix, iy, s);
+        }
+    }
+}
+
 template <int nrc_y>
 static void mul_mat_iq1_s_r4_q8_1(int n, const void * vx, size_t bx, const DataInfo& info, int nrc_x) {
     GGML_ASSERT(nrc_x%4 == 0);
@@ -2831,6 +2906,11 @@ bool iqk_set_kernels_1bit(int ne00, int typeA, int typeB, std::array<mul_mat_t,
             func16 = mul_mat_iq1_m_r4_q8_0<16>;
             expected_Btype = GGML_TYPE_Q8_K128;
             break;
+        case GGML_TYPE_Q1_0_G128:
+            if (ne00 % QK1_0_G128 != 0) return false;
+            expected_Btype = GGML_TYPE_Q8_0_X4;
+            IQK_SET_MUL_MAT_FUNCTIONS(mul_mat_q1_0_g128_q8_0, funcs);
+            break;
         default:
             return false;
     }
diff --git a/ggml/src/iqk/iqk_mul_mat.cpp b/ggml/src/iqk/iqk_mul_mat.cpp
index 1ee910db87..607c68d829 100644
--- a/ggml/src/iqk/iqk_mul_mat.cpp
+++ b/ggml/src/iqk/iqk_mul_mat.cpp
@@ -941,6 +941,7 @@ bool MulMat::prepare(int typeA, int typeB, int ne00, MulMat& mm, int Ny) {
         case GGML_TYPE_IQ1_BN:
         case GGML_TYPE_IQ2_BN:
         case GGML_TYPE_IQ2_BN_R4:
+        case GGML_TYPE_Q1_0_G128:
             return iqk_set_kernels_1bit(ne00, typeA, typeB, mm.funcs, mm.func16);
 
         default:
@@ -1032,6 +1033,7 @@ bool MulMat::prepare(int typeA, int typeB, int ne00, MulMat& m, int /*Ny*/) {
         case GGML_TYPE_IQ1_M:
         case GGML_TYPE_IQ1_S_R4:
         case GGML_TYPE_IQ1_M_R4:
+        case GGML_TYPE_Q1_0_G128:
             return iqk_set_kernels_1bit(ne00, typeA, typeB, m.funcs, m.func16);
         case GGML_TYPE_IQ1_KT:
         case GGML_TYPE_IQ2_KT:
diff --git a/ggml/src/iqk/iqk_quantize.cpp b/ggml/src/iqk/iqk_quantize.cpp
index 86a082230f..07edaf0392 100644
--- a/ggml/src/iqk/iqk_quantize.cpp
+++ b/ggml/src/iqk/iqk_quantize.cpp
@@ -9872,6 +9872,91 @@ void vec_dot_iq4_kt_q8_k(int n, float * s, size_t bs, const void * vx, size_t bx
 
 }
 
+void quantize_row_q1_0_g128_ref(const float * x, block_q1_0_g128  * y, int64_t k) {
+    quantize_row_q1_0_g128(x, y, k);
+}
+
+void quantize_row_q1_0_g128(const float * x, void * vy, int64_t k) {
+    assert(k % QK1_0_G128 == 0);
+    int nb = k / QK1_0_G128;
+    auto y = (block_q1_0_g128 *)vy;
+    for (int ib = 0; ib < nb; ++ib) {
+        float sum = 0;
+        for (int j = 0; j < QK1_0_G128; ++j) sum += std::abs(x[j]);
+        float d = sum / QK1_0_G128;
+        y[ib].d = GGML_FP32_TO_FP16(d);
+        std::memset(y[ib].qs, 0, QK1_0_G128/8);
+        for (int j = 0; j < QK1_0_G128; ++j) {
+            if (x[j] >= 0.0f) {
+                y[ib].qs[j / 8] |= (1 << (j % 8));
+            }
+        }
+        x += QK1_0_G128;
+    }
+}
+
+size_t quantize_q1_0_g128(const float * src, void * dst, int64_t nrows, int64_t n_per_row, [[maybe_unused]] const float * imatrix) {
+    GGML_ASSERT(n_per_row % QK1_0_G128 == 0);
+    int64_t ntot = nrows * n_per_row;
+    quantize_row_q1_0_g128(src, dst, ntot);
+    int64_t nblock = ntot / QK1_0_G128;
+    return nblock * sizeof(block_q1_0_g128);
+}
+
+void dequantize_row_q1_0_g128(const block_q1_0_g128  * x, float * y, int64_t k) {
+    assert(k % QK1_0_G128 == 0);
+    constexpr uint8_t k_mask[8] = {0x01, 0x02, 0x04, 0x08, 0x10, 0x20, 0x40, 0x80};
+    int nb = k / QK1_0_G128;
+    for (int ib = 0; ib < nb; ++ib) {
+        float d = GGML_FP16_TO_FP32(x[ib].d);
+        for (int i = 0; i < QK1_0_G128/8; ++i) {
+            for (int j = 0; j < 8; ++j) {
+                *y++ = x[ib].qs[i] & k_mask[j] ? d : -d;
+            }
+        }
+    }
+}
+
+void vec_dot_q1_0_g128_q8_0(int n, float * s, size_t bs, const void * vx, size_t bx, const void * vy, size_t by, int nrc) {
+    assert(n % QK1_0_G128 == 0);
+    assert(nrc == 1);
+    GGML_UNUSED(nrc);
+    GGML_UNUSED(bx);
+    GGML_UNUSED(by);
+    GGML_UNUSED(bs);
+    int nb = n / QK1_0_G128;
+
+    constexpr uint8_t k_mask[8] = {0x01, 0x02, 0x04, 0x08, 0x10, 0x20, 0x40, 0x80};
+
+    constexpr int n4 = QK1_0_G128 / QK8_0;
+
+    auto x = (const block_q1_0_g128 *)vx;
+    auto y = (const block_q8_0_x4 *)vy;
+    int16_t sumi[QK1_0_G128/8];
+    float sumf = 0;
+    for (int ib = 0; ib < nb; ++ib) {
+        auto dx = GGML_FP16_TO_FP32(x[ib].d);
+        auto qx = x[ib].qs;
+        auto qy = y[ib].qs;
+        for (int k = 0; k < QK1_0_G128/8; ++k) {
+            uint8_t bits = qx[k];
+            int16_t s = 0;
+            for (int j = 0; j < 8; ++j) {
+                s += (bits & k_mask[j] ? qy[j] : -qy[j]);
+            }
+            qy += 8;
+            sumi[k] = s;
+        }
+        auto s = sumi;
+        for (int k = 0; k < n4; ++k) {
+            float dy = GGML_FP16_TO_FP32(y[ib].d[k]);
+            sumf += dx*dy*(s[0] + s[1] + s[2] + s[3]);
+            s += 4;
+        }
+    }
+    *s = sumf;
+}
+
 namespace {
 template <typename Block>
 inline int check_row_for_blocks_256_fp16(int nblock, const Block * x) {
diff --git a/ggml/src/iqk/iqk_quantize.h b/ggml/src/iqk/iqk_quantize.h
index 6e4cc5870a..d85c75996f 100644
--- a/ggml/src/iqk/iqk_quantize.h
+++ b/ggml/src/iqk/iqk_quantize.h
@@ -295,6 +295,12 @@ size_t quantize_q8_KV_r8(const float * GGML_RESTRICT src, void * GGML_RESTRICT d
 void   dequantize_row_q8_KV_r8(const void * GGML_RESTRICT x, float * GGML_RESTRICT y, int64_t k);
 void   vec_dot_q8_KV_r8_q8_KV(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
 
+void   quantize_row_q1_0_g128_ref(const float * GGML_RESTRICT x, block_q1_0_g128  * GGML_RESTRICT y, int64_t k);
+void   quantize_row_q1_0_g128(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, int64_t k);
+size_t quantize_q1_0_g128(const float * GGML_RESTRICT src, void * GGML_RESTRICT dst, int64_t nrows, int64_t n_per_row, const float * imatrix);
+void   dequantize_row_q1_0_g128(const block_q1_0_g128  * GGML_RESTRICT x, float * GGML_RESTRICT y, int64_t k);
+void   vec_dot_q1_0_g128_q8_0(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
+
 void iqk_quantize_row_q8_K(const float * GGML_RESTRICT x, void * GGML_RESTRICT vy, int64_t k);
 void quantize_row_q8_K64_ref(const float * GGML_RESTRICT x, block_q8_K64 * GGML_RESTRICT y, int64_t k);
 void quantize_row_q8_K64(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, int64_t k);
diff --git a/include/llama.h b/include/llama.h
index a2f044098a..44817d9f75 100644
--- a/include/llama.h
+++ b/include/llama.h
@@ -189,6 +189,7 @@ extern "C" {
         LLAMA_FTYPE_MOSTLY_Q4_0_4_8      = 34, // except 1d tensors
         LLAMA_FTYPE_MOSTLY_Q4_0_8_8      = 35, // except 1d tensors
         LLAMA_FTYPE_MOSTLY_MXFP4         = 38, // except 1d tensors, 38 to be compatible with mainline
+        LLAMA_FTYPE_MOSTLY_Q1_0_G128     = 41, // except 1d tensors, 38 to be compatible with mainline
         //
         LLAMA_FTYPE_MOSTLY_Q6_0          = 135, // except 1d tensors
         LLAMA_FTYPE_MOSTLY_IQ1_BN        = 136, // except 1d tensors
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
index af587fd3de..2d5f483e7e 100644
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -1678,6 +1678,7 @@ std::string llama_model_ftype_name(llama_ftype ftype) {
         case LLAMA_FTYPE_MOSTLY_Q6_0_R4:  return "Q6_0_R4 - 6.5 bpw";
         case LLAMA_FTYPE_MOSTLY_Q8_0_R8:  return "Q8_0_R8 - 8.5 bpw";
         case LLAMA_FTYPE_MOSTLY_MXFP4:    return "MXFP4 - 4.25 bpw";
+        case LLAMA_FTYPE_MOSTLY_Q1_0_G128:return "Q1_0_G128 - 1.125 bpw";
         case LLAMA_FTYPE_MOSTLY_IQ4_XS:   return "IQ4_XS - 4.25 bpw";
         case LLAMA_FTYPE_MOSTLY_IQ4_KS:   return "IQ4_KS - 4.25 bpw";
         case LLAMA_FTYPE_MOSTLY_IQ4_KS_R4:return "IQ4_KS_R4 - 4.25 bpw";
diff --git a/src/llama-quantize.cpp b/src/llama-quantize.cpp
index 49c3605149..56a94c3962 100644
--- a/src/llama-quantize.cpp
+++ b/src/llama-quantize.cpp
@@ -988,6 +988,7 @@ static void llama_model_quantize_internal(const std::string & fname_inp, const s
         case LLAMA_FTYPE_MOSTLY_Q6_0_R4: default_type = GGML_TYPE_Q6_0_R4; break;
         case LLAMA_FTYPE_MOSTLY_Q8_0_R8: default_type = GGML_TYPE_Q8_0_R8; break;
         case LLAMA_FTYPE_MOSTLY_MXFP4:   default_type = GGML_TYPE_MXFP4;   break;
+        case LLAMA_FTYPE_MOSTLY_Q1_0_G128: default_type = GGML_TYPE_Q1_0_G128; break;
         case LLAMA_FTYPE_MOSTLY_IQ4_XS:  default_type = GGML_TYPE_IQ4_XS;  break;
         case LLAMA_FTYPE_MOSTLY_IQ4_KS:  default_type = GGML_TYPE_IQ4_KS;  break;
         case LLAMA_FTYPE_MOSTLY_IQ4_KS_R4:default_type = GGML_TYPE_IQ4_KS_R4;break;