Минутка внезапного прогресса с запада

Пока мы спокойно встречали пятницу, Google DeepMind выкатили обновление Gemma 4, позволяющее запустить полную 31B версию на 18GB VRAM — Gemma 4 QAT.
А Unsloth еще и улучшили результат Google — https://unsloth.ai/docs/models/gemma-4/qat#run-gemma-4-qat-tutorials
Автор не может проверить модель в моменте. Лес вокруг оставляет мало опций дотянуться до домашней лаборатории.
Тем не менее, оригинальная Gemma 4 31B в Q4 кванте на 32Гб оперативной памяти была едва работоспособна с сильно урезанном контексте.
Что такое QAT, как говорит нам оригинальная карточка модели на Hugging Face (машинный перевод):
Эта карточка модели предназначена для новых версий семейства Gemma 4, оптимизированных с помощью обучения с учётом квантования (Quantization‑Aware Training, QAT), что позволяет сохранить качество, сопоставимое с форматом bfloat16, при значительном снижении требований к объёму памяти для загрузки модели. Доступны четыре версии чекпоинтов QAT:
1.Не квантованные чекпоинты QAT (Q4_0): веса в полуточной точности, извлечённые из пайплайна QAT; идеально подходят для кастомной последующей компиляции и исследований. Доступны для моделей Gemma 4 E2B, E4B, 12B, 26B A4B и 31B, а также для их черновых (drafter) моделей.
2. GGUF (Q4_0): готовые к развёртыванию форматы для широкой совместимости с различными экосистемами. Доступны для моделей Gemma 4 E2B, E4B, 12B, 26B A4B и 31B.
3. Оптимизированные для мобильных устройств (wNa8o8): специальная схема, разработанная специально для повышения эффективности работы на мобильном оборудовании. Включает целевые слои декодирования с разрядностью 2 бита, оптимизированные кэши KV (Key‑Value) и статические активации для максимального сокращения использования видеопамяти (VRAM). Доступны для моделей Gemma 4 E2B и E4B.
4. Сжатые тензоры (w4a16): чекпоинты QAT, сериализованные в формате сжатых тензоров для нативного оптимизированного вывода с использованием vLLM. Доступны для моделей Gemma 4 E2B, E4B, 12B и 31B.
Т.е. мы получили новый способ сжатия моделей на 70% практически без потери качества.
Стоит проверить.
Подобная динамика очень сильно напоминает мир веб-разработки первой половины 2010-х, когда каждый понедельник надо было разбираться с новыми фреймворками веб-разработки. И это классно. Продолжаем погружение.