Минутка внезапного прогресса

По мотивам последней заметки про запуск MoE моделей на локальном GPU с выгрузкой экспертов в системную память был заказан этот красавец:

Карта референсная, но надписи с брендом

Про саму карту особо рассказывать нечего, тестов полно. Но упомяну основное:

Хоть и турбина, но тихая, особо не слышно
Греется не выше 70 градусов
Киберпанк и последний DooM играбельны даже с Path Tracing
MoE модели — 125-150 токенов в секунду, если помещаются
Dense модели — 25-32 токена
26-35B модели прекрасно запускаются

И пока автор бился с мини-пк и кластером (он заработал, но отладка продолжается) доехали Gemma4 и Qwen3.6, все в формате под такую карту. А буквально несколько часов назад вышел Qwen3.6-27B:

По информации самого Qwen

И что мы тут видим. Qwen3.6-35B-A3B на уровне Qwen3.5-397B-A17B, но в 11 раз меньше, а Qwen3.6-27B вообще рекордсмен. Быстрый тест по запросу «Нарисуй костер на фоне заката на html canvas» на локальном 27B:

Исходный код приложен

А это облачный 397B:

Код тоже приложен

Победитель вполне очевиден.

И мой ультимативный тест — Тетрис с 3D кубиками от нового 27B:

И Qwen3.6-35B-A3B:

Скачок, на самом деле, колоссальный. Про тетрисы чуть попозже напишу детальнее, как и про тесты в целом. Но раньше 35-я модель ничего подобного не делала в принципе. Qwen3.5 122-я и 397-я справлялись, но не за 30 секунд и с результатом не лучше. А теперь аналогичный результат получен буквально по щелчку пальцев.

Выводы:

Ждем Qwen3.6-122B. Потенциально это будет огромный скачок для локального инференса, если разница будет аналогичной с 3.5 линейкой.
Даже если скачка не будет, он уже произошел. Теперь пары мини-пк достаточно для работы команды с быстрой нейронкой, которая буквально месяц назад была доступна либо побаловаться со скоростью черепахи, либо в облаке. Ключевая история — теперь запас памяти становится буквально безлимитным.
Инференс на dGPU снова стал интересным. 150 токенов это 150 токенов.

P. S. Костер от облачного Qwen3.6-Plus. Есть о чем подумать:

Он художник, он так видит

campfire-qwen3.5-397b.html

4.52 KB

campfire-qwen3.6-27b.html

14.23 KB