Минутка внезапного прогресса
По мотивам последней заметки про запуск MoE моделей на локальном GPU с выгрузкой экспертов в системную память был заказан этот красавец:

Про саму карту особо рассказывать нечего, тестов полно. Но упомяну основное:
- Хоть и турбина, но тихая, особо не слышно
- Греется не выше 70 градусов
- Киберпанк и последний DooM играбельны даже с Path Tracing
- MoE модели — 125-150 токенов в секунду, если помещаются
- Dense модели — 25-32 токена
- 26-35B модели прекрасно запускаются
И пока автор бился с мини-пк и кластером (он заработал, но отладка продолжается) доехали Gemma4 и Qwen3.6, все в формате под такую карту. А буквально несколько часов назад вышел Qwen3.6-27B:

И что мы тут видим. Qwen3.6-35B-A3B на уровне Qwen3.5-397B-A17B, но в 11 раз меньше, а Qwen3.6-27B вообще рекордсмен. Быстрый тест по запросу «Нарисуй костер на фоне заката на html canvas» на локальном 27B:

А это облачный 397B:

Победитель вполне очевиден.
И мой ультимативный тест — Тетрис с 3D кубиками от нового 27B:

И Qwen3.6-35B-A3B:

Скачок, на самом деле, колоссальный. Про тетрисы чуть попозже напишу детальнее, как и про тесты в целом. Но раньше 35-я модель ничего подобного не делала в принципе. Qwen3.5 122-я и 397-я справлялись, но не за 30 секунд и с результатом не лучше. А теперь аналогичный результат получен буквально по щелчку пальцев.
Выводы:
- Ждем Qwen3.6-122B. Потенциально это будет огромный скачок для локального инференса, если разница будет аналогичной с 3.5 линейкой.
- Даже если скачка не будет, он уже произошел. Теперь пары мини-пк достаточно для работы команды с быстрой нейронкой, которая буквально месяц назад была доступна либо побаловаться со скоростью черепахи, либо в облаке. Ключевая история — теперь запас памяти становится буквально безлимитным.
- Инференс на dGPU снова стал интересным. 150 токенов это 150 токенов.
P. S. Костер от облачного Qwen3.6-Plus. Есть о чем подумать:
