Минутка внезапного прогресса

По мотивам последней заметки про запуск MoE моделей на локальном GPU с выгрузкой экспертов в системную память был заказан этот красавец:

Минутка внезапного прогресса
Карта референсная, но надписи с брендом

Про саму карту особо рассказывать нечего, тестов полно. Но упомяну основное:

  • Хоть и турбина, но тихая, особо не слышно
  • Греется не выше 70 градусов
  • Киберпанк и последний DooM играбельны даже с Path Tracing
  • MoE модели — 125-150 токенов в секунду, если помещаются
  • Dense модели — 25-32 токена
  • 26-35B модели прекрасно запускаются

И пока автор бился с мини-пк и кластером (он заработал, но отладка продолжается) доехали Gemma4 и Qwen3.6, все в формате под такую карту. А буквально несколько часов назад вышел Qwen3.6-27B:

По информации самого Qwen
По информации самого Qwen

И что мы тут видим. Qwen3.6-35B-A3B на уровне Qwen3.5-397B-A17B, но в 11 раз меньше, а Qwen3.6-27B вообще рекордсмен. Быстрый тест по запросу «Нарисуй костер на фоне заката на html canvas» на локальном 27B:

Исходный код приложен
Исходный код приложен

А это облачный 397B:

Код тоже приложен
Код тоже приложен

Победитель вполне очевиден.

И мой ультимативный тест — Тетрис с 3D кубиками от нового 27B:

И Qwen3.6-35B-A3B:

Скачок, на самом деле, колоссальный. Про тетрисы чуть попозже напишу детальнее, как и про тесты в целом. Но раньше 35-я модель ничего подобного не делала в принципе. Qwen3.5 122-я и 397-я справлялись, но не за 30 секунд и с результатом не лучше. А теперь аналогичный результат получен буквально по щелчку пальцев.

Выводы:

  1. Ждем Qwen3.6-122B. Потенциально это будет огромный скачок для локального инференса, если разница будет аналогичной с 3.5 линейкой.
  2. Даже если скачка не будет, он уже произошел. Теперь пары мини-пк достаточно для работы команды с быстрой нейронкой, которая буквально месяц назад была доступна либо побаловаться со скоростью черепахи, либо в облаке. Ключевая история — теперь запас памяти становится буквально безлимитным.
  3. Инференс на dGPU снова стал интересным. 150 токенов это 150 токенов.

P. S. Костер от облачного Qwen3.6-Plus. Есть о чем подумать:

Он художник, он так видит
Он художник, он так видит


campfire-qwen3.5-397b.html
4.52 KB
campfire-qwen3.6-27b.html
14.23 KB
Бесплатный
Комментарии
avatar
Здесь будут комментарии к публикации