Заметки о Qwen3.5 и бенчмарках

Qwen3.5-397B-A17B классный. Задача — подготовить Ansible Playbook для развертывания Gitea и PostgreSQL на домашнем сервере.

Два несложных промпта и результат готов:

Диалог на сайте: https://chat.qwen.ai/s/75c90f17-7016-4fb0-9c24-1f57deed59cb?fev=0.2.14

Так же приложил файлом к посту, если диалог будет недоступен, вполне удобно смотреть в VS Code.

Ранее публиковал ссылку на ArtificialAnalysis.ai, где очень удобно сведены рейтинги LLM с возможностью фильтрации и т. п. Китайцы очень любят все время делать разные сравнения в своих постах и очень сложно сравнивать разные размеры моделей и т. п. Тут же все удобно и в одном месте.

Заметки о Qwen3.5 и бенчмарках

Видно, что по общему рейтингу последний Qwen ну как-то не в топе. Середняк. А по отдельным тестам вообще даже далек до чемпионов.

Есть мнение, что вышел GLM-5 и порвал весь опенсорс по качеству. Возможно и так.

Готовлюсь собрать домашний кластер. Прошу пока еще развернутые в облаке LLM подготовить мне playbook’и заранее и сравниваю результаты. Плюс прогнал пару интересных инженерных задач, типа подготовки схемы зануления генератора при питании газового котла для корректной работы датчика ионизации (ох, сколько мне нервов лет 15 назад чтений ПУЭ съело).

Так вот, Qwen3.5 пока выглядит реально лучшим помощником в таких задачах. Практически идеально следует промпту, структурирует ответы, бьет инструкции по шагам, дает разъяснения. Разрекламированный GLM-5 находится достаточно близко по качеству ответа, но категорически хуже пишет код. Место того, чтобы разложить все по файлам и т. п., пишет простыни, отклоняется на пояснение не нужного. Deepseek еще хуже, но он и старше. Ждем V4.

А вот исследовать лучше всего с ChatGPT, который все время мечется в смежные области, что как раз удобно для быстрого погружения. Qwen на этом фоне идет строго по инструкции и лишней информации не дает. Пока присматриваюсь к опенсорсу в этой части, но не нашел фаворита.

К чему я это. Иногда бенчмарки это просто бенчмарки и верить им на 100% нельзя.

А Qwen рекомендую для локального развертывания. Планирую именно с ним дальше экспериментировать. Кстати, Qwen3.5-122B-A10B версия тоже очень интересна. С точки зрения кода и структуры разница с 397B на глаз не видна, ценой потери большей части комментариев и прозрачности размышления. Но влезет в один Мини-ПК на 128Гб.


chat-Gitea_PostgreSQL_Install_Instructions.md
33.42 KB
Бесплатный
Комментарии
avatar
Здесь будут комментарии к публикации