Минутка: краткий статус

Автор бьется с локальным железом, пытаясь собрать кластер из 4-х Ryzen 395 в режиме параллельной обработки. Процесс захватывающий. Железо свежее. Буквально полторы недели назад вообще ничего не работало. Дальше пошел прогресс:

Заработали разные варианты настроек кластера в llama.cpp, но это не полноценный tensor параллелизм, судя по загрузке оборудования, но pipeline, хотя 700B модель локально поднять удалось в качестве эксперимента.
В принципе заработал vLLM (после релиза 0.18.0) для MoE моделей и Qwen3.5 в частности. До этого можно было запускать только небольшие dense модели.
Заработал кластер на 2-х мини-пк с прямым соединением для Qwen3.5 на 0.18.0 и квантованных моделях, но пока неадекватно медленно

Буквально позавчера вышел vLLM 0.19.0 с существенными оптимизациям под Ryzen, улучшенной поддержкой AWQ квантов и прочими исправлениями для MoE.

При этом одновременно не заработала гипотеза, что можно собрать кластер-звезду для RDMA через компьютер-хаб с выделенной сетевой платой 4*25G.

А у автора есть еще 2 гипотезы для проверки:

Кольцевой кластер из 4-х мини-ПК. Нейронки и документация утверждают, что RCCL (реализация NCCL от AMD), которая как раз обеспечивает кластерную работу GPU, работает по топологии кольцо. Требует проверки и некоторого времени.
Найден и заказан вменяемый по стоимости аппаратный switch c полной поддержкой RDMA.

Все это требует экспериментов и поиска оптимальной конфигурации. Статья пишется буквально по живым nightly обновлениям софта и займет еще какое-то время до запуска стабильной конфигурации кластера хотя бы в формате MVP. Уже очевидно, что оно возможно.