Минутка: Кластер vLLM все же запущен!
Таки локальная, но победа! Qwen3.5-27B на полной точности в кластерном режиме с тензорным параллелизмом на 2х Ryzen AI Max+ 395 с vLLM и Ray. Гайды в сети гайдами, но покопаться пришлось несколько недель.

Следующий этап — запуск MoE версий Qwen’a. 122B-A10B в две ноды будет категорически классным командным решением.
Идеально было бы запустить на 4-х, но тут нужен или коммутатор Mellanox за 500к рублей, или еще 3 карты на 4 порта Intel E810, что тоже не бюджетно. Пока поэкспериментируем с тем, что взлетело.
Детальнее будет в большой статье по кластерам на Strix Halo позже.