Минутка: Кластер vLLM все же запущен!

Таки локальная, но победа! Qwen3.5-27B на полной точности в кластерном режиме с тензорным параллелизмом на 2х Ryzen AI Max+ 395 с vLLM и Ray. Гайды в сети гайдами, но покопаться пришлось несколько недель.

Минутка: Кластер vLLM все же запущен!

Следующий этап — запуск MoE версий Qwen’a. 122B-A10B в две ноды будет категорически классным командным решением.

Идеально было бы запустить на 4-х, но тут нужен или коммутатор Mellanox за 500к рублей, или еще 3 карты на 4 порта Intel E810, что тоже не бюджетно. Пока поэкспериментируем с тем, что взлетело.

Детальнее будет в большой статье по кластерам на Strix Halo позже.

Бесплатный
Таки локальная1
Комментарии
avatar
Здесь будут комментарии к публикации