• Сегодня нет ничего важнее ветра перемен.

    В связи с тем, что популярные в наших широтах мессенджеры отказываются сотрудничать с Российской Федерацией и выполнять требования российского законодательства, настал момент навести немного порядка в публичную деятельность.

    1) Основным каналом для общения с ув. подписчиками становится данная площадка на Sponsr.ru.

    2) Кроме платных постов, здесь так же будут размещаться открытые рабочие заметки по тематике проекта, аналогично тому, что было в мессенджерах. Т.к. это просто дневник происходящего в жизни автора, то регламентировать график здесь не приходится.

    3) В мессенджерах, пока это возможно с точки зрения законодательства, будут репосты.

    4) По выходным планируется регулярно размещение платных постов с размышлениями и/или дневником сделанного за неделю по теме ИИ.

    Сегодня нет ничего важнее ветра перемен.

    В связи с тем, что популярные в наших широтах мессенджеры отказываются сотрудничать с Российской Федерацией и выполнять требования российского законодательства, настал момент навести немного порядка в публичную деятельность.

    1) Основным каналом для общения с ув. подписчиками становится данная площадка на Sponsr.ru.

    2) Кроме платных постов, здесь так же будут размещаться открытые рабочие заметки по тематике проекта, аналогично тому, что было в мессенджерах. Т.к. это просто дневник происходящего в жизни автора, то регламентировать график здесь не приходится.

    3) В мессенджерах, пока это возможно с точки зрения законодательства, будут репосты.

    4) По выходным планируется регулярно размещение платных постов с размышлениями и/или дневником сделанного за неделю по теме ИИ.

    Бесплатный
  • За последний месяц к нам подкралась еще одна новая-старая инновация в части инференса LLM — спекулятивное декодирование (speculative decoding).

    Суть подхода в том, что вместо того, чтобы ускорять большую и тяжелую модель, используется пара из большой типовой модели и маленькой черновой (draft). Маленькая модель генерирует токены с высокой скоростью (сотни или тысячи токенов в секунду), а большая модель их или принимает, или нет. Т.е. условный Qwen 3.5 0.8B или 2B генерирует большой поток, а Qwen 3.5/3.6-27B/35B-A3B принимают или отклоняют токены малой модели. Это оказывается до 2-3 раза эффективнее работы в лоб, в зависимости от конкретных моделей, запроса и алгоритма реализации.

    Сам подход не новый, реализация в том же llama.cpp есть давно и называется MTP (multi token prediction), но не работает с новыми моделями. Следим за PR на GitHub «llama + spec: MTP Support #22673» в котором добавляется поддержка свежих Qwen и т. д. По текущим тестам в обсуждении pull request получается 1.8х-2х ускорение практически бесплатно. Ждём окончание доработки и интеграцию в основную ветку.

    Альтернативно, есть поддержка в vLLM алгоритмов Eagle3 и свежий, месячной буквально давности, DFlash (в том числе на Mac), которые сулят еще большие ускорения. Пока эксперименты с DFlash на Ryzen AI Max+ 395 показали, что технология работает, но сыровата. На более отработанных стеках nVidia и MLX можно ждать до х3 ускорения.

    На самом деле, поддержка таких технологий дает свежее дыхание мини-ПК, т. к. у них с запасом памяти для любых экспериментов, а запуск dense моделей становится адекватным по скорости. MoE же модели начинают улетать в космос по скорости.

    Майские праздники территориально оторвали автора от железа, но будет крайне интересно пощупать производительность на dGPU на следующей неделе.

    За последний месяц к нам подкралась еще одна новая-старая инновация в части инференса LLM — спекулятивное декодирование (speculative decoding).

    Суть подхода в том, что вместо того, чтобы ускорять большую и тяжелую модель, используется пара из большой типовой модели и маленькой черновой (draft). Маленькая модель генерирует токены с высокой скоростью (сотни или тысячи токенов в секунду), а большая модель их или принимает, или нет. Т.е. условный Qwen 3.5 0.8B или 2B генерирует большой поток, а Qwen 3.5/3.6-27B/35B-A3B принимают или отклоняют токены малой модели. Это оказывается до 2-3 раза эффективнее работы в лоб, в зависимости от конкретных моделей, запроса и алгоритма реализации.

    Сам подход не новый, реализация в том же llama.cpp есть давно и называется MTP (multi token prediction), но не работает с новыми моделями. Следим за PR на GitHub «llama + spec: MTP Support #22673» в котором добавляется поддержка свежих Qwen и т. д. По текущим тестам в обсуждении pull request получается 1.8х-2х ускорение практически бесплатно. Ждём окончание доработки и интеграцию в основную ветку.

    Альтернативно, есть поддержка в vLLM алгоритмов Eagle3 и свежий, месячной буквально давности, DFlash (в том числе на Mac), которые сулят еще большие ускорения. Пока эксперименты с DFlash на Ryzen AI Max+ 395 показали, что технология работает, но сыровата. На более отработанных стеках nVidia и MLX можно ждать до х3 ускорения.

    На самом деле, поддержка таких технологий дает свежее дыхание мини-ПК, т. к. у них с запасом памяти для любых экспериментов, а запуск dense моделей становится адекватным по скорости. MoE же модели начинают улетать в космос по скорости.

    Майские праздники территориально оторвали автора от железа, но будет крайне интересно пощупать производительность на dGPU на следующей неделе.

    Бесплатный
  • Год назад у автора появились бризеры в квартире, чтобы бороться с аллергией у дочки. Погода в этом году не способствует цветению, а вот объем отфильтрованной грязи вполне можно оценить. Москва, ЦАО, 16-й этаж, со двора. С фасада на 8-ми полосную трассу фильтр чище. Так произошло из-за того, что ветер постоянно дует именно со двора, наддувая в фильтры.

    Фильтр из этого аппарата:

    Внутри три фильтра — грубой очистки, Hepa H11 тонкой и угольный для чистки запахов. Грубый это просто металлическая сетка от пуха и прочего крупногабаритного, чистится ежемесячно. А вот тонкую очистку меняю впервые.

    На обратной стороне видно, что грязь вся осталась в фильтре, что вполне нормально для Hepa.

    Краткие выводы:

    Год назад у автора появились бризеры в квартире, чтобы бороться с аллергией у дочки. Погода в этом году не способствует цветению, а вот объем отфильтрованной грязи вполне можно оценить. Москва, ЦАО, 16-й этаж, со двора. С фасада на 8-ми полосную трассу фильтр чище. Так произошло из-за того, что ветер постоянно дует именно со двора, наддувая в фильтры.

    Фильтр из этого аппарата:

    Внутри три фильтра — грубой очистки, Hepa H11 тонкой и угольный для чистки запахов. Грубый это просто металлическая сетка от пуха и прочего крупногабаритного, чистится ежемесячно. А вот тонкую очистку меняю впервые.

    На обратной стороне видно, что грязь вся осталась в фильтре, что вполне нормально для Hepa.

    Краткие выводы:

    Бесплатный
  • Первомайское. Как технологии нам действительно помогают
    Уже есть подписка?
    Т.к. проект не только об ИИ, но еще об технологиях и людях, то пора поговорить про то, что реально экономит огромное количество сил и денег. Так как у нас 1 мая, то самое время поговорить про них - про роботы-газонокосилки! И, хотя казалось бы, ИИ в плане нейросетей них нет, что бы ни говорила реклама.Подпишитесь, чтобы читать далее
    Технологичный наблюдатель
  • Локальный инференс для разработки на 1 GPU на железе 2020 года на примере qwen3.6
    Уже есть подписка?
    Разбираем как запустить инференс полноценных моделей 2026 года на игровом ПК на железе 2020 года с адекватной реальной разработке производительностью. В программе первичное погружение в архитектуру моделей, практическая реализация адекватной конфигурации на практике и размышления по теме.Подпишитесь, чтобы читать далее
    Технологичный наблюдатель
  • По мотивам последней заметки про запуск MoE моделей на локальном GPU с выгрузкой экспертов в системную память был заказан этот красавец:

    Про саму карту особо рассказывать нечего, тестов полно. Но упомяну основное:

    • Хоть и турбина, но тихая, особо не слышно
    • Греется не выше 70 градусов
    • Киберпанк и последний DooM играбельны даже с Path Tracing
    • MoE модели — 125-150 токенов в секунду, если помещаются
    • Dense модели — 25-32 токена
    • 26-35B модели прекрасно запускаются

    И пока автор бился с мини-пк и кластером (он заработал, но отладка продолжается) доехали Gemma4 и Qwen3.6, все в формате под такую карту. А буквально несколько часов назад вышел Qwen3.6-27B:

    И что мы тут видим. Qwen3.6-35B-A3B на уровне Qwen3.5-397B-A17B, но в 11 раз меньше, а Qwen3.6-27B вообще рекордсмен. Быстрый тест по запросу «Нарисуй костер на фоне заката на html canvas» на локальном 27B:

    По мотивам последней заметки про запуск MoE моделей на локальном GPU с выгрузкой экспертов в системную память был заказан этот красавец:

    Про саму карту особо рассказывать нечего, тестов полно. Но упомяну основное:

    • Хоть и турбина, но тихая, особо не слышно
    • Греется не выше 70 градусов
    • Киберпанк и последний DooM играбельны даже с Path Tracing
    • MoE модели — 125-150 токенов в секунду, если помещаются
    • Dense модели — 25-32 токена
    • 26-35B модели прекрасно запускаются

    И пока автор бился с мини-пк и кластером (он заработал, но отладка продолжается) доехали Gemma4 и Qwen3.6, все в формате под такую карту. А буквально несколько часов назад вышел Qwen3.6-27B:

    И что мы тут видим. Qwen3.6-35B-A3B на уровне Qwen3.5-397B-A17B, но в 11 раз меньше, а Qwen3.6-27B вообще рекордсмен. Быстрый тест по запросу «Нарисуй костер на фоне заката на html canvas» на локальном 27B:

    Бесплатный
  • По мотивам поста в известном мессенджере полез разбираться с магией выгрузки экспертов в MoE моделях в системную память. Оказалось, что при некотором колдунстве можно получить адекватную производительность для таких моделей на вполне бытовом железе, если у вас есть хотя бы 32ГБ системной памяти.

    Эксперименты проводились в LM Studio на ПК с RTX4090 и 128GB DDR5 системной памяти.

    Начнем с тяжелого — Qwen3.5-122B-A10B: Q4_K_M. Модель весит 76,5 гигабайт. Очевидно, что ни в чего не серверное кроме RTX 6000 Blackwell или мини-ПК она не влезет. Особенно с контекстом 262144. Тем не менее, выставляем опцию выгрузки весов экспертов в системную память для всех слоев:

    Прогноз потребления памяти почти 80 Гб. Обычно при такой выгрузке в системную память у нас 3 токена в секунду и невозможность работать.

    Но в реальном мире:

    15+ токенов в секунду. Видеопамять — 15,2 Гб, системная — 83 ГБ. Т.е. мы получаем вполне рабочую историю для локального инференса в однопользовательском режиме. Запустить реально тяжелую модель можно на вполне бытовом GPU с 16 Гб видеопамяти.

    По мотивам поста в известном мессенджере полез разбираться с магией выгрузки экспертов в MoE моделях в системную память. Оказалось, что при некотором колдунстве можно получить адекватную производительность для таких моделей на вполне бытовом железе, если у вас есть хотя бы 32ГБ системной памяти.

    Эксперименты проводились в LM Studio на ПК с RTX4090 и 128GB DDR5 системной памяти.

    Начнем с тяжелого — Qwen3.5-122B-A10B: Q4_K_M. Модель весит 76,5 гигабайт. Очевидно, что ни в чего не серверное кроме RTX 6000 Blackwell или мини-ПК она не влезет. Особенно с контекстом 262144. Тем не менее, выставляем опцию выгрузки весов экспертов в системную память для всех слоев:

    Прогноз потребления памяти почти 80 Гб. Обычно при такой выгрузке в системную память у нас 3 токена в секунду и невозможность работать.

    Но в реальном мире:

    15+ токенов в секунду. Видеопамять — 15,2 Гб, системная — 83 ГБ. Т.е. мы получаем вполне рабочую историю для локального инференса в однопользовательском режиме. Запустить реально тяжелую модель можно на вполне бытовом GPU с 16 Гб видеопамяти.

    Бесплатный
  • И так, я купил первый в жизни Microtik.

    Долго судьба меня берегла, но восьмикратная разница по стоимости с ближайшим рекомендуемым коммутатором Mellanox не оставила выбора.

    Аппарат поддерживает 4*100Gbps QSFP разъема и вот тут самая магия.

    До 10G идет обычный RJ45 и вопрос только в кабеле и качестве обжимки.

    А вот дальше уже начинаются SFP разъемы. Вернее они от 1G идут, но нас реально интересуют SFP+, которые 10G/25G.

    И так, я купил первый в жизни Microtik.

    Долго судьба меня берегла, но восьмикратная разница по стоимости с ближайшим рекомендуемым коммутатором Mellanox не оставила выбора.

    Аппарат поддерживает 4*100Gbps QSFP разъема и вот тут самая магия.

    До 10G идет обычный RJ45 и вопрос только в кабеле и качестве обжимки.

    А вот дальше уже начинаются SFP разъемы. Вернее они от 1G идут, но нас реально интересуют SFP+, которые 10G/25G.

    Бесплатный
  • Автор бьется с локальным железом, пытаясь собрать кластер из 4-х Ryzen 395 в режиме параллельной обработки. Процесс захватывающий. Железо свежее. Буквально полторы недели назад вообще ничего не работало. Дальше пошел прогресс:

    1. Заработали разные варианты настроек кластера в llama.cpp, но это не полноценный tensor параллелизм, судя по загрузке оборудования, но pipeline, хотя 700B модель локально поднять удалось в качестве эксперимента.
    2. В принципе заработал vLLM (после релиза 0.18.0) для MoE моделей и Qwen3.5 в частности. До этого можно было запускать только небольшие dense модели.
    3. Заработал кластер на 2-х мини-пк с прямым соединением для Qwen3.5 на 0.18.0 и квантованных моделях, но пока неадекватно медленно

    Буквально позавчера вышел vLLM 0.19.0 с существенными оптимизациям под Ryzen, улучшенной поддержкой AWQ квантов и прочими исправлениями для MoE.

    При этом одновременно не заработала гипотеза, что можно собрать кластер-звезду для RDMA через компьютер-хаб с выделенной сетевой платой 4*25G.

    А у автора есть еще 2 гипотезы для проверки:

    1. Кольцевой кластер из 4-х мини-ПК. Нейронки и документация утверждают, что RCCL (реализация NCCL от AMD), которая как раз обеспечивает кластерную работу GPU, работает по топологии кольцо. Требует проверки и некоторого времени.
    2. Найден и заказан вменяемый по стоимости аппаратный switch c полной поддержкой RDMA.

    Все это требует экспериментов и поиска оптимальной конфигурации. Статья пишется буквально по живым nightly обновлениям софта и займет еще какое-то время до запуска стабильной конфигурации кластера хотя бы в формате MVP. Уже очевидно, что оно возможно.

    Автор бьется с локальным железом, пытаясь собрать кластер из 4-х Ryzen 395 в режиме параллельной обработки. Процесс захватывающий. Железо свежее. Буквально полторы недели назад вообще ничего не работало. Дальше пошел прогресс:

    1. Заработали разные варианты настроек кластера в llama.cpp, но это не полноценный tensor параллелизм, судя по загрузке оборудования, но pipeline, хотя 700B модель локально поднять удалось в качестве эксперимента.
    2. В принципе заработал vLLM (после релиза 0.18.0) для MoE моделей и Qwen3.5 в частности. До этого можно было запускать только небольшие dense модели.
    3. Заработал кластер на 2-х мини-пк с прямым соединением для Qwen3.5 на 0.18.0 и квантованных моделях, но пока неадекватно медленно

    Буквально позавчера вышел vLLM 0.19.0 с существенными оптимизациям под Ryzen, улучшенной поддержкой AWQ квантов и прочими исправлениями для MoE.

    При этом одновременно не заработала гипотеза, что можно собрать кластер-звезду для RDMA через компьютер-хаб с выделенной сетевой платой 4*25G.

    А у автора есть еще 2 гипотезы для проверки:

    1. Кольцевой кластер из 4-х мини-ПК. Нейронки и документация утверждают, что RCCL (реализация NCCL от AMD), которая как раз обеспечивает кластерную работу GPU, работает по топологии кольцо. Требует проверки и некоторого времени.
    2. Найден и заказан вменяемый по стоимости аппаратный switch c полной поддержкой RDMA.

    Все это требует экспериментов и поиска оптимальной конфигурации. Статья пишется буквально по живым nightly обновлениям софта и займет еще какое-то время до запуска стабильной конфигурации кластера хотя бы в формате MVP. Уже очевидно, что оно возможно.

    Бесплатный
  • Таки локальная, но победа! Qwen3.5-27B на полной точности в кластерном режиме с тензорным параллелизмом на 2х Ryzen AI Max+ 395 с vLLM и Ray. Гайды в сети гайдами, но покопаться пришлось несколько недель.

    Следующий этап — запуск MoE версий Qwen’a. 122B-A10B в две ноды будет категорически классным командным решением.

    Идеально было бы запустить на 4-х, но тут нужен или коммутатор Mellanox за 500к рублей, или еще 3 карты на 4 порта Intel E810, что тоже не бюджетно. Пока поэкспериментируем с тем, что взлетело.

    Детальнее будет в большой статье по кластерам на Strix Halo позже.

    Таки локальная, но победа! Qwen3.5-27B на полной точности в кластерном режиме с тензорным параллелизмом на 2х Ryzen AI Max+ 395 с vLLM и Ray. Гайды в сети гайдами, но покопаться пришлось несколько недель.

    Следующий этап — запуск MoE версий Qwen’a. 122B-A10B в две ноды будет категорически классным командным решением.

    Идеально было бы запустить на 4-х, но тут нужен или коммутатор Mellanox за 500к рублей, или еще 3 карты на 4 порта Intel E810, что тоже не бюджетно. Пока поэкспериментируем с тем, что взлетело.

    Детальнее будет в большой статье по кластерам на Strix Halo позже.

    Бесплатный
  • Qwen3.5-397B-A17B классный. Задача — подготовить Ansible Playbook для развертывания Gitea и PostgreSQL на домашнем сервере.

    Два несложных промпта и результат готов:

    Диалог на сайте: https://chat.qwen.ai/s/75c90f17-7016-4fb0-9c24-1f57deed59cb?fev=0.2.14

    Так же приложил файлом к посту, если диалог будет недоступен, вполне удобно смотреть в VS Code.

    Ранее публиковал ссылку на ArtificialAnalysis.ai, где очень удобно сведены рейтинги LLM с возможностью фильтрации и т. п. Китайцы очень любят все время делать разные сравнения в своих постах и очень сложно сравнивать разные размеры моделей и т. п. Тут же все удобно и в одном месте.

    Видно, что по общему рейтингу последний Qwen ну как-то не в топе. Середняк. А по отдельным тестам вообще даже далек до чемпионов.

    Есть мнение, что вышел GLM-5 и порвал весь опенсорс по качеству. Возможно и так.

    Qwen3.5-397B-A17B классный. Задача — подготовить Ansible Playbook для развертывания Gitea и PostgreSQL на домашнем сервере.

    Два несложных промпта и результат готов:

    Диалог на сайте: https://chat.qwen.ai/s/75c90f17-7016-4fb0-9c24-1f57deed59cb?fev=0.2.14

    Так же приложил файлом к посту, если диалог будет недоступен, вполне удобно смотреть в VS Code.

    Ранее публиковал ссылку на ArtificialAnalysis.ai, где очень удобно сведены рейтинги LLM с возможностью фильтрации и т. п. Китайцы очень любят все время делать разные сравнения в своих постах и очень сложно сравнивать разные размеры моделей и т. п. Тут же все удобно и в одном месте.

    Видно, что по общему рейтингу последний Qwen ну как-то не в топе. Середняк. А по отдельным тестам вообще даже далек до чемпионов.

    Есть мнение, что вышел GLM-5 и порвал весь опенсорс по качеству. Возможно и так.

    Бесплатный
  • Из-за блокировки компанией Cisco доступа к своим репозиториям из РФ невозможно нормальное обновление многих Linux дистрибутивов. Получаем 403 ошибку и остановку процесса. Аналогичная проблема есть на SteamOS. Краткая инструкция как исправить на примере Fedora Linux по ссылке: https://www.comss.ru/page.php?id=18518

    Краткая выдержка, если с оригиналом что-то случится. Проверено на себе:

    Как отключить fedora-cisco-openh264:

    sudo sed -i 's/enabled=1/enabled=0/g' /etc/yum.repos.d/fedora-cisco-openh264.repo
    

    Затем:

    sudo dnf swap *\openh264\* noopenh264 --allowerasing
    

    Для решения проблемы с приложениями Flatpak:

    sudo flatpak mask org.freedesktop.Platform.openh264
    

    Из-за блокировки компанией Cisco доступа к своим репозиториям из РФ невозможно нормальное обновление многих Linux дистрибутивов. Получаем 403 ошибку и остановку процесса. Аналогичная проблема есть на SteamOS. Краткая инструкция как исправить на примере Fedora Linux по ссылке: https://www.comss.ru/page.php?id=18518

    Краткая выдержка, если с оригиналом что-то случится. Проверено на себе:

    Как отключить fedora-cisco-openh264:

    sudo sed -i 's/enabled=1/enabled=0/g' /etc/yum.repos.d/fedora-cisco-openh264.repo
    

    Затем:

    sudo dnf swap *\openh264\* noopenh264 --allowerasing
    

    Для решения проблемы с приложениями Flatpak:

    sudo flatpak mask org.freedesktop.Platform.openh264
    
    Бесплатный
  • Собираем домашнюю лабораторию
    Уже есть подписка?
    Платформа Strix Halo, известная как AMD Ryzen AI Max+ 395 на сегодня оптимальный финансово вариант в РФ с точки зрения запуска локального инференса крупных моделей 80-130B с производительностью адекватной для небольших команд. А еще можно собрать кластер на 500Гб VRAM, потратив доступную физлицу сумму денег. Смотрим на приехавшее железо, первые впечатления, нюансы с софтом и измерения производительности.Подпишитесь, чтобы читать далее
    Технологичный наблюдатель
  • ИИ съест пирог ИТ сверху
    Уже есть подписка?
    На архитектуру предприятия, надо смотреть именно как на слоеный пирог на твердой основе. Как будет ИИ проникать в этот слоеный пирог, с какой стороны и с какой скоростью, разберем в материале, а так же любимая картинка автора для объяснения архитектуры фломастером на доске в комплекте.Подпишитесь, чтобы читать далее
    Технологичный наблюдатель
  • Потеря устойчивости как неминуемое следствие технического прогресса
    Уже есть подписка?
    Технология не раскрывается сама по себе и может очень долго ждать появления сопутствующих факторов для роста и развития. Никто обычно не задумывается откуда так удачно появился асфальт и помог автомобилям вытеснить лошадей. С ИИ и нейросетями, на самом деле, произошло то же самое. И если асфальт может течь по жаре сам, то про ИИ стоит поговорить отдельно, что же заставляет беспокоиться прямо сегодня.Подпишитесь, чтобы читать далее
    Технологичный наблюдатель