Вселенское зло об ИИ, технологиях и людях

ИИ меняет всё. Автор 20 лет зарабатывал деньги в ИТ, писал код, строил команды в сотни людей, делал системы из сотен микросервисов с десятками релизов в день, но революция уже здесь. Программисты будут вымирать, разработка меняется. Погружаемся.

2 подписчика

Публикации

Подборки

Уровни подписки

Контакты

О проекте

На блокировку мессенджеров
Сегодня нет ничего важнее ветра перемен.
В связи с тем, что популярные в наших широтах мессенджеры отказываются сотрудничать с Российской Федерацией и выполнять требования российского законодательства, настал момент навести немного порядка в публичную деятельность.
1) Основным каналом для общения с ув. подписчиками становится данная площадка на Sponsr.ru.
2) Кроме платных постов, здесь так же будут размещаться открытые рабочие заметки по тематике проекта, аналогично тому, что было в мессенджерах. Т.к. это просто дневник происходящего в жизни автора, то регламентировать график здесь не приходится.
3) В мессенджерах, пока это возможно с точки зрения законодательства, будут репосты.
4) По выходным планируется регулярно размещение платных постов с размышлениями и/или дневником сделанного за неделю по теме ИИ.
На блокировку мессенджеров
Сегодня нет ничего важнее ветра перемен.
В связи с тем, что популярные в наших широтах мессенджеры отказываются сотрудничать с Российской Федерацией и выполнять требования российского законодательства, настал момент навести немного порядка в публичную деятельность.
1) Основным каналом для общения с ув. подписчиками становится данная площадка на Sponsr.ru.
2) Кроме платных постов, здесь так же будут размещаться открытые рабочие заметки по тематике проекта, аналогично тому, что было в мессенджерах. Т.к. это просто дневник происходящего в жизни автора, то регламентировать график здесь не приходится.
3) В мессенджерах, пока это возможно с точки зрения законодательства, будут репосты.
4) По выходным планируется регулярно размещение платных постов с размышлениями и/или дневником сделанного за неделю по теме ИИ.
Бесплатный
Минутка бесплатного ускорения LLM
За последний месяц к нам подкралась еще одна новая-старая инновация в части инференса LLM — спекулятивное декодирование (speculative decoding).
Суть подхода в том, что вместо того, чтобы ускорять большую и тяжелую модель, используется пара из большой типовой модели и маленькой черновой (draft). Маленькая модель генерирует токены с высокой скоростью (сотни или тысячи токенов в секунду), а большая модель их или принимает, или нет. Т.е. условный Qwen 3.5 0.8B или 2B генерирует большой поток, а Qwen 3.5/3.6-27B/35B-A3B принимают или отклоняют токены малой модели. Это оказывается до 2-3 раза эффективнее работы в лоб, в зависимости от конкретных моделей, запроса и алгоритма реализации.
Сам подход не новый, реализация в том же llama.cpp есть давно и называется MTP (multi token prediction), но не работает с новыми моделями. Следим за PR на GitHub «llama + spec: MTP Support #22673» в котором добавляется поддержка свежих Qwen и т. д. По текущим тестам в обсуждении pull request получается 1.8х-2х ускорение практически бесплатно. Ждём окончание доработки и интеграцию в основную ветку.
Альтернативно, есть поддержка в vLLM алгоритмов Eagle3 и свежий, месячной буквально давности, DFlash (в том числе на Mac), которые сулят еще большие ускорения. Пока эксперименты с DFlash на Ryzen AI Max+ 395 показали, что технология работает, но сыровата. На более отработанных стеках nVidia и MLX можно ждать до х3 ускорения.
На самом деле, поддержка таких технологий дает свежее дыхание мини-ПК, т. к. у них с запасом памяти для любых экспериментов, а запуск dense моделей становится адекватным по скорости. MoE же модели начинают улетать в космос по скорости.
Майские праздники территориально оторвали автора от железа, но будет крайне интересно пощупать производительность на dGPU на следующей неделе.
Минутка бесплатного ускорения LLM
За последний месяц к нам подкралась еще одна новая-старая инновация в части инференса LLM — спекулятивное декодирование (speculative decoding).
Суть подхода в том, что вместо того, чтобы ускорять большую и тяжелую модель, используется пара из большой типовой модели и маленькой черновой (draft). Маленькая модель генерирует токены с высокой скоростью (сотни или тысячи токенов в секунду), а большая модель их или принимает, или нет. Т.е. условный Qwen 3.5 0.8B или 2B генерирует большой поток, а Qwen 3.5/3.6-27B/35B-A3B принимают или отклоняют токены малой модели. Это оказывается до 2-3 раза эффективнее работы в лоб, в зависимости от конкретных моделей, запроса и алгоритма реализации.
Сам подход не новый, реализация в том же llama.cpp есть давно и называется MTP (multi token prediction), но не работает с новыми моделями. Следим за PR на GitHub «llama + spec: MTP Support #22673» в котором добавляется поддержка свежих Qwen и т. д. По текущим тестам в обсуждении pull request получается 1.8х-2х ускорение практически бесплатно. Ждём окончание доработки и интеграцию в основную ветку.
Альтернативно, есть поддержка в vLLM алгоритмов Eagle3 и свежий, месячной буквально давности, DFlash (в том числе на Mac), которые сулят еще большие ускорения. Пока эксперименты с DFlash на Ryzen AI Max+ 395 показали, что технология работает, но сыровата. На более отработанных стеках nVidia и MLX можно ждать до х3 ускорения.
На самом деле, поддержка таких технологий дает свежее дыхание мини-ПК, т. к. у них с запасом памяти для любых экспериментов, а запуск dense моделей становится адекватным по скорости. MoE же модели начинают улетать в космос по скорости.
Майские праздники территориально оторвали автора от железа, но будет крайне интересно пощупать производительность на dGPU на следующей неделе.
Бесплатный
Минутка чистого воздуха на майские праздники
Год назад у автора появились бризеры в квартире, чтобы бороться с аллергией у дочки. Погода в этом году не способствует цветению, а вот объем отфильтрованной грязи вполне можно оценить. Москва, ЦАО, 16-й этаж, со двора. С фасада на 8-ми полосную трассу фильтр чище. Так произошло из-за того, что ветер постоянно дует именно со двора, наддувая в фильтры.
Фильтр из этого аппарата:
Внутри три фильтра — грубой очистки, Hepa H11 тонкой и угольный для чистки запахов. Грубый это просто металлическая сетка от пуха и прочего крупногабаритного, чистится ежемесячно. А вот тонкую очистку меняю впервые.
На обратной стороне видно, что грязь вся осталась в фильтре, что вполне нормально для Hepa.
Краткие выводы:
Минутка чистого воздуха на майские праздники
Год назад у автора появились бризеры в квартире, чтобы бороться с аллергией у дочки. Погода в этом году не способствует цветению, а вот объем отфильтрованной грязи вполне можно оценить. Москва, ЦАО, 16-й этаж, со двора. С фасада на 8-ми полосную трассу фильтр чище. Так произошло из-за того, что ветер постоянно дует именно со двора, наддувая в фильтры.
Фильтр из этого аппарата:
Внутри три фильтра — грубой очистки, Hepa H11 тонкой и угольный для чистки запахов. Грубый это просто металлическая сетка от пуха и прочего крупногабаритного, чистится ежемесячно. А вот тонкую очистку меняю впервые.
На обратной стороне видно, что грязь вся осталась в фильтре, что вполне нормально для Hepa.
Краткие выводы:
Бесплатный
Первомайское. Как технологии нам действительно помогают
Первомайское. Как технологии нам действительно помогают
Уже есть подписка?
Т.к. проект не только об ИИ, но еще об технологиях и людях, то пора поговорить про то, что реально экономит огромное количество сил и денег. Так как у нас 1 мая, то самое время поговорить про них - про роботы-газонокосилки! И, хотя казалось бы, ИИ в плане нейросетей них нет, что бы ни говорила реклама.Подпишитесь, чтобы читать далее
Технологичный наблюдатель
Локальный инференс для разработки на 1 GPU на железе 2020 года на примере qwen3.6
Локальный инференс для разработки на 1 GPU на железе 2020 года на примере qwen3.6
Уже есть подписка?
Разбираем как запустить инференс полноценных моделей 2026 года на игровом ПК на железе 2020 года с адекватной реальной разработке производительностью. В программе первичное погружение в архитектуру моделей, практическая реализация адекватной конфигурации на практике и размышления по теме.Подпишитесь, чтобы читать далее
Технологичный наблюдатель
Минутка внезапного прогресса
По мотивам последней заметки про запуск MoE моделей на локальном GPU с выгрузкой экспертов в системную память был заказан этот красавец:
Про саму карту особо рассказывать нечего, тестов полно. Но упомяну основное:
Хоть и турбина, но тихая, особо не слышно
Греется не выше 70 градусов
Киберпанк и последний DooM играбельны даже с Path Tracing
MoE модели — 125-150 токенов в секунду, если помещаются
Dense модели — 25-32 токена
26-35B модели прекрасно запускаются
И пока автор бился с мини-пк и кластером (он заработал, но отладка продолжается) доехали Gemma4 и Qwen3.6, все в формате под такую карту. А буквально несколько часов назад вышел Qwen3.6-27B:
И что мы тут видим. Qwen3.6-35B-A3B на уровне Qwen3.5-397B-A17B, но в 11 раз меньше, а Qwen3.6-27B вообще рекордсмен. Быстрый тест по запросу «Нарисуй костер на фоне заката на html canvas» на локальном 27B:
Минутка внезапного прогресса
По мотивам последней заметки про запуск MoE моделей на локальном GPU с выгрузкой экспертов в системную память был заказан этот красавец:
Про саму карту особо рассказывать нечего, тестов полно. Но упомяну основное:
Хоть и турбина, но тихая, особо не слышно
Греется не выше 70 градусов
Киберпанк и последний DooM играбельны даже с Path Tracing
MoE модели — 125-150 токенов в секунду, если помещаются
Dense модели — 25-32 токена
26-35B модели прекрасно запускаются
И пока автор бился с мини-пк и кластером (он заработал, но отладка продолжается) доехали Gemma4 и Qwen3.6, все в формате под такую карту. А буквально несколько часов назад вышел Qwen3.6-27B:
И что мы тут видим. Qwen3.6-35B-A3B на уровне Qwen3.5-397B-A17B, но в 11 раз меньше, а Qwen3.6-27B вообще рекордсмен. Быстрый тест по запросу «Нарисуй костер на фоне заката на html canvas» на локальном 27B:
Бесплатный
Минутка: запуск 122B модели на GPU с 16GB VRAM или впихнуть невпихуемое
По мотивам поста в известном мессенджере полез разбираться с магией выгрузки экспертов в MoE моделях в системную память. Оказалось, что при некотором колдунстве можно получить адекватную производительность для таких моделей на вполне бытовом железе, если у вас есть хотя бы 32ГБ системной памяти.
Эксперименты проводились в LM Studio на ПК с RTX4090 и 128GB DDR5 системной памяти.
Начнем с тяжелого — Qwen3.5-122B-A10B: Q4_K_M. Модель весит 76,5 гигабайт. Очевидно, что ни в чего не серверное кроме RTX 6000 Blackwell или мини-ПК она не влезет. Особенно с контекстом 262144. Тем не менее, выставляем опцию выгрузки весов экспертов в системную память для всех слоев:
Прогноз потребления памяти почти 80 Гб. Обычно при такой выгрузке в системную память у нас 3 токена в секунду и невозможность работать.
Но в реальном мире:
15+ токенов в секунду. Видеопамять — 15,2 Гб, системная — 83 ГБ. Т.е. мы получаем вполне рабочую историю для локального инференса в однопользовательском режиме. Запустить реально тяжелую модель можно на вполне бытовом GPU с 16 Гб видеопамяти.
Минутка: запуск 122B модели на GPU с 16GB VRAM или впихнуть невпихуемое
По мотивам поста в известном мессенджере полез разбираться с магией выгрузки экспертов в MoE моделях в системную память. Оказалось, что при некотором колдунстве можно получить адекватную производительность для таких моделей на вполне бытовом железе, если у вас есть хотя бы 32ГБ системной памяти.
Эксперименты проводились в LM Studio на ПК с RTX4090 и 128GB DDR5 системной памяти.
Начнем с тяжелого — Qwen3.5-122B-A10B: Q4_K_M. Модель весит 76,5 гигабайт. Очевидно, что ни в чего не серверное кроме RTX 6000 Blackwell или мини-ПК она не влезет. Особенно с контекстом 262144. Тем не менее, выставляем опцию выгрузки весов экспертов в системную память для всех слоев:
Прогноз потребления памяти почти 80 Гб. Обычно при такой выгрузке в системную память у нас 3 токена в секунду и невозможность работать.
Но в реальном мире:
15+ токенов в секунду. Видеопамять — 15,2 Гб, системная — 83 ГБ. Т.е. мы получаем вполне рабочую историю для локального инференса в однопользовательском режиме. Запустить реально тяжелую модель можно на вполне бытовом GPU с 16 Гб видеопамяти.
Бесплатный
Минутка: Микротик приехал!
И так, я купил первый в жизни Microtik.
Долго судьба меня берегла, но восьмикратная разница по стоимости с ближайшим рекомендуемым коммутатором Mellanox не оставила выбора.
Аппарат поддерживает 4*100Gbps QSFP разъема и вот тут самая магия.
До 10G идет обычный RJ45 и вопрос только в кабеле и качестве обжимки.
А вот дальше уже начинаются SFP разъемы. Вернее они от 1G идут, но нас реально интересуют SFP+, которые 10G/25G.
Минутка: Микротик приехал!
И так, я купил первый в жизни Microtik.
Долго судьба меня берегла, но восьмикратная разница по стоимости с ближайшим рекомендуемым коммутатором Mellanox не оставила выбора.
Аппарат поддерживает 4*100Gbps QSFP разъема и вот тут самая магия.
До 10G идет обычный RJ45 и вопрос только в кабеле и качестве обжимки.
А вот дальше уже начинаются SFP разъемы. Вернее они от 1G идут, но нас реально интересуют SFP+, которые 10G/25G.
Бесплатный
Минутка: краткий статус
Автор бьется с локальным железом, пытаясь собрать кластер из 4-х Ryzen 395 в режиме параллельной обработки. Процесс захватывающий. Железо свежее. Буквально полторы недели назад вообще ничего не работало. Дальше пошел прогресс:
Заработали разные варианты настроек кластера в llama.cpp, но это не полноценный tensor параллелизм, судя по загрузке оборудования, но pipeline, хотя 700B модель локально поднять удалось в качестве эксперимента.
В принципе заработал vLLM (после релиза 0.18.0) для MoE моделей и Qwen3.5 в частности. До этого можно было запускать только небольшие dense модели.
Заработал кластер на 2-х мини-пк с прямым соединением для Qwen3.5 на 0.18.0 и квантованных моделях, но пока неадекватно медленно
Буквально позавчера вышел vLLM 0.19.0 с существенными оптимизациям под Ryzen, улучшенной поддержкой AWQ квантов и прочими исправлениями для MoE.
При этом одновременно не заработала гипотеза, что можно собрать кластер-звезду для RDMA через компьютер-хаб с выделенной сетевой платой 4*25G.
А у автора есть еще 2 гипотезы для проверки:
Кольцевой кластер из 4-х мини-ПК. Нейронки и документация утверждают, что RCCL (реализация NCCL от AMD), которая как раз обеспечивает кластерную работу GPU, работает по топологии кольцо. Требует проверки и некоторого времени.
Найден и заказан вменяемый по стоимости аппаратный switch c полной поддержкой RDMA.
Все это требует экспериментов и поиска оптимальной конфигурации. Статья пишется буквально по живым nightly обновлениям софта и займет еще какое-то время до запуска стабильной конфигурации кластера хотя бы в формате MVP. Уже очевидно, что оно возможно.
Минутка: краткий статус
Автор бьется с локальным железом, пытаясь собрать кластер из 4-х Ryzen 395 в режиме параллельной обработки. Процесс захватывающий. Железо свежее. Буквально полторы недели назад вообще ничего не работало. Дальше пошел прогресс:
Заработали разные варианты настроек кластера в llama.cpp, но это не полноценный tensor параллелизм, судя по загрузке оборудования, но pipeline, хотя 700B модель локально поднять удалось в качестве эксперимента.
В принципе заработал vLLM (после релиза 0.18.0) для MoE моделей и Qwen3.5 в частности. До этого можно было запускать только небольшие dense модели.
Заработал кластер на 2-х мини-пк с прямым соединением для Qwen3.5 на 0.18.0 и квантованных моделях, но пока неадекватно медленно
Буквально позавчера вышел vLLM 0.19.0 с существенными оптимизациям под Ryzen, улучшенной поддержкой AWQ квантов и прочими исправлениями для MoE.
При этом одновременно не заработала гипотеза, что можно собрать кластер-звезду для RDMA через компьютер-хаб с выделенной сетевой платой 4*25G.
А у автора есть еще 2 гипотезы для проверки:
Кольцевой кластер из 4-х мини-ПК. Нейронки и документация утверждают, что RCCL (реализация NCCL от AMD), которая как раз обеспечивает кластерную работу GPU, работает по топологии кольцо. Требует проверки и некоторого времени.
Найден и заказан вменяемый по стоимости аппаратный switch c полной поддержкой RDMA.
Все это требует экспериментов и поиска оптимальной конфигурации. Статья пишется буквально по живым nightly обновлениям софта и займет еще какое-то время до запуска стабильной конфигурации кластера хотя бы в формате MVP. Уже очевидно, что оно возможно.
Бесплатный
Минутка: Кластер vLLM все же запущен!
Таки локальная, но победа! Qwen3.5-27B на полной точности в кластерном режиме с тензорным параллелизмом на 2х Ryzen AI Max+ 395 с vLLM и Ray. Гайды в сети гайдами, но покопаться пришлось несколько недель.
Следующий этап — запуск MoE версий Qwen’a. 122B-A10B в две ноды будет категорически классным командным решением.
Идеально было бы запустить на 4-х, но тут нужен или коммутатор Mellanox за 500к рублей, или еще 3 карты на 4 порта Intel E810, что тоже не бюджетно. Пока поэкспериментируем с тем, что взлетело.
Детальнее будет в большой статье по кластерам на Strix Halo позже.
Минутка: Кластер vLLM все же запущен!
Таки локальная, но победа! Qwen3.5-27B на полной точности в кластерном режиме с тензорным параллелизмом на 2х Ryzen AI Max+ 395 с vLLM и Ray. Гайды в сети гайдами, но покопаться пришлось несколько недель.
Следующий этап — запуск MoE версий Qwen’a. 122B-A10B в две ноды будет категорически классным командным решением.
Идеально было бы запустить на 4-х, но тут нужен или коммутатор Mellanox за 500к рублей, или еще 3 карты на 4 порта Intel E810, что тоже не бюджетно. Пока поэкспериментируем с тем, что взлетело.
Детальнее будет в большой статье по кластерам на Strix Halo позже.
Бесплатный
Таки локальная
1
Заметки о Qwen3.5 и бенчмарках
Qwen3.5-397B-A17B классный. Задача — подготовить Ansible Playbook для развертывания Gitea и PostgreSQL на домашнем сервере.
Два несложных промпта и результат готов:
Диалог на сайте: https://chat.qwen.ai/s/75c90f17-7016-4fb0-9c24-1f57deed59cb?fev=0.2.14
Так же приложил файлом к посту, если диалог будет недоступен, вполне удобно смотреть в VS Code.
Ранее публиковал ссылку на ArtificialAnalysis.ai, где очень удобно сведены рейтинги LLM с возможностью фильтрации и т. п. Китайцы очень любят все время делать разные сравнения в своих постах и очень сложно сравнивать разные размеры моделей и т. п. Тут же все удобно и в одном месте.
Видно, что по общему рейтингу последний Qwen ну как-то не в топе. Середняк. А по отдельным тестам вообще даже далек до чемпионов.
Есть мнение, что вышел GLM-5 и порвал весь опенсорс по качеству. Возможно и так.
Заметки о Qwen3.5 и бенчмарках
Qwen3.5-397B-A17B классный. Задача — подготовить Ansible Playbook для развертывания Gitea и PostgreSQL на домашнем сервере.
Два несложных промпта и результат готов:
Диалог на сайте: https://chat.qwen.ai/s/75c90f17-7016-4fb0-9c24-1f57deed59cb?fev=0.2.14
Так же приложил файлом к посту, если диалог будет недоступен, вполне удобно смотреть в VS Code.
Ранее публиковал ссылку на ArtificialAnalysis.ai, где очень удобно сведены рейтинги LLM с возможностью фильтрации и т. п. Китайцы очень любят все время делать разные сравнения в своих постах и очень сложно сравнивать разные размеры моделей и т. п. Тут же все удобно и в одном месте.
Видно, что по общему рейтингу последний Qwen ну как-то не в топе. Середняк. А по отдельным тестам вообще даже далек до чемпионов.
Есть мнение, что вышел GLM-5 и порвал весь опенсорс по качеству. Возможно и так.
Бесплатный
Ошибка 403 при обновлении Linux: отключаем Cisco OpenH264 и настраиваем полную поддержку мультимедиа
Из-за блокировки компанией Cisco доступа к своим репозиториям из РФ невозможно нормальное обновление многих Linux дистрибутивов. Получаем 403 ошибку и остановку процесса. Аналогичная проблема есть на SteamOS. Краткая инструкция как исправить на примере Fedora Linux по ссылке: https://www.comss.ru/page.php?id=18518
Краткая выдержка, если с оригиналом что-то случится. Проверено на себе:
Как отключить fedora-cisco-openh264:
sudo sed -i 's/enabled=1/enabled=0/g' /etc/yum.repos.d/fedora-cisco-openh264.repo
Затем:
sudo dnf swap *\openh264\* noopenh264 --allowerasing
Для решения проблемы с приложениями Flatpak:
sudo flatpak mask org.freedesktop.Platform.openh264
Ошибка 403 при обновлении Linux: отключаем Cisco OpenH264 и настраиваем полную поддержку мультимедиа
Из-за блокировки компанией Cisco доступа к своим репозиториям из РФ невозможно нормальное обновление многих Linux дистрибутивов. Получаем 403 ошибку и остановку процесса. Аналогичная проблема есть на SteamOS. Краткая инструкция как исправить на примере Fedora Linux по ссылке: https://www.comss.ru/page.php?id=18518
Краткая выдержка, если с оригиналом что-то случится. Проверено на себе:
Как отключить fedora-cisco-openh264:
sudo sed -i 's/enabled=1/enabled=0/g' /etc/yum.repos.d/fedora-cisco-openh264.repo
Затем:
sudo dnf swap *\openh264\* noopenh264 --allowerasing
Для решения проблемы с приложениями Flatpak:
sudo flatpak mask org.freedesktop.Platform.openh264
Бесплатный
Собираем домашнюю лабораторию
Собираем домашнюю лабораторию
Уже есть подписка?
Платформа Strix Halo, известная как AMD Ryzen AI Max+ 395 на сегодня оптимальный финансово вариант в РФ с точки зрения запуска локального инференса крупных моделей 80-130B с производительностью адекватной для небольших команд. А еще можно собрать кластер на 500Гб VRAM, потратив доступную физлицу сумму денег. Смотрим на приехавшее железо, первые впечатления, нюансы с софтом и измерения производительности.Подпишитесь, чтобы читать далее
Технологичный наблюдатель
ИИ съест пирог ИТ сверху
ИИ съест пирог ИТ сверху
Уже есть подписка?
На архитектуру предприятия, надо смотреть именно как на слоеный пирог на твердой основе. Как будет ИИ проникать в этот слоеный пирог, с какой стороны и с какой скоростью, разберем в материале, а так же любимая картинка автора для объяснения архитектуры фломастером на доске в комплекте.Подпишитесь, чтобы читать далее
Технологичный наблюдатель
Потеря устойчивости как неминуемое следствие технического прогресса
Потеря устойчивости как неминуемое следствие технического прогресса
Уже есть подписка?
Технология не раскрывается сама по себе и может очень долго ждать появления сопутствующих факторов для роста и развития. Никто обычно не задумывается откуда так удачно появился асфальт и помог автомобилям вытеснить лошадей. С ИИ и нейросетями, на самом деле, произошло то же самое. И если асфальт может течь по жаре сам, то про ИИ стоит поговорить отдельно, что же заставляет беспокоиться прямо сегодня.Подпишитесь, чтобы читать далее
Технологичный наблюдатель

На блокировку мессенджеров

На блокировку мессенджеров

Минутка бесплатного ускорения LLM

Минутка бесплатного ускорения LLM

Минутка чистого воздуха на майские праздники

Минутка чистого воздуха на майские праздники

Первомайское. Как технологии нам действительно помогают

Первомайское. Как технологии нам действительно помогают

Локальный инференс для разработки на 1 GPU на железе 2020 года на примере qwen3.6

Локальный инференс для разработки на 1 GPU на железе 2020 года на примере qwen3.6

Минутка внезапного прогресса

Минутка внезапного прогресса

Минутка: запуск 122B модели на GPU с 16GB VRAM или впихнуть невпихуемое

Минутка: запуск 122B модели на GPU с 16GB VRAM или впихнуть невпихуемое

Минутка: Микротик приехал!

Минутка: Микротик приехал!

Минутка: краткий статус

Минутка: краткий статус

Минутка: Кластер vLLM все же запущен!

Минутка: Кластер vLLM все же запущен!

Заметки о Qwen3.5 и бенчмарках

Заметки о Qwen3.5 и бенчмарках

Ошибка 403 при обновлении Linux: отключаем Cisco OpenH264 и настраиваем полную поддержку мультимедиа

Ошибка 403 при обновлении Linux: отключаем Cisco OpenH264 и настраиваем полную поддержку мультимедиа

Собираем домашнюю лабораторию

Собираем домашнюю лабораторию

ИИ съест пирог ИТ сверху

ИИ съест пирог ИТ сверху

Потеря устойчивости как неминуемое следствие технического прогресса

Потеря устойчивости как неминуемое следствие технического прогресса