logo
Technomagix
Technomagix
logo Technomagix

1. 1 | Stable Diffusion: обзор технологии | Курс по Stable Diffusion Automatic

Stable ‎Diffusion‏ ‎был ‎выпущен ‎компанией ‎Stability ‎AI‏ ‎в ‎августе‏ ‎2022‏ ‎года ‎и ‎сразу‏ ‎же ‎приобрел‏ ‎популярность. ‎Для ‎него ‎создано‏ ‎множество‏ ‎плагинов, ‎оболочек,‏ ‎надстроек, ‎генераторов‏ ‎промптов ‎и ‎дополнительных ‎моделей. ‎Чёрт‏ ‎ногу‏ ‎сломит ‎во‏ ‎всём ‎этом‏ ‎многообразии ‎— ‎будем ‎идти ‎по‏ ‎прядку.‏ ‎Начнём‏ ‎с ‎железа.

Требования‏ ‎к ‎оборудованию

Stable‏ ‎Diffusion ‎может‏ ‎работать‏ ‎даже ‎на‏ ‎домашних ‎ПК, ‎оснащенных ‎видеокартой ‎с‏ ‎2 ‎ГБ‏ ‎видеопамяти.‏ ‎Генерация ‎на ‎таком‏ ‎компьютере ‎будет‏ ‎долгой, ‎лучше ‎вовсе ‎не‏ ‎использовать‏ ‎настолько ‎слабые‏ ‎видеокарты ‎и‏ ‎рассмотреть ‎аренду ‎онлайн ‎видеокарты, ‎к‏ ‎этому‏ ‎мы ‎ещё‏ ‎вернёмся ‎чуть‏ ‎позже. ‎6 ‎гигабайт ‎видеопамяти ‎уже‏ ‎приемлемо,‏ ‎но‏ ‎всё ‎ещё‏ ‎мало. ‎Для‏ ‎быстрой ‎и‏ ‎эффективной‏ ‎работы ‎рекомендуется‏ ‎видеокарта ‎с ‎16 ‎ГБ ‎памяти‏ ‎от ‎NVIDIA,‏ ‎это‏ ‎касается ‎не ‎только‏ ‎стейбла, ‎а‏ ‎вообще ‎любых ‎нейронок. ‎Хотите‏ ‎покупать‏ ‎новую ‎видеокарту‏ ‎— ‎берите‏ ‎Nvidia ‎— ‎не ‎ошибетесь. ‎Использование‏ ‎видеокарт‏ ‎других ‎производителей‏ ‎потребует ‎дополнительной‏ ‎настройки.

«У ‎меня ‎лапки, ‎я ‎просто‏ ‎хочу‏ ‎делать‏ ‎картинки ‎и‏ ‎ничего ‎не‏ ‎смыслю ‎в‏ ‎видеокартах».‏ ‎Окей, ‎вот‏ ‎простая ‎инструкция. ‎Просто ‎запустите ‎диспетчер‏ ‎задач ‎и‏ ‎откройте‏ ‎вкладку ‎«производительность».

Альтернативные ‎способы‏ ‎использования

Есть ‎упрощенные‏ ‎способы ‎использовать ‎SD ‎в‏ ‎виде‏ ‎ботов, ‎сайтов,‏ ‎и ‎приложений.‏ ‎Они ‎не ‎требуют ‎установки, ‎но‏ ‎и‏ ‎возможностей ‎там‏ ‎гораздо-гораздо ‎меньше.‏ ‎Например ‎https://www.mage.space/ или ‎https://playground.ai/

Принцип ‎работы

Чекпоинт ‎Stable‏ ‎Diffusion‏ ‎не‏ ‎содержит ‎картинок‏ ‎— ‎это‏ ‎не ‎библиотека‏ ‎и‏ ‎не ‎база‏ ‎знаний. ‎А ‎генерация ‎картинки ‎—‏ ‎не ‎тоже‏ ‎самое‏ ‎что ‎поиск ‎картинки‏ ‎в ‎гугл.‏ ‎Stable ‎Diffusion ‎не ‎создает‏ ‎коллажи‏ ‎из ‎фотографий.‏ ‎SD ‎скорее‏ ‎является ‎подобием ‎глины: ‎как ‎в‏ ‎куске‏ ‎глине ‎нет‏ ‎отдельных ‎рук,‏ ‎ног ‎и ‎голов, ‎так ‎и‏ ‎в‏ ‎Stable‏ ‎Diffusion ‎нет‏ ‎каких-то ‎конкретных‏ ‎частей, ‎но‏ ‎есть‏ ‎потенциальная ‎возможность‏ ‎обрести ‎форму. ‎Конечный ‎результат ‎зависит‏ ‎от ‎мастерства‏ ‎промпт-инженера.‏ ‎От ‎его ‎навыков‏ ‎написания ‎промпта.

Когда‏ ‎я ‎говорю ‎о ‎Stable‏ ‎Diffusion,‏ ‎то ‎имею‏ ‎ввиду ‎триединую‏ ‎систему, ‎состоящую ‎из: ‎языковой ‎модели,‏ ‎диффузионной‏ ‎модели ‎и‏ ‎декодера. ‎В‏ ‎простонародье ‎всё ‎это ‎зовется ‎просто‏ ‎чекпоинтом‏ ‎Stable‏ ‎Diffusion. ‎Да‏ ‎и ‎пофиг‏ ‎как ‎он‏ ‎там‏ ‎устроен, ‎мы‏ ‎рассматриваем ‎стейбл ‎как ‎пользователи ‎и‏ ‎не ‎будем‏ ‎слишком‏ ‎глубоко ‎погружаться ‎в‏ ‎тонкости, ‎но‏ ‎кое-что ‎на ‎курсе ‎я‏ ‎всё‏ ‎же ‎расскажу.‏ ‎Знание ‎базы‏ ‎сделает ‎нас ‎могущественными ‎промпт-шаманами!

Авторские ‎права

Вопрос‏ ‎авторских‏ ‎прав ‎на‏ ‎изображения, ‎сгенерированные‏ ‎с ‎помощью ‎нейронок, ‎остается ‎спорным.‏ ‎В‏ ‎некоторых‏ ‎случаях ‎создатели‏ ‎таких ‎работ‏ ‎могут ‎претендовать‏ ‎на‏ ‎авторские ‎права‏ ‎для ‎коммерческого ‎использования. ‎Однако ‎юридическая‏ ‎практика ‎в‏ ‎этой‏ ‎области ‎еще ‎не‏ ‎устоялась, ‎и‏ ‎иногда ‎суды ‎отказываются ‎признавать‏ ‎авторство‏ ‎за ‎создателями‏ ‎промптов ‎(промпт-инженерами).

Я‏ ‎провёл ‎опрос среди ‎подписчиков ‎своего ‎канала.‏ ‎61%‏ ‎людей ‎не‏ ‎поддержало ‎авторское‏ ‎право ‎на ‎промпт. ‎«За» ‎высказалось‏ ‎20%‏ ‎опрошенных‏ ‎респондентов.

Одна ‎из‏ ‎распространенных ‎точек‏ ‎зрения ‎заключается‏ ‎в‏ ‎том, ‎что‏ ‎Stable ‎Diffusion ‎— ‎это ‎всего‏ ‎лишь ‎инструмент,‏ ‎который‏ ‎выполняет ‎всю ‎работу‏ ‎по ‎генерации‏ ‎изображения, ‎а ‎вклад ‎человека‏ ‎незначителен.‏ ‎Однако ‎то‏ ‎же ‎самое‏ ‎можно ‎сказать ‎и ‎о ‎фотоаппарате.‏ ‎Фотограф‏ ‎нажимает ‎несколько‏ ‎кнопок, ‎а‏ ‎сложный ‎процесс ‎улавливания ‎и ‎преобразования‏ ‎фотонов‏ ‎в‏ ‎пиксели ‎происходит‏ ‎внутри ‎камеры.‏ ‎Фотограф ‎не‏ ‎создает‏ ‎композицию ‎из‏ ‎атомов, ‎а ‎фиксирует ‎существующую ‎реальность.‏ ‎Тем ‎не‏ ‎менее,‏ ‎мы ‎признаем ‎авторские‏ ‎права ‎фотографов‏ ‎на ‎их ‎работы.

Таким ‎образом,‏ ‎можно‏ ‎утверждать, ‎что‏ ‎создатель ‎промпта‏ ‎для ‎Stable ‎Diffusion ‎также ‎вносит‏ ‎творческий‏ ‎вклад, ‎подобно‏ ‎фотографу, ‎который‏ ‎выбирает ‎ракурс, ‎освещение ‎и ‎другие‏ ‎параметры‏ ‎съемки.‏ ‎Генерация ‎изображения‏ ‎с ‎помощью‏ ‎нейросети ‎—‏ ‎это‏ ‎своего ‎рода‏ ‎«фиксация» ‎виртуальной ‎реальности, ‎созданной ‎на‏ ‎основе ‎текстового‏ ‎описания.‏ ‎Следовательно, ‎авторство ‎создателя‏ ‎промпта ‎может‏ ‎быть ‎признано, ‎несмотря ‎на‏ ‎использование‏ ‎автоматизированного ‎инструмента.

Нужно‏ ‎учитывать, ‎что‏ ‎нейронка ‎училась ‎на ‎том, ‎что‏ ‎сделали‏ ‎люди, ‎миллиарды‏ ‎людей. ‎Многие‏ ‎из ‎нас ‎внесли ‎вклад ‎в‏ ‎обучение‏ ‎нейронки,‏ ‎но ‎могут‏ ‎даже ‎не‏ ‎знать ‎об‏ ‎этом.‏ ‎Все ‎мы‏ ‎авторы ‎и ‎учителя ‎для ‎нейронок.‏ ‎Получаем ‎ли‏ ‎мы‏ ‎от ‎этого ‎право‏ ‎на ‎результаты‏ ‎работы ‎нейронных ‎сетей? ‎Что‏ ‎вы‏ ‎думаете ‎об‏ ‎этом?

Особенности ‎генерации

Stable‏ ‎Diffusion ‎имеет ‎ограничения: ‎подвержен ‎социальным‏ ‎предубеждениям,‏ ‎плохо ‎умеет‏ ‎генерировать ‎разборчивый‏ ‎текст, ‎плохо ‎понимают ‎любые ‎языки‏ ‎кроме‏ ‎английского.

Изначально‏ ‎SD ‎был‏ ‎обучен ‎на‏ ‎квадратных ‎изображениях‏ ‎512×512‏ ‎пикселей. ‎Поэтому‏ ‎лучше ‎всего ‎он ‎генерирует ‎картинки‏ ‎с ‎равными‏ ‎пропорциями‏ ‎сторон. ‎При ‎попытке‏ ‎создать ‎прямоугольные‏ ‎изображения ‎с ‎людьми ‎высока‏ ‎вероятность‏ ‎получить ‎«мутантов».‏ ‎Позже ‎мы‏ ‎рассмотрим, ‎как ‎этого ‎избежать.


Читать ‎дальше:‏ ‎1.2 | Как‏ ‎создавался ‎Stable‏ ‎Diffusion?

Предыдущий Следующий
Все посты проекта
0 комментариев

Подарить подписку

Будет создан код, который позволит адресату получить бесплатный для него доступ на определённый уровень подписки.

Оплата за этого пользователя будет списываться с вашей карты вплоть до отмены подписки. Код может быть показан на экране или отправлен по почте вместе с инструкцией.

Будет создан код, который позволит адресату получить сумму на баланс.

Разово будет списана указанная сумма и зачислена на баланс пользователя, воспользовавшегося данным промокодом.

Добавить карту
0/2048