Original size 1140x1600

Обучение генеративной нейросети StableDiffusion под комикс «Тираномахия»

Идея проекта

В основу идеи проекта был заложен мой веб-комикс «Тираномахия» про особенности диктатуры, как политического режима. Мне захотелось обучить модель StableDiffusion под стилистику этого комикса.

Подробнее про проект

Пример исходных изображений

Original size 1024x1024

Персонажи из комикса «Тираномахия»

Полосы из комикса «Тираномахия»

Original size 1280x773

Другой пример изображения, использованного для обучения цвету

В первую очередь было важно, чтобы нейросеть в итоге смогла передавать в генерируемых изображениях фактурность в лицах людей и способ наложения светотени.

Процесс обучения генеративной модели

Для обучения было собрано 13 изображений в одинаковом стиле, обрезанные под размер 1024×1024 пикселей.

Original size 1433x751

Импорт библиотек

Original size 1225x767

Загрузка изображений через встроенную в Google Colab функцию

Original size 1483x763

Вывод превью изображений

Генерация подписей к каждому изображению

Original size 1139x409

Добавление сгенерированного токена для входа в систему Hugging Face

Для обучения модели было выбрано разрешение изображений в 512 пикселей. Для количества шагов обучения я поставила 1000 шагов с автосохранением на каждом 250 шаге.

Original size 1065x539

Обучение модели (общее время тренировки составило чуть более 1 часа)

Original size 1437x719

Загрузка модели на Hugging Face

Original size 1471x757

Генерация изображений

Ссылка на блокнот с кодом

Сгенерированные изображения

Сгенерированное изображение / Оригинальное изображение Промпт — «art in MY OWN STYLE style, Young girl in stylish clothes»

На первом сгенерированной картинке уже можно увидеть похожие пропорции и черты лица у человека, как это изображено у меня. Также модель достаточно удачно проработала светотень.

Сгенерированное изображение / Оригинальное изображение Промпт — «art in MY OWN STYLE style, A girl with long, wavy hair wearing an elegant fantasy dress»

Следующие генерации были направлены на то, чтобы посмотреть как нейросеть сделает цветные изображения. На изображении с девушкой в платье это вышло довольно удачно, несмотря на отсутствие текстурности, общую суть покраса модель все же передала.

Промпты для изображений ниже: — «scientist girl in a laboratory surrounded by high technology and colorful chemical reactions, with a smart and focused expression on her face»; - «a girl in stylish outfit posing against the backdrop of city architecture»; - «a girl doing yoga on the beach during sunset»

Сгенерированные цветные изображения

Что еще можно отметить, так это то, что модель довольно плохо справляется с генерацией людей в количестве более чем два человека на одну картинку. По большей части она изображает их как бы абстрактно и не распознаваемо. Иногда она выделяет одного человека, детально прорабатывая только его.

Промпты для изображений ниже: — «a group of young people having fun at a party»; — «a girl enjoying coffee in a cozy cafe with her friends»; — «a group of street artists creating graffiti on a wall»

Генерация изображений с толпой людей

В остальном нейросеть хорошо справляется с поставленной задачей, генерируя людей по отдельности.

Промпты — «a guy standing on a bridge overlooking the city with a backpack on his back», «a guy sitting by a fire in the forest with a guitar in his hands»

Промпты — «a girl sitting on the shore of a lake with a book in her hands», «a girl in vintage dress, big glasses and bob hair style»

Промпты — «a guy in an elegant suit standing against the background of an old building», «a guy in stylish street clothes sitting on the steps of a building with headphones»

Итог

Анализируя весь проект, можно проследить, что нейросеть была обучена следующему: - Способу покраса; - Принципу наложения черно-белой светотени; - Толщине линий; - Пропорциям людей

Такая практика с обучением нейросетевой модели собственному стилю может помочь в создании каких-либо референсов, на которые можно опираться при работе, однако полноценной заменой это быть никак не может.

Использованные инструменты в проекте:

— ChatGPT 3.5; — Stable Diffusion; — Google Colab; — Hugging Face

Обучение генеративной нейросети StableDiffusion под комикс «Тираномахия»

Alisa Shirokih

artificial intelligence

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...