
Идея проекта
В основу идеи проекта был заложен мой веб-комикс «Тираномахия» про особенности диктатуры, как политического режима. Мне захотелось обучить модель StableDiffusion под стилистику этого комикса.
Пример исходных изображений

Персонажи из комикса «Тираномахия»


Полосы из комикса «Тираномахия»

Другой пример изображения, использованного для обучения цвету
В первую очередь было важно, чтобы нейросеть в итоге смогла передавать в генерируемых изображениях фактурность в лицах людей и способ наложения светотени.
Процесс обучения генеративной модели
Для обучения было собрано 13 изображений в одинаковом стиле, обрезанные под размер 1024×1024 пикселей.
Импорт библиотек
Загрузка изображений через встроенную в Google Colab функцию
Вывод превью изображений
Генерация подписей к каждому изображению
Добавление сгенерированного токена для входа в систему Hugging Face
Для обучения модели было выбрано разрешение изображений в 512 пикселей. Для количества шагов обучения я поставила 1000 шагов с автосохранением на каждом 250 шаге.
Обучение модели (общее время тренировки составило чуть более 1 часа)
Загрузка модели на Hugging Face
Генерация изображений
Сгенерированные изображения


Сгенерированное изображение / Оригинальное изображение Промпт — «art in MY OWN STYLE style, Young girl in stylish clothes»
На первом сгенерированной картинке уже можно увидеть похожие пропорции и черты лица у человека, как это изображено у меня. Также модель достаточно удачно проработала светотень.


Сгенерированное изображение / Оригинальное изображение Промпт — «art in MY OWN STYLE style, A girl with long, wavy hair wearing an elegant fantasy dress»
Следующие генерации были направлены на то, чтобы посмотреть как нейросеть сделает цветные изображения. На изображении с девушкой в платье это вышло довольно удачно, несмотря на отсутствие текстурности, общую суть покраса модель все же передала.
Промпты для изображений ниже: — «scientist girl in a laboratory surrounded by high technology and colorful chemical reactions, with a smart and focused expression on her face»; - «a girl in stylish outfit posing against the backdrop of city architecture»; - «a girl doing yoga on the beach during sunset»
Сгенерированные цветные изображения
Что еще можно отметить, так это то, что модель довольно плохо справляется с генерацией людей в количестве более чем два человека на одну картинку. По большей части она изображает их как бы абстрактно и не распознаваемо. Иногда она выделяет одного человека, детально прорабатывая только его.
Промпты для изображений ниже: — «a group of young people having fun at a party»; — «a girl enjoying coffee in a cozy cafe with her friends»; — «a group of street artists creating graffiti on a wall»
Генерация изображений с толпой людей
В остальном нейросеть хорошо справляется с поставленной задачей, генерируя людей по отдельности.


Промпты — «a guy standing on a bridge overlooking the city with a backpack on his back», «a guy sitting by a fire in the forest with a guitar in his hands»


Промпты — «a girl sitting on the shore of a lake with a book in her hands», «a girl in vintage dress, big glasses and bob hair style»


Промпты — «a guy in an elegant suit standing against the background of an old building», «a guy in stylish street clothes sitting on the steps of a building with headphones»
Итог
Анализируя весь проект, можно проследить, что нейросеть была обучена следующему: - Способу покраса; - Принципу наложения черно-белой светотени; - Толщине линий; - Пропорциям людей
Такая практика с обучением нейросетевой модели собственному стилю может помочь в создании каких-либо референсов, на которые можно опираться при работе, однако полноценной заменой это быть никак не может.
Использованные инструменты в проекте:
— ChatGPT 3.5; — Stable Diffusion; — Google Colab; — Hugging Face