Original size 2480x3500

Сравнительный анализ возможностей нейросетей для генерации изображений

Обучение модели нейросети определенному стилю

This project is a student project at the School of Design or a research project at the School of Design. This project is not commercial and serves educational purposes

Original size 1106x114

В прошлых примерах были разобраны единичные генерации по промту. Но что, если генераций в одном стиле нужно гораздо больше? К примеру, двадцать иллюстраций сделать вручную будет намного проблематичнее, поскольку они будут слишком идентичны друг другу, или наоборот, непохожи вовсе. Для решения этой проблемы есть обучаемые генеративные модели. Такую модель можно обучить любому стилю, будь это определенная стилизация, цветокоррекция из фильма, графика и так далее.

Для наглядного примера за основу был взят художник Graham Yarrington. Его работы нельзя перепутать ни с чем. Они сильно отличаются от многих других своей техникой, абстракцией совмещенной с четкими объектами, безликими, но яркими персонажами, и тем, как художник использует цвета в иллюстрациях.

Взятые за основу иллюстрации художника Graham Yarrington

Original size 1114x432

Иллюстрации художника Graham Yarrington

Original size 1114x432

Иллюстрации художника Graham Yarrington

Original size 1114x432

Иллюстрации художника Graham Yarrington

Художник использует загадочные образы и яркие цвета на темном фоне, делая акцент на важные детали. В дополнение ко всему картины созданы на бумаге в акварельной технике со смесью графики. Детали на фоне чаще всего имеют округлую обтекаемую форму. Черно-белые объекты выделяются или, наоборот, приглушаются использованием контраста — важные детали, или объекты переднего плана черные, другие же серые, плавно перетекающие в белый.

Перечисленные детали являются выделяющимися в его технике, что важно отметить для того, чтобы сравнить результаты генераций и исходных изображений.

Пробная генерация до обучения модели

Original size 1368x768

Изображение, сгенерированное нейросетью Stable Diffusion

Original size 1368x768

Изображение, сгенерированное нейросетью Stable Diffusion

В изображениях есть частичка стиля художника, но она практически незаметна. Нет акварельной техники; цвета хоть и похожи, но используются совершенно по-другому, нет плавности и градиентов из оригинала. В полученных генерациях нет абстракции, детали сделаны слишком «правильно», практически уходя в реализм. При этом формы объектов довольно простые. Модель очень быстро сделала генерации, но результат получился неудовлетворяющим.

Для наглядного примера разницы в генерациях за основу для ручного обучения будет взята та же модель — Stable Diffusion.

Серия сгенерированных изображений обученной модели

Изображения, сгенерированные обученной моделью

Уже с первых генераций можно увидеть, что обученная модель прекрасно переняла стиль художника, остались его узнаваемые штрихи, цветовые решения и техника. Объекты больше не выбиваются из общей картины, присутствуют акварельные разводы и градиенты цветов, как у оригинальных работ. Генерации выглядят не как компьютерная графика, а как рисунки на бумаге. Разница между результатами обычной и обученной модели видна невооруженным глазом.

Original size 1024x1024

Изображение, сгенерированное обученной моделью

Изображения, сгенерированные обученной моделью

Обученная модель хорошо генерирует четкие образы, совмещенные с абстрактным фоном. В некоторых местах присутствуют артефакты, но они незначительные и легко исправляются.

Изображения, сгенерированные обученной моделью

С помощью промта можно получить похожие изображения, где в одном будут яркие цвета, а в другом — черно-белая картинка.

Изображения, сгенерированные обученной моделью

При регуляции силы, с которой применяется стиль для разнообразия итоговых изображений, можно получить как более реалистично детализированную генерацию, представленную справа, так и чисто стилистическое изображение, представленное слева.

Original size 1024x1024

Изображение, сгенерированное обученной моделью

Портрет девушки получился в таком же стиле, как и у художника. Далее я решила поэкспериментировать, добавив больше цветов, неприсущих оригинальным изображениям. Этот изменило общий образ генераций, но стиль художника еще оставался узнаваемым

Изображения, сгенерированные обученной моделью

Иногда полученные результаты выглядят лучше и более четко, когда на изображении меньше людей или объектов, но, даже при результате, представленном справа, силуэты всё еще узнаваемы.

Изображения, сгенерированные обученной моделью

Original size 1024x1024

Изображение, сгенерированное обученной моделью

Обученная модель также отлично генерирует абстрактные изображения в стиле художника. Один и тот же промт может создать и абстракцию, и более четкие силуэты, не меняя при этом цветовое решение и общую стилистику.

Изображения, сгенерированные обученной моделью

Помимо хороших генераций, есть также не очень удавшиеся результаты, но они встречаются довольно редко. Стилистика всё еще правильная, но на изображениях много артефактов, косо расположенных объектов и лишних деталей с поплывшей формой. Тем не менее, даже такие генерации намного убедительнее, чем генерации до обучения модели.

Процесс обучения модели

Original size 1111x326

В качестве среды для выполнения обучения нейросети был выбран GoogleColab, так как он более удобен и позволяет работать на GPU.

Перед началом работы нужно было установить необходимые библиотеки, а также собрать больше десяти определенных иллюстраций, на которых модель в дальнейшем будет обучаться.

Таким образом, были подгружены необходимые скрипты и изображения в формате [1:1] в виде датасета для дальнейшего анализа.

Original size 1018x307

Original size 1018x191

Original size 1152x492

Следующим действием было создание префикса. Префикс необходим для того, чтобы нейросеть запомнила определенную стилистику и смогла обучиться. В дальнейшем модель, опираясь на определенные слова из промта, будет генерировать похожие по стилю изображения.

Original size 1152x372

После завершения предыдущих действий можно было приступить к обучению модели. Этот процесс при средних настройках занял около часа. Когда обучение окончилось, необходимо было использовать созданный ранее префикс для генерации последующих изображений в обученном стиле.

Original size 715x97

Original size 715x404

Во время генерации изображений можно возвращаться на разные чекпоинты, позволяющие смешивать силу, с которой применяется обученная моделью стилистика для разнообразия итоговых изображений или созданию новых.

Original size 995x270

Original size 1723x102

Дополнительный пример обучения модели определенному стилю

Для дополнительного примера я сгенерировала изображение с другим стилем с помощью стандартной модели Stable Diffusion.

Original size 1113x803

Изображение, сгенерированное нейросетью Stable Diffusion

Далее я повторила ранее описанные действия, обучив модель этому стилю. С помощью смешения силы применяемой стилистики я сгенерировала новые изображения, оставив три основных цвета, и подкорректировала пикселизацию.

Изображения, сгенерированные обученной моделью

Все изображения получились в одной стилистике и цветовой гамме. Некоторые генерации повторяют сюжет предыдущих, при этом дополняя его. Другие же отличаются по сюжету, но выдержаны в том же стиле. Таких генераций можно сделать бесчисленное множество, и все они не будут выбиваться из общей картины, что еще раз доказывает огромный плюс обучения моделей самостоятельно.

Вывод

В процессе работы стало понятно, что модель можно доучить под определенный стиль благодаря коду. Сравнивая картины автора и генерации, можно сделать вывод, что обучение прошло очень неплохо, генерации адаптировались под определенную стилистику. Изображения стали выглядеть похоже на оригинальные, в отличие от первоначальных генераций модели без предварительного обучения, где стилистика едва считывалась.

Процесс обучения займет больше времени, чем обычные генерации по промту или референсу, но результат окажется более впечатляющий и будет работать в долгосрочной перспективе.

Обучение модели нейросети определенному стилю

Daria Egorovskaya

graduation visual research

profile: animation, cgi and vfx

Chapter:

More projects in graduation visual research

Жест направляет взгляд: протокураторство

Anna Derizyukova

Образы отдыха: визуальные коды рекреации в СССР XX в.

Ksenia Saburova

От ошибки к методу: эволюция восприятия оптических иллюзий

Evgeniy Gorbachev

4 способа подать себя аудитории без слов

Mayya Timoshina

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...