Original size 776x1024

Обучение нейросети в стиле художницы Suzukannn

Концепция

Suzukannn — японская художница, работающая в ярком, словно сахарном стиле. Ее работы выделяются насыщенной, переливающейся цветовой палитрой — сочные, нежные оттенки напоминают витрину с конфетами. Хотя ее стиль близок к аниме, он остается уникальным и легко узнаваемым благодаря множеству выразительных деталей.

Иллюстрации Suzukannn кажутся перегруженными на первый взгляд — в них действительно много разных элементов, эффектов и декоративных форм. Но все это мастерски скомпоновано: несмотря на сложность, композиции выглядят гармонично и цельно.

И вот, просматривая ленту Pinterest в поисках вдохновения, меня невероятно зацепили работы этой художницы, и мне захотелось научить генеративную модель создавать иллюстрации в таком же или очень похожем стиле.

Исходные изображения

Для работы над проектом было отобрано 43 работы художницы. Большая их часть — портреты, однако есть несколько иллюстраций по колено и несколько — где 2 или 3 девушки. Все картинки приведены к разрешению 512×512 p.

Original size 2000x2000

Исходные фотографии

Обучение модели

Original size 656x432

Original size 619x92

Настройка модели состояла из нескольких этапов, среди которых сбор и обработка (приведение их к разрешению 512×512p) датасета иллюстраций художницы Suzukannn, обучение модели с использованием Stable Diffusion и применение методов DreamBooth и LoRA. Сперва модель была обучена на 500 шагах, однако результат был менее удачным, поэтому она была переобучена на 1000 шагах.

Сначала для каждой картинки количество шагов генерации было 20, однако результат имел слишком много проблем, поэтому шаги были увеличены до 40.

Итоговые изображения

В качестве первых промптов для понимания, уловила ли нейросеть нужный стиль, я решила создать серию изображений милых девушек. Дело в том, что Suzukannn рисует только их, следовательно и датасет для обучения состоял только из подобного контента.

Промпты были простые, в них указывался только цвет волос и цвет глаз.

Видно, что генеративная модель смогла уловить стиль художницы — большие сверкающие глаза, плавные линии, динамичная обводка, нежные цвета, миловидность, румяна с сердечками, а также способ накладывания света и теней. Более того, на сгенерированных иллюстрациях часто заметна шляпа с бантом — в датасете было много картинок с таким элементом одежды, поэтому и модель стала часто их добавлять.

Тем не менее, из недостатков можно отметить кривые рты и нелогичность расположения одежды и прядей волос, а также количество пальцев зачастую превышает биологическую норму. Также иногда появляются мелкие, невнятные артефакты на волосах и лице. Думаю, эта проблема была бы решена большим количеством изображений для обучения.

И мне кажется, что генеративная модель не может так же изящно использовать разные цвета, как японская художница.

Два и больше персонажей

Я также решила посмотреть, получится ли у данной модели делать картинки с двумя или тремя девушками. В первом случае она соединяла их, получая сиамских близнецов. Во втором же случае получалось просто много голов. Также постоянно появлялось очень много артефактов, в основном связанных с одеждой.

На половину в стиле Suzukannn

Я также решила посмотреть, что получится, если стиль художницы будет применен всего на половину.

Результат мне понравился, получилось меньше артефактов. Элементы стиля Suzukannn, а именно большие искрящиеся глаза, румяна, лайн, банты, локоны — сохранились. Однако стиль покраса теперь напоминает акварельный, сердечки на щеках отсутствуют, да и лицо персонажей теперь выглядит менее детским.

Ссылка на код

Ссылка на Hugging Face

Генеративные модели

Для дообучения и создания изображений использовался Stable Diffusion.

Обучение нейросети в стиле художницы Suzukannn

Svetlana Demakova

artificial intelligence

neural network

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...