Original size 1750x2480

Обучение генеративной нейросети под стиль Джоанны Куинн

PROTECT STATUS: not protected
7

Джоанна Куинн (Joanna Quinn) — британская художница-аниматор, режиссёр и иллюстратор.

Её работы запоминаются своеобразным стилем, похожим на быстрые и экспрессивные карикатурные наброски.

0

Работы Джоанны Куинн

Идея проекта

Как студентка направления «Анимация», я часто обращаю внимание на художественное решение работ различных режиссеров. Работы Джоанны Куинн поразили меня с первого взгляда. Стиль этой художницы очень смелый и экспрессивный: небрежные линии контура, текстура карандаша. Джоанна создает выразительных персонажей иногда слегка преувеличивая их черты. Можно также заметить, что она не боится экспериментировать с ракурсами и формами. Характерной особенностью стиля также являются приглушенные и слегка растушеванные цвета.

big
Original size 2480x815

Кадры из мультфильма «Дела искусства», Джоанна Куинн, 2021

Мне стало интересно проанализировать основные особенности изобразительного стиля Джоанны Куинн и обучить им модель искусственного интеллекта, чтобы затем попробовать создать изображения в похожем стиле.

Так как сейчас в городе постепенно наступает весна, мне захотелось отразить её и в итоговой серии изображений. Таким образом, я постаралась показать в финальной версии картинок героиню, наслаждающуюся цветами и легкостью весенних дней.

big
Original size 1152x648

Работа Джоанны Куинн

Обучение модели

Для обучения модели я взяла 73 изображения Джоанны Куинн. Некоторые иллюстрации были взяты с её сайта, а некоторые изображения были кадрами из её анимационных работ.

Обучение генеративной модели было выполнено в Google Colab.

Работу я начала с загрузки всех необходимых библиотек и обучающего скрипта с GITHUB

Original size 3502x1814

фрагмент кода для проверки использования GPU

Original size 3502x2017

фрагмент кода

Следующим шагом было создание директории и загрузка датасета для обучения модели. С помощью функции image_grid, я проверила успешно ли отображаются загруженные изображения

Original size 3502x872

фрагмент кода

Original size 3502x1801

фрагмент кода

Далее нейросеть должна была проанализировать изображения из датасета и написать для них промпты, для дальнейшего обучения. (Генерация описаний сделана с помощью модели BLIP)

Original size 3502x1764

фрагмент кода

Original size 3502x1476

фрагмент кода, проверка подписей к изображениям

После этого был выполнен сам процесс обучения модели. Он занял у меня около двух часов

Original size 3502x1558

фрагмент кода

Перед обучением я ввела токен, созданный на Hugging Face для записи обучающей модели. И после окончания процесса тренировки, модель была сохранена на там.

Original size 3502x2170

фрагмент кода

Original size 3502x1638

фрагмент кода

Далее я приступила к процессу генерации изображений с помощью промптов

Original size 3502x490

пример кода с промптом

Процесс генерации изображений

Original size 2480x815

изображения, созданные обученной нейросетью

Поначалу нейросеть выдавала очень похожие и слишком гладкие изображения. Однако, в них узнавался характерный стиль Джоанны: округлые черты лица, маленькие глаза и большой пухлый нос, приоткрытый рот, очки и рыжие волосы.

Промпты: — a girl is studying — a young girl is talking on the phone — a woman is hugging a dog

Original size 2480x1228

изображения, созданные обученной нейросетью

Некоторые изображения получались более экспрессивными.

Промпты: — a man is screaming — a woman is smiling

Поэкспериментировав с настройками модели lora, удалось немного скорректировать стиль рисовки.

Original size 2480x1228

изображения, созданные обученной нейросетью

Герои на изображениях стали чуть более эмоциональными, и характер линии стал сильнее походить на набросок.

Промпты: — a sad woman — a woman is singing

Original size 2480x815

изображения, созданные обученной нейросетью

Данные изображения я генерировала для того, чтобы понять, как нейросеть изображает яркие эмоции персонажей.

Промпты: — a man is screaming — a woman is angry — a young girl is talking on the phone

Original size 2480x1228

изображения, созданные обученной нейросетью

Промпты: — a woman is hugging a dog — a woman is dancing on the disco

Также мне стало интересно, как нейросеть изобразит животных, ведь в датасете было несколько иллюстраций с собаками. В результате изображения получились лишь отдалённо похожими на стиль Джоанны, мало стилизованными. Однако, в общем нейросеть сохранила особенности стиля: множественные линии и мягкие цвета

Промпты: — a dog is smiling — a dog is hunting

Original size 2480x1228

изображения, созданные обученной нейросетью

После этого, мне показалось, что создаваемые нейросетью картинки имеют достаточно скучную композицию. Я попробовала изменить настройки модели и пришла к оптимальному варианту

Original size 2480x1228

изображения, созданные обученной нейросетью

Промпты: — a woman is smiling — a woman is angry

Иллюстрации стали приобретать более скетчевый характер, становиться ещё экспрессивнее и разнообразнее. Так, например появились разные ракурсы.

Original size 2480x1228

изображения, созданные обученной нейросетью

Промпты: — a drawing of a woman with green hair and glasses — a drawing of a man hugging a woman

На данном этапе, я решила больше не менять настроек модели и приступить к генерации финальной серии изображений. Для них я решила выбрать одного персонажа, которого нейросеть создавала ранее —рыжеволосую девушку в очках.

Original size 2480x815

изображения, созданные обученной нейросетью

Промпты: — a drawing of a woman smiling holding flowers — a drawing of a woman with red hair, glasses, holding flowers — a drawing of a woman with red hair, glasses, feeding birds from hand

Интересной задачей, на мой взгляд, было создание цветов на изображениях, ведь изначально модель не была обучена их рисовать. Однако, как можно заметить, с этим ей удалось справиться хорошо.

Original size 2480x1228

изображения, созданные обученной нейросетью

Промпты: — a drawing of a woman with red hair, glasses, round nose, collecting flowers — a drawing of a woman with red hair, glasses, round nose, collecting flowers from the ground

Original size 2480x815

изображения, созданные обученной нейросетью

Генерации изображений в ванной и на велосипеде тоже были экспериментальными, так как модель не была обучена такому окружению. Несмотря на это, нейросеть создала очень похожие на стиль Джоанны изображения.

Промпты: — a drawing of a woman with red hair, with two ponytails on her head, wearing glasses, walks unsteadily on a bicycle — a drawing of a woman with red hair, glasses, taking a bath — a drawing of a woman with red hair, glasses, looking through the window at the park

Итоговая серия изображений

Original size 3500x3356

серия изображений, созданных обученной нейросетью

Подводя итог, можно сказать, что обученной нейросети удалось уловить характерные черты стиля Джоанны Куинн. На сгенерированных изображениях получалось передать выразительных персонажей, показывающих яркие эмоции. Нейросеть сохраняла приглушенную цветовую гамму и определенный скетчевый характер рисовки. Также стоит обратить внимание на анатомию персонажей: у модели получилось повторить округлую форму лица, носа и маленьких глаз. Кроме того, нейросети часто удавалось сделать похожую рисовку рта: либо маленького, либо широко улыбающегося с зубами.

Однако, есть и то, в чем модель может быть улучшена. Во-первых, это резкость изображений и улучшение работы с фактурой бумаги и карандаша. Во-вторых, это работа с композицией и ракурсами — с выразительной точки зрения, нейросеть пока проигрывает настоящим рисункам автора.

Несмотря на некоторые недочеты, я полагаю, что обученная мною модель создала хорошую серию иллюстрации, передающих весеннее настроение. Данные картинки могут быть в дальнейшем использованы для создания открыток и стикеров.

Описание применения генеративной модели

Stable Difffusion — применялась для обучения модели стилю Джоанны Куинн

BLIP — применялось для генерации промптов к датасету для обучения

Обучение генеративной нейросети под стиль Джоанны Куинн
7
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more