Original size 768x1024

Обучение генеративной нейросети Stable Diffusion под стиль vewn

Идея проекта

Для обучения нейросети StableDiffusion я решила взять арты и скриншоты из видео аниматорки и художницы под псевдонимом vewn. Ее работы отличаются специфичной манерой рисования персонажей, искаженной перспективой пространства, обилием ярких цветов и детализацией. Мне было интересно, насколько хорошо нейросеть сможет воспроизвести все эти приемы, в особенности искажение перспективы.

Изображения

Арты для датасета были взяты со страницы художницы в tumblr, скриншоты из анимационных роликов — из Pinterest. Присутствуют изображения с разной степенью насыщенности деталями, изображения как с персонажами, так и только окружающей среды.

https://drive.google.com/drive/folders/1OTUqwyBlWTGnNcqZbyVY993XoZWay0R3?usp=drive_link

Использованные инструменты

1. Stable Diffusion 2. Google Colab 3. Hugging Face 4. ChatGPT 4 (генерация промптов)

Подготовка датасета

Подготовительный этап перед самим обучением по датасету состоял из: 1. Загрузки необходимых библиотек; 2. Загрузки изображений и проверки их читаемости; 3. Генерации подписей для изображений; 4. Введения токена Hugging Face.

Original size 1678x983

Установка библиотек

Original size 1672x569

Загрузка изображений (44 штуки)

Original size 2054x1123

Проверка читаемости файлов изображений

Original size 1996x852

Создание подписей для изображений…

Original size 2152x1193

…и сами итоговые подписи. Визуальное наполнение артов было определено корректно.

Обучение нейросети

Далее был сгенерирован токен Hugging Face и произведен вход в систему с его помощью, после чего можно было приступать к самому обучению. Для ускорения процесса я сократила разрешение изображений до 512 пикселей, выставила максимальный шаг на 500, чекпоинт — на 250. С такими параметрами обучение по 44 изображениям заняло примерно 45 минут.

Original size 2476x1200

Первая итерация

Для генерации изображений в качестве промптов я сначала использовала ранее созданные подписи к артам из датасета.

Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon character sleeping on a bed

Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon of a woman in a messy kitchen

Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon of a city with buildings and a red sky

Первоначальные генерации оказались неудовлетворительными как по содержанию изображения, так и по цветам. Было принято решение попробовать исправить ситуацию за счет коррекции самого датасета: я убрала изображения с чрезмерным количеством мелких объектов в окружении (поскольку нейросеть интерпретировала эту отличительную черту слишком буквально), а также изображения, слишком выбивающиеся из типичной цветовой гаммы vewn. По итогу в новом датасете осталось 25 изображений, и я заново запустила процесс обучения.

Вторая итерация

Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon character is walking through a narrow alley

Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a woman sitting at a desk with a computer

Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon character sleeping on a bed

Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon of a woman in a messy kitchen

Новые генерации получились получше: изображения больше не состояли из нечитаемого нагромождения фрагментов объектов, цвета перестали быть «мыльными», хотя доминирующим цветом стал розовый. Нейросеть хорошо смогла уловить такие нюансы стиля художницы, как небрежный лайн-арт и искаженная перспектива. К сожалению, на многих изображениях все еще присутствуют излишние детали, нагромождающие пространство, а также наблюдается проблема с человеческими лицами.

Третья итерация

Для третьей итерации обучения модели максимальный шаг был выставлен на 1000, чекпоинт — на 500. Также я попробовала использовать более подробные промпты, сгенерированные с помощью ChatGPT. Использование негативных промптов приводило к сильному расхождению со стилем vewn, поэтому от них пришлось отказаться.

промпт: art in VEWN style, surreal cartoon room with muted neon tones, a small anthropomorphic cat character lying on a bed with a star-covered blanket, overhead perspective, distorted perspective, exaggerated proportions, nostalgic and moody atmosphere, messy room with scattered books, an old TV, odd furniture angles, pink and purple lighting, expressive minimalist character design

промпт: art in VEWN style, vibrant and surreal cartoon bedroom scene, a girl with blue hair sitting on the floor playing video games, retro TV glowing with stylized characters, room full of bottles, books, posters of pop figures and stars, edgy, distorted proportions, warm and moody lighting with purples, oranges, and reds, expressive linework, chaotic but cozy atmosphere, exaggerated facial expressions, alternative indie animation vibe

промпт: art in VEWN style, teenage girls relaxing in a colorful desert landscape, distorted perspective, exaggerated long limbs and expressive eyes, vibrant warm colors, sunset, whimsical background details, retro-futuristic fashion with hair bows and sporty outfits, bandaids and subtle tattoos, cartoonish clouds and bright sun, dreamy and nostalgic mood

Результат еще немного улучшился, появилось разнообразие цветов, правильные лица, детали до сих пор присутствуют в большом количестве, однако теперь не выглядят совершенно бессмысленным нагромождением одних и тех же объектов.

В сравнении с изображениями персонажей, гораздо лучше получилось сгенерировать городские пейзажи:

промпт: art in VEWN style, surreal urban night scene with crooked, colorful buildings lining a narrow street, exaggerated perspective and warped architecture, sharp angles, vibrant pastel hues with contrasting shadows, thick sketchy outlines, abstract white crescent moon in a black crosshatched sky, dreamlike atmosphere with an eerie, lonely vibe, 2D animation aesthetic, bold composition, hand-drawn details, cartoon surrealism

промпт: art in VEWN style, surreal cartoon cityscape with tilted, angular buildings and exaggerated perspectives, bright saturated colors, whimsical architecture, hand-drawn textures, minimal shading, vibrant blue sky with a stylized orange sun, expressive and dynamic composition, inspired by 90s underground animation and indie cartoons

Как итог, получилось сымитировать: 1. Стиль лайн-арта; 2. Искаженная перспектива; 3. Цвета; 4. Детализация.

Не получилось: 1. Совладать с излишней детализацией и перенасыщенностью объектами, которые вызвали множество артефактов в итоговых изображениях; 2. Правильная анатомия.

Ссылка на блокнот: https://colab.research.google.com/drive/17ZJCOfRsvFfUdNQXlbiZpP_u_9DKo2x7?usp=sharing

Обучение генеративной нейросети Stable Diffusion под стиль vewn

Natalya Abadzhidi

artificial intelligence

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...