
Идея проекта
Для обучения нейросети StableDiffusion я решила взять арты и скриншоты из видео аниматорки и художницы под псевдонимом vewn. Ее работы отличаются специфичной манерой рисования персонажей, искаженной перспективой пространства, обилием ярких цветов и детализацией. Мне было интересно, насколько хорошо нейросеть сможет воспроизвести все эти приемы, в особенности искажение перспективы.
Изображения
Арты для датасета были взяты со страницы художницы в tumblr, скриншоты из анимационных роликов — из Pinterest. Присутствуют изображения с разной степенью насыщенности деталями, изображения как с персонажами, так и только окружающей среды.
https://drive.google.com/drive/folders/1OTUqwyBlWTGnNcqZbyVY993XoZWay0R3?usp=drive_link




Использованные инструменты
1. Stable Diffusion 2. Google Colab 3. Hugging Face 4. ChatGPT 4 (генерация промптов)
Подготовка датасета
Подготовительный этап перед самим обучением по датасету состоял из: 1. Загрузки необходимых библиотек; 2. Загрузки изображений и проверки их читаемости; 3. Генерации подписей для изображений; 4. Введения токена Hugging Face.

Установка библиотек
Загрузка изображений (44 штуки)
Проверка читаемости файлов изображений
Создание подписей для изображений…
…и сами итоговые подписи. Визуальное наполнение артов было определено корректно.
Обучение нейросети
Далее был сгенерирован токен Hugging Face и произведен вход в систему с его помощью, после чего можно было приступать к самому обучению. Для ускорения процесса я сократила разрешение изображений до 512 пикселей, выставила максимальный шаг на 500, чекпоинт — на 250. С такими параметрами обучение по 44 изображениям заняло примерно 45 минут.
Первая итерация
Для генерации изображений в качестве промптов я сначала использовала ранее созданные подписи к артам из датасета.


Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon character sleeping on a bed


Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon of a woman in a messy kitchen


Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon of a city with buildings and a red sky
Первоначальные генерации оказались неудовлетворительными как по содержанию изображения, так и по цветам. Было принято решение попробовать исправить ситуацию за счет коррекции самого датасета: я убрала изображения с чрезмерным количеством мелких объектов в окружении (поскольку нейросеть интерпретировала эту отличительную черту слишком буквально), а также изображения, слишком выбивающиеся из типичной цветовой гаммы vewn. По итогу в новом датасете осталось 25 изображений, и я заново запустила процесс обучения.
Вторая итерация


Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon character is walking through a narrow alley


Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a woman sitting at a desk with a computer


Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon character sleeping on a bed


Сгенерированное изображение и арт художницы; промпт: art in VEWN style, a cartoon of a woman in a messy kitchen
Новые генерации получились получше: изображения больше не состояли из нечитаемого нагромождения фрагментов объектов, цвета перестали быть «мыльными», хотя доминирующим цветом стал розовый. Нейросеть хорошо смогла уловить такие нюансы стиля художницы, как небрежный лайн-арт и искаженная перспектива. К сожалению, на многих изображениях все еще присутствуют излишние детали, нагромождающие пространство, а также наблюдается проблема с человеческими лицами.
Третья итерация
Для третьей итерации обучения модели максимальный шаг был выставлен на 1000, чекпоинт — на 500. Также я попробовала использовать более подробные промпты, сгенерированные с помощью ChatGPT. Использование негативных промптов приводило к сильному расхождению со стилем vewn, поэтому от них пришлось отказаться.


промпт: art in VEWN style, surreal cartoon room with muted neon tones, a small anthropomorphic cat character lying on a bed with a star-covered blanket, overhead perspective, distorted perspective, exaggerated proportions, nostalgic and moody atmosphere, messy room with scattered books, an old TV, odd furniture angles, pink and purple lighting, expressive minimalist character design


промпт: art in VEWN style, vibrant and surreal cartoon bedroom scene, a girl with blue hair sitting on the floor playing video games, retro TV glowing with stylized characters, room full of bottles, books, posters of pop figures and stars, edgy, distorted proportions, warm and moody lighting with purples, oranges, and reds, expressive linework, chaotic but cozy atmosphere, exaggerated facial expressions, alternative indie animation vibe


промпт: art in VEWN style, teenage girls relaxing in a colorful desert landscape, distorted perspective, exaggerated long limbs and expressive eyes, vibrant warm colors, sunset, whimsical background details, retro-futuristic fashion with hair bows and sporty outfits, bandaids and subtle tattoos, cartoonish clouds and bright sun, dreamy and nostalgic mood
Результат еще немного улучшился, появилось разнообразие цветов, правильные лица, детали до сих пор присутствуют в большом количестве, однако теперь не выглядят совершенно бессмысленным нагромождением одних и тех же объектов.
В сравнении с изображениями персонажей, гораздо лучше получилось сгенерировать городские пейзажи:


промпт: art in VEWN style, surreal urban night scene with crooked, colorful buildings lining a narrow street, exaggerated perspective and warped architecture, sharp angles, vibrant pastel hues with contrasting shadows, thick sketchy outlines, abstract white crescent moon in a black crosshatched sky, dreamlike atmosphere with an eerie, lonely vibe, 2D animation aesthetic, bold composition, hand-drawn details, cartoon surrealism


промпт: art in VEWN style, surreal cartoon cityscape with tilted, angular buildings and exaggerated perspectives, bright saturated colors, whimsical architecture, hand-drawn textures, minimal shading, vibrant blue sky with a stylized orange sun, expressive and dynamic composition, inspired by 90s underground animation and indie cartoons
Как итог, получилось сымитировать: 1. Стиль лайн-арта; 2. Искаженная перспектива; 3. Цвета; 4. Детализация.
Не получилось: 1. Совладать с излишней детализацией и перенасыщенностью объектами, которые вызвали множество артефактов в итоговых изображениях; 2. Правильная анатомия.