Обучение генеративной нейросети под стиль Тима Бёртона на HSE Design

Мультфильмы Тима Бёртона выходили более 20 лет назад, однако стиль режиссера до сих пор остается самым узнаваемым и уникальным в индустрии.

Главные задачи проекта — обучить модель Stable Diffusion для генерации изображений в стиле мультфильмов Тима Бёртона и создать изображения, близкие по атмосфере к произведениям автора.

Для обучения и генерации изображений использовались порталы kaggle, hugging face, а также заранее собранный пользовательский датасет.

/подготовка пользовательского датасета/

Исходный размер 4758x2270

Часть датасета

Для датасета было собрано 50 кадров из нескольких мультфильмов Бёртона: «Труп невесты», «Франкенвини», «Девять», «Кошмар перед рождеством». Каждая кинокартина отражает особенности стиля режиссера, что важно при обучении нейросети.

/результирующая серия изображений/

Исходный размер 3383x1600

Промт: «photo in BURTON style, a Gothic girl in a long black lace dress, standing against the background of an ancient castle, with long wavy hair and expressive eyes»

Итоговые изображения были сгенерированы так, чтобы не только отразить результаты обучения модели, но и передать дух мультфильмов режиссера.

Важно было отобразить стилистические особенности в изображении персонажей: большая голова, длинная шея, округлые глаза, узкий подбородок, астеническое телосложение.

Исходный размер 5165x1600

Промт: «photo in BURTON style, a young vampire with pale skin and bright red eyes, dressed in a classic black suit with lace detail under a full moon»

Исходный размер 3383x1600

Промт: «photo in BURTON style, a magician with a long robe, standing on an ancient cemetery tile, old books scattered around»

Особые детали, отсылающие к атмосфере мультфильмов Бёртона: мистичность, одежда в викторианском стиле, фарфоровая кожа, мрачные сюжеты, дополняющие образы жутких «кукольных» персонажей.

Исходный размер 4758x1094

Промт: «photo in BURTON style, a young witch studying ancient scrolls in a gloomy library, surrounded by books and sinister symbols, with spiders and candles burning around her in a hand-drawn style»

Исходный размер 3383x1600

Промт: «photo in BURTON style, a mysterious alchemist in his laboratory, surrounded by flasks»

Самая большая проблема, которая возникла — это руки. Сыграло свою роль то, что на нескольких кадрах в датасете у персонажей действительно руки или обломаны, или они представлены в виде костей, что нейросеть и пыталась повторить. Однако, я считаю, что кривизна рук и множество пальцев очень подходят данной серии изображений и делают ее только мрачнее.

Исходный размер 5165x1600

Промт: «photo in BURTON style, a Goth girl standing surrounded by fog on a bridge that leads to an abandoned fortress»

Интересно то, что обученная модель очень хорошо передала даже текстуру волос, которая состоит будто из шерстяных ниток, прикрепленных к кукольной голове.

Исходный размер 3383x1600

Промт: «photo in BURTON style, an orphan with long black hair, dressed in dress, wandering through an abandoned house»

Модель очень хорошо отразила стилистику и настроение, присущие Тиму Бёртону. Несмотря на промты с готическими сюжетами, хорошо были переданы «грязные» цвета, которые часто присутствуют в мультфильмах, что значительно усилило ощущение неуютной и жуткой атмосферы.

Модель обучалась на изображениях, где персонажи расположены примерно по пояс, поэтому особенно хорошо получились лица и анатомия верхней части тела.

Исходный размер 5165x1600

Промт: «photo in BURTON style, a Gothic lady stands against the backdrop of an abandoned castle in the moonlight»

/ход работы/

Исходный размер 5165x1279

Фрагмент кода. Установка

Перед тем, как обучать нейросеть, был собран датасет из 50 квадратных изображений хорошего качества и установлены нужные скрипты.

Исходный размер 5165x1721

Фрагмент кода. Подготовка датасета к дальнейшей работе

Для получения изображений, сгенерированных с опорой на определенную стилистику, было необходимо с помощью среды программирования, технологии LoRa и модели генерации DreamBooth до-обучить Stable Diffusion, задействуя собранную коллекцию фотографий.

Исходный размер 5165x1721

Фрагмент кода. Обучение

В дальнейшем, были прописаны промты для генерации новых изображений в новой стилистике, которой модель обучилась.

Исходный размер 5165x839

Фрагмент кода. Промт для генерации изображения

/описание применения генеративной модели/

Модель для до-обучения и генерации — Stable Diffusion. Помощь в составлении промтов — Chad AI.

Ссылка на датасет

Ссылка на блокнот с кодом