Обучение нейросети для создания изображений в стиле клипа Хаски

Идея проекта

Хаски известен нестандартными клипами, граничащими с работами современного искусства, и клип на песню «Сказки» — тому подтверждение. Это — мрачная, гротескная притча, исследующая тёмные грани русской культуры. Чёрно-белая палитра, искаженные образы, переосмысление сказок, религии и истории создают в клипе атмосферу русской мистики.

В рамках проекта я попросила искусственный интеллект написать небольшую легенду, на основе которой я сформировала 9 промтов для иллюстраций. Полученную историю я визуализировала с помощью модели Stable Difusion, дообученной на стиле клипа Хаски «Сказки».

Исходные изображения

Исходный размер 2480x789

Описание процесса генерации

Подготовка

На начальном этапе была проведена проверка доступности и характеристик GPU.
Затем были установлены необходимые библиотеки Python (transformers, diffusers, accelerate, peft и другие).
Был загружен скрипт train_dreambooth_lora_sdxl.py из репозитория diffusers.
Была создана директория для хранения входных изображений и сгенерированных метаданных.

Предобработка данных

Был загружен набор изображений, представляющих желаемый стиль.
Для контроля качества загруженные изображения были отображены в виде сетки.
Использовалась модель BLIP (Bootstrapping Language-Image Pre-training) для автоматической генерации текстовых описаний для каждого изображения.
Были созданы метаданные в формате JSON, содержащие пары «имя файла — текстовое описание». Эти метаданные используются скриптом обучения для связи изображений с их текстовыми представлениями.

Обучение LoRA-модели

Был запущен скрипт train_dreambooth_lora_sdxl.py с передачей необходимых параметров. Параметры включали путь к предварительно обученной модели Stable Diffusion, путь к каталогу с изображениями и метаданными, а также параметры, определяющие процесс обучения, такие как скорость обучения, размер пакета и количество шагов обучения.
Для уменьшения потребления памяти была применена техника FP16 и градиентного накопления.

Сохранение модели

После завершения обучения полученная LoRA-модель была загружена на платформу Hugging Face Hub для использования модели другими пользователями.

Ссылка на ноутбук

Результирующая серия изображений

Исходный размер 2480x789

Сначала я пробовала генерировать фотографии только на базе собранного датасета. Однако фото получались очень похожими на исходные кадры. Более того, если создавать нечеловеческие фигуры (какие-то объекты), модель выдает абстрактные разводы. Такой результат меня не устроил, поэтому я решила генерировать с использованием разного процента влияния исходных картинок.

Исходный размер 1024x1024

Исходный размер 2480x2483

Вся серия изображений

В целом, нейросети удалось считать стиль клипа Хаски «Сказки». Я думаю, получилось передать мрачную атмосферу русской сказки. Главные черты фотографий — черно-белая гамма, темнота, размытие, туман. Мне нравится, как в данном случае работают некоторые «баги» stable diffusion, они добавляют мистики, будто обитатели леса находятся под влиянием темного колдовства.   Также, мне кажется, смотря на сгенерированные фотографии, можно примерно угадать сюжет легенды, к чему я и стремилась.

Мне не понравилось, что каждый раз получались разные эффекты размытия. Где-то зерно, в других случаях шум, свечение или расплывание, из-за этого фотографии выглядели немного разрозненно. Чтобы изображения были серийными, пришлось пробовать много раз и экспериментировать с процентом влияния датасета.

Также в разных вариантах отличалась контрастность, какие-то изображения получались приглушенными, в то время как другие почти не имели полутонов.

Применение генеративных моделей искуственного интеллекта

Помимо дообучения stable diffusion, я использовала ChatGPT для генерации легенды и описания процесса обучения нейросети.

Промт: Придумай короткую мистическую легенду о парне, который заблудился в лесу и встретился с его темными обитателями.

Промт 2: Напиши описание процесса обучения генеративной модели, опираясь на приложенные фотографии.

Ссылка: @gpt3_unlim_chatbot (имя телеграмм-бота)

Также я использовала телеграмм-бот для генерации обложки.

Промт: generate a glow of spirit --sref https://gochromic.hb.ru-msk.vkcs.cloud/1168765230/sref/c8c4fa9d91f7a3e332d2a5745d6ba63e.png

Ссылка: @chromic666_bot (имя телеграмм-бота)

Обучение нейросети для создания изображений в стиле клипа Хаски—«Сказки»