Люди, которых я встречаю каждый день| Обучение генеративной нейросети на HSE Design

Концепция

Проект посвящён городским зарисовкам — наблюдениям за людьми в повседневной жизни. Это жанр, который имеет давние традиции в изобразительном искусстве: художники всегда стремились запечатлеть мимолётные моменты городской жизни — случайных прохожих в метро, посетителей кафе, людей на улицах. Для обучения модели я использовала серию авторских иллюстраций, выполненных цветными карандашами с чёрным контуром.

Исходный размер 3066x1526

Сарунова Ольга «Люди, которых я встречаю каждый день» 2023

Целью проекта является создание портретов и сцен в едином стиле цветных карандашных скетчей при помощи генеративных сетей. Главной задачей было передать характерную технику рисования — штриховку, выразительные контуры и яркую палитру — и сохранить целостность живописной манеры исходных работ.

Серия работ

Исходный размер 1410x1408

Выводы

В результате у меня получилась серия работ, воспроизводящих стиль городских зарисовок: цветные карандаши с чёрными контурами, тёплые тона кожи, насыщенные цветовые акценты. Я решила использовать детализированный промпт «hand drawn colored pencil sketch in SKETCHPPL style, hatching texture, bold black ink outlines, vibrant colors», чтобы модель точнее воспроизводила технику оригинала.

Меня удивил результат своей точностью и выразительностью. Штриховка отлично передаёт ощущение ручной работы, как и в исходном проекте. Это можно заметить на примере проработки одежды и фонов, где в одних случаях карандаш чётко заполняет форму, а в других — оставляет воздушные пробелы. Стоит отметить, что пластика штрихов достаточно разнообразная: от плотных заливок до тонких графичных линий. Нейросеть учла характерные особенности стиля — выразительные лица с полузакрытыми глазами, яркие цветовые пятна на одежде, динамичные композиции. Сюжеты городской жизни переданы правдоподобно с характерными элементами: интерьеры кафе, вагоны метро, парки, улицы. Композиции получились живыми и атмосферными, что передаёт настроение городских наблюдений — ту самую «подсмотренность» момента.

Изображения отличаются по степени насыщенности и композиции. Например, работа с детьми у пруда получилась многофигурной и детализированной, с преобладанием зелёных и жёлтых тонов. Портреты отдельных людей — более камерные, с акцентом на лице и одежде. Некоторые работы имеют плотный фон с архитектурными деталями, другие — более воздушные, с минимальным окружением. Обучив модель, мне удалось сохранить связь с исходными работами и применить этот стиль для создания новых сюжетов, которых не было в датасете: прогулки в парке, виды на город, сцены у воды. Модель успешно генерализировала стилистические особенности и способна создавать изображения, которые органично вписываются в серию оригинальных иллюстраций.

Техническая реализация

Исходный размер 3066x1672

Подключаю GPU для лучшей мощности. Получаем подтверждение работы видеокарты Tesla T4.
Устанавливаю библиотеки bitsandbytes, transformers, accelerate, peft для обучения Stable Diffusion XL.
Устанавливаю последнюю версию библиотеки diffusers с GitHub.
Загружаю скрипт train_dreambooth_lora_sdxl.py с GitHub для обучения модели.
Загружаю свои 15 файлов с изображениями из Google Drive.
Проверяю наличие картинок, вывожу сетку изображений.

Исходный размер 3066x1968

Для поиска подходящих подписей к изображениям устанавливаю BLIP.
Функция caption_images отвечает за генерацию описаний к изображениям.
Создаю запрос для генерации промпта «in SKETCHPPL style». При помощи JSON создаю файл metadata.jsonl с подписями.
Удаляю BLIP, так как для Stable Diffusion нужно много памяти.
Использую скрипт accelerate для обучения модели.

Исходный размер 2792x1968

Создаю аккаунт на Hugging Face для получения токена. Называю токен, даю разрешение. Ввожу ключ от токена в Colab.
Загружаю нужные библиотеки. Запускаю процесс обучения (700 шагов, learning_rate=5e-5).
Указываю свою директорию. Добавляю код для сохранения модели в Hugging Face Hub.
Сохраняю файлы, обученные моей моделью, на сайте Hugging Face.

Исходный размер 2708x2222

Загружаю исходную модель Stable Diffusion XL. Присоединяю к модели lora_weights и указываю repo_id.
Создаю промпт с префиксом «in SKETCHPPL style» для генерации портретов в стиле цветных карандашных скетчей.

Модель на Hugging Face

Блокнот и датасет

Использованные нейросети

Stable Diffusion XL https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

BLIP https://huggingface.co/Salesforce/blip-image-captioning-base

DreamBooth https://huggingface.co/papers/2208.12242

LoRA https://huggingface.co/papers/2106.09685