Исходный размер 1190x1572

Люди, которых я встречаю каждый день| Обучение генеративной нейросети

Проект принимает участие в конкурсе

Концепция

Проект посвящён городским зарисовкам — наблюдениям за людьми в повседневной жизни. Это жанр, который имеет давние традиции в изобразительном искусстве: художники всегда стремились запечатлеть мимолётные моменты городской жизни — случайных прохожих в метро, посетителей кафе, людей на улицах. Для обучения модели я использовала серию авторских иллюстраций, выполненных цветными карандашами с чёрным контуром.

Исходный размер 3066x1526

Сарунова Ольга «Люди, которых я встречаю каждый день» 2023

Целью проекта является создание портретов и сцен в едином стиле цветных карандашных скетчей при помощи генеративных сетей. Главной задачей было передать характерную технику рисования — штриховку, выразительные контуры и яркую палитру — и сохранить целостность живописной манеры исходных работ.

Серия работ

Исходный размер 1410x1408
Исходный размер 1410x1408
Исходный размер 1410x1408
Исходный размер 1410x1408
Исходный размер 1410x1408
Исходный размер 1410x1408
Исходный размер 1410x1408

Выводы

В результате у меня получилась серия работ, воспроизводящих стиль городских зарисовок: цветные карандаши с чёрными контурами, тёплые тона кожи, насыщенные цветовые акценты. Я решила использовать детализированный промпт «hand drawn colored pencil sketch in SKETCHPPL style, hatching texture, bold black ink outlines, vibrant colors», чтобы модель точнее воспроизводила технику оригинала.

Меня удивил результат своей точностью и выразительностью. Штриховка отлично передаёт ощущение ручной работы, как и в исходном проекте. Это можно заметить на примере проработки одежды и фонов, где в одних случаях карандаш чётко заполняет форму, а в других — оставляет воздушные пробелы. Стоит отметить, что пластика штрихов достаточно разнообразная: от плотных заливок до тонких графичных линий. Нейросеть учла характерные особенности стиля — выразительные лица с полузакрытыми глазами, яркие цветовые пятна на одежде, динамичные композиции. Сюжеты городской жизни переданы правдоподобно с характерными элементами: интерьеры кафе, вагоны метро, парки, улицы. Композиции получились живыми и атмосферными, что передаёт настроение городских наблюдений — ту самую «подсмотренность» момента.

Изображения отличаются по степени насыщенности и композиции. Например, работа с детьми у пруда получилась многофигурной и детализированной, с преобладанием зелёных и жёлтых тонов. Портреты отдельных людей — более камерные, с акцентом на лице и одежде. Некоторые работы имеют плотный фон с архитектурными деталями, другие — более воздушные, с минимальным окружением. Обучив модель, мне удалось сохранить связь с исходными работами и применить этот стиль для создания новых сюжетов, которых не было в датасете: прогулки в парке, виды на город, сцены у воды. Модель успешно генерализировала стилистические особенности и способна создавать изображения, которые органично вписываются в серию оригинальных иллюстраций.

Техническая реализация

Исходный размер 3066x1672
  1. Подключаю GPU для лучшей мощности. Получаем подтверждение работы видеокарты Tesla T4.

  2. Устанавливаю библиотеки bitsandbytes, transformers, accelerate, peft для обучения Stable Diffusion XL.

  3. Устанавливаю последнюю версию библиотеки diffusers с GitHub.

  4. Загружаю скрипт train_dreambooth_lora_sdxl.py с GitHub для обучения модели.

  5. Загружаю свои 15 файлов с изображениями из Google Drive.

  6. Проверяю наличие картинок, вывожу сетку изображений.

Исходный размер 3066x1968
  1. Для поиска подходящих подписей к изображениям устанавливаю BLIP.

  2. Функция caption_images отвечает за генерацию описаний к изображениям.

  3. Создаю запрос для генерации промпта «in SKETCHPPL style». При помощи JSON создаю файл metadata.jsonl с подписями.

  4. Удаляю BLIP, так как для Stable Diffusion нужно много памяти.

  5. Использую скрипт accelerate для обучения модели.

Исходный размер 2792x1968
  1. Создаю аккаунт на Hugging Face для получения токена. Называю токен, даю разрешение. Ввожу ключ от токена в Colab.

  2. Загружаю нужные библиотеки. Запускаю процесс обучения (700 шагов, learning_rate=5e-5).

  3. Указываю свою директорию. Добавляю код для сохранения модели в Hugging Face Hub.

  4. Сохраняю файлы, обученные моей моделью, на сайте Hugging Face.

Исходный размер 2708x2222
  1. Загружаю исходную модель Stable Diffusion XL. Присоединяю к модели lora_weights и указываю repo_id.

  2. Создаю промпт с префиксом «in SKETCHPPL style» для генерации портретов в стиле цветных карандашных скетчей.

Использованные нейросети

Люди, которых я встречаю каждый день| Обучение генеративной нейросети
Проект создан 22.03.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше