
Концепция
Перед нами встала задача обучить генеративную нейросеть Stable Diffusion для рисования картин в каком-то специфическом стиле (определённого художника/иллюстратора). Я выбрала стиль художника Джорджа Кондо. Его работы отличаются гротескными, экспрессионистскими и карикатурными образами, которые сочетают элементы классической живописи и кубизма. Кондо известен своими уникальными деформациями лиц и фигур, что придаёт его искусству узнаваемую и выразительную эстетику.
Цель проекта обучить генеративную нейросеть Stable Diffusion на примере картин Джорджа Кондо генерировать изображения в его стиле.
Для обучения использовался датасет из 75 изображений, собранных из открытых источников. Изображения были приведены к квадратному формату (1:1) для соответствия требованиям модели обучения.


Итоговая серия изображений
После обучения нейросети с использованием DreamBooth LoRA были получены несколько изображений, которые воспроизводят основные характеристики стиля Кондо. Эти работы демонстрируют гипертрофированные лица, карикатурные пропорции и характерную живописную текстуру.














Разбор характеристик некоторых изображений

1. Гротескные портреты
-Изображения демонстрируют искажение пропорций, типичное для стиля Кондо.
-Переданы специфические детали: преувеличенные носы, широко раскрытые глаза, экспрессивные выражения лиц.
-Сохранён эффект живописной фактуры, что делает изображения схожими с оригинальными работами художника.

2. Абсурдные сценические композиции
-Присутствуют элементы сюрреализма: персонажи в необычных позах и с неестественными телесными пропорциями.
-Используются насыщенные цвета, создающие эффект экспрессивной картины.

3. Мрачные экспрессионистские работы
- Некоторые изображения выполнены в тёмной гамме, подчёркивая эмоциональный контраст.
- Деформированные лица создают тревожную атмосферу, что соответствует стилю Кондо.
Как результаты соответствуют первоначальной идее
- Нейросеть смогла передать ключевые элементы стиля Кондо: гротеск, карикатурность, экспрессивные эмоции, геометрические фигуры, деформация.
- Сохранена техника визуального шума, придающая работам художественный эффект.
- Модель генерировала изображения с разными вариациями картин: от абстрактных композиций до почти реалистичных портретов.
- Визуальный стиль напоминает масло или акрил, что характерно для Кондо.
Описание процесса обучения и ноутбук с кодом
1. Сначала загружаем и проверяем все необходимое: - Проверяем графический процессор; - Обновляем библиотеки; - Устанавливаем последнюю версию библиотеки diffusers - Загружаем специальный обучающий скрипт с github.
2. Загружаем исходные картинки с компьютера
3. Проверяем правильно ли загрузились картинки
4. Загружаем BLIP для автоматической подписи изображений, получаем исходные промты для обучения модели
5. Добавляем идентификатор концептуального токена к каждому заголовку, который будет ссылаться на наш конкретный стиль
6. Готовимся к обучению: - Конфигурируем скрипт accelerate; - Создаем токен на сайте Hugging Face для записи обученной модели
7. Запускаем процесс обучения: - Устанавливаем библиотеку datasets; - Запускаем команды accelerate для обучения модели.
8. С помощью кода автоматически сохраняем наш код на huggingface hub - Получаем ссылку на сохраненную модель
9. Генерируем изображения с помощью обученной модели: - Загружаем исходную модель stable-diffusion-xl и к этой модели присоединяем веса лоры (lora_weights), указываем id нашего репозитория; - Все, мы можем генерировать картинки с использованием стиля Джорджа Кондо.
Заключение
Этот проект демонстрирует возможности обучения генеративных нейросетей для адаптации уникальных художественных стилей. Нейросеть успешно воспроизвела характерные черты Джорджа Кондо, создавая картинки с узнаваемыми элементами его творчества. Итоговые изображения показывают, как искусственный интеллект может служить инструментом для исследования и переосмысления визуального искусства.