Обучение генеративной нейросети под стиль Леонардо Да Винчи на HSE Design

Описание идеи

Эксперимент по созданию изображений в стиле Леонардо Да Винчи с помощью нейронных сетей. Основная цель — воссоздать характерные элементы стиля да Винчи, такие как мягкие градиентные переходы, гармоничная композиция, внимание к деталям. Для этого был использован метод обучение LoRA (Low-Rank Adaptation) на базе модели Stable Diffusion XL, до-обученной на картинах художника.

Исходные изображения для обучения

Исходный размер 3508x2246

Результирующая серия изображений

Исходный размер 3508x2246

Разбор характеристик изображений

В представленных изображениях удалось передать ключевые элементы стиля художника:

— Сфумато — мягкие градиентные переходы света и тени, создающие эффект реалистичности и глубины.

— Гармоничная композиция — сбалансированное размещение персонажей и объектов.

— Внимание к деталям — сложные текстуры, архитектурные элементы, а также тонкая прорисовка лиц.

— Характерная цветовая палитра — использование теплых сепийных и коричневых оттенков, напоминающих работы да Винчи.

Сюжетные композиции — На изображениях прослеживаются сцены с множеством персонажей, как в «Тайной вечере» или «Поклонении волхвов».

— Архитектурные элементы (колонны, арки, перспективные галереи) передают ощущение пространственности.

— Встречаются аллегорические сцены, характерные для эпохи Возрождения.

Образы персонажей — Фигуры часто изображены в естественных позах, с реалистичной анатомией.

— Выражения лиц передают эмоции, что было важным аспектом в работах да Винчи.

— Некоторые образы напоминают «Джоконду» или «Святую Анну» по мягкости и естественности черт.

Вариации изображений — В серии есть как классические композиции (религиозные сцены, натюрморты, портреты), так и неожиданные сочетания (например, фигуры в современных контекстах или фантастические элементы).

— Разные обработки света — некоторые изображения тяготеют к контрастным решениям, другие более мягкие и размытые.

— Использование различных текстур, включая потрескавшуюся поверхность, имитирующую старинные картины.

Результаты соответствуют первоначальной идее

Описание применения генеративной модели

Была использована генеративная модель Stable Diffusion XL (https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0) в качестве базовой модели для тренировки LoRA по стилю Леонардо Да Винчи

Ноутбук с кодом для обучения

https://drive.google.com/file/d/1Scwuqgkb2A34FiVBOAPwIwCsO6mhrJzi/view?usp=sharing

Описание процесса обучения

Исходный размер 613x172

Исходный размер 1280x696

Загрузим изображения в среду выполнения, выполним предпросмотр

Исходный размер 1136x505

Выполним автоматическое описание изображений с помощью BLIP

Исходный размер 629x194

Добавим идентификатор маркера концепции «photo collage in DAVINCI style» к описанию каждого изображения

Исходный размер 661x435

Начнем обучение. Для оптимизации процесса используется Gradient Checkpointing для экономии памяти, 8-bit Adam для ускорения, Смешанная точность FP16 для оптимизации

Исходный размер 660x151

Исходный размер 561x492

Сохраним модель на HuggingFace Hub

Попробуем сгенерировать изображение обученной моделью

Исходный размер 888x1004

Сгенерируем серию изображений обученной моделью