WONKY CLAY на HSE Design

𖦹 идея проекта

Этот проект исследует возможность обучения генеративной нейросети не просто визуальному стилю, а специфическому ощущению материала и формы, которое обычно требует сложных и длинных текстовых описаний.

В основе проекта лежит авторский визуальный язык — bubble gum creatures: объекты и персонажи, трансформированные в состояние мягкой, текучей, глянцевой субстанции, напоминающей пластилин, жвачку или расплавленный полимер. Для их генерации в стандартных условиях требуется использование перегруженных промптов и множества референсов.

Цель проекта — сжать этот сложный визуальный язык в компактную форму, обучив нейросеть воспроизводить его с помощью одного триггерного токена.

Исходный размер 4200x1400

𖦹 источники данных

Коллекция сгенерированных мной лично изображений. Вручную к каждой из картинок был написан txt файл с подробным уникальным описанием, чтобы улучшить качество результата.

Исходный размер 3922x2097

Затем создала пары png+txt. Пары создавались по совпадению уникальных названий

Исходный размер 3602x742

Каждое изображение было приведено к единому формату 1:1 и использовано для обучения LoRA‑надстройки модели SDXL

𖦹 ссылка на датасет

Для обучения был введён уникальный токен (Он позволяет модели «запомнить» стиль и вызывать его при генерации. Это ключевой элемент LoRA — привязка визуального паттерна к тексту):

𖦹 zzbubblegumtok

Обучение проводилось на модели Stable Diffusion XL (SDXL) с использованием LoRA для эффективного дообучения без изменения базовой модели. Были заданы параметры:

𖦹 batch size 𖦹 learning rate 𖦹 scheduler 𖦹 gradient accumulation

Также включено сохранение чекпоинтов каждые 200 шагов.

Исходный размер 3531x1246

Во время обучения модель сохраняет промежуточные веса (checkpoint), что позволяет:

𖦹 продолжить обучение 𖦹 откатиться на более удачную версию 𖦹 сравнивать результаты

Исходный размер 3963x755

После обучения LoRA подключается к SDXL и используется через промпты. Токен zzbubblegumtok активирует обученный стиль.

Исходный размер 2880x1186

zzbubblegumtok, wonky bubblegum sea star, soft elastic body, glossy translucent material, stretched and deformed shapes, asymmetrical anatomy, playful but unsettling, hyper-detailed surface

обучение (1200 steps)

Модель успешно научилась:

Исходный размер 2880x1186

zzbubblegumtok, wonky bubblegum microbe, soft elastic body, glossy translucent material, stretched and deformed shapes, asymmetrical anatomy, playful but unsettling, hyper-detailed surface

𖦹 воспроизводить единый визуальный стиль 𖦹 генерировать consistent изображения 𖦹 применять стиль к новым сценам

Исходный размер 2880x1186

zzbubblegumtok, wonky bubblegum cone shell, soft elastic body, glossy translucent material, stretched and deformed shapes, asymmetrical anatomy, playful but unsettling, hyper-detailed surface, subtle

В общем, LoRA-обучение показало высокую эффективность для стилизации визуального контента. Даже на небольшом датасете удалось добиться стилистического единства и консистентности.

Исходный размер 2880x1186

zzbubblegumtok, wonky bubblegum heart, soft elastic body, glossy translucent material, stretched and deformed shapes, asymmetrical anatomy, playful but unsettling, hyper-detailed surface

𖦹 ссылка на блокнот