𖦹 идея проекта
Этот проект исследует возможность обучения генеративной нейросети не просто визуальному стилю, а специфическому ощущению материала и формы, которое обычно требует сложных и длинных текстовых описаний.
В основе проекта лежит авторский визуальный язык — bubble gum creatures: объекты и персонажи, трансформированные в состояние мягкой, текучей, глянцевой субстанции, напоминающей пластилин, жвачку или расплавленный полимер. Для их генерации в стандартных условиях требуется использование перегруженных промптов и множества референсов.
Цель проекта — сжать этот сложный визуальный язык в компактную форму, обучив нейросеть воспроизводить его с помощью одного триггерного токена.
𖦹 источники данных
Коллекция сгенерированных мной лично изображений. Вручную к каждой из картинок был написан txt файл с подробным уникальным описанием, чтобы улучшить качество результата.
Затем создала пары png+txt. Пары создавались по совпадению уникальных названий
Каждое изображение было приведено к единому формату 1:1 и использовано для обучения LoRA‑надстройки модели SDXL
Для обучения был введён уникальный токен (Он позволяет модели «запомнить» стиль и вызывать его при генерации. Это ключевой элемент LoRA — привязка визуального паттерна к тексту):
𖦹 zzbubblegumtok
Обучение проводилось на модели Stable Diffusion XL (SDXL) с использованием LoRA для эффективного дообучения без изменения базовой модели. Были заданы параметры:
𖦹 batch size 𖦹 learning rate 𖦹 scheduler 𖦹 gradient accumulation
Также включено сохранение чекпоинтов каждые 200 шагов.
Во время обучения модель сохраняет промежуточные веса (checkpoint), что позволяет:
𖦹 продолжить обучение 𖦹 откатиться на более удачную версию 𖦹 сравнивать результаты
После обучения LoRA подключается к SDXL и используется через промпты. Токен zzbubblegumtok активирует обученный стиль.
zzbubblegumtok, wonky bubblegum sea star, soft elastic body, glossy translucent material, stretched and deformed shapes, asymmetrical anatomy, playful but unsettling, hyper-detailed surface
обучение (1200 steps)
Модель успешно научилась:
zzbubblegumtok, wonky bubblegum microbe, soft elastic body, glossy translucent material, stretched and deformed shapes, asymmetrical anatomy, playful but unsettling, hyper-detailed surface
𖦹 воспроизводить единый визуальный стиль 𖦹 генерировать consistent изображения 𖦹 применять стиль к новым сценам
zzbubblegumtok, wonky bubblegum cone shell, soft elastic body, glossy translucent material, stretched and deformed shapes, asymmetrical anatomy, playful but unsettling, hyper-detailed surface, subtle
В общем, LoRA-обучение показало высокую эффективность для стилизации визуального контента. Даже на небольшом датасете удалось добиться стилистического единства и консистентности.
zzbubblegumtok, wonky bubblegum heart, soft elastic body, glossy translucent material, stretched and deformed shapes, asymmetrical anatomy, playful but unsettling, hyper-detailed surface
