Обучение генеративной нейросети под стиль муми-троллей на HSE Design

Идея проекта

С детства я большой фанат Туве Янссон. Мир Муми-дола — это уют, доброта и тихая философия, которая живёт в каждой строчке и каждом кадре мультфильмов. Особое место в моём сердце всегда занимала рисовка: минималистичная, но выразительная, мягкая, но наполненная деталями.

Создавая этот проект, я поставила себе задачу — попробовать передать эту особенную атмосферу через генеративную нейросеть. Не просто обучить её повторять формы и цвета, а научить передавать настроение.

Сочетание спокойствия, лёгкой меланхолии, природной тишины, сезонных изменений — от туманных осенних лесов до весенних солнечных рек.

Исходный размер 1200x628

Муми-тролли

Персонажи Долины муми-троллей

Применение генеративной модели

Для создания проекта я выбрала использовать среду Google Colab. Внутри ноутбука для обучения модели и генерации изображений использовались такие инструменты как LoRA, Stabble Diffusion XL и hugginface.

Работа с нейросетью

Для обучения модели я собрала набор изображений — чуть больше 30 кадров из классических мультфильмов 70-х годов и иллюстраций Туве Янссон.

Некоторые примеры из датасета

Начало работы с моделью

Создание и настройка токена

Обучение заняло около 40 минут

Первые генерации

На этапе генерации я провела несколько волн экспериментов, в ходе которых использовала разные промты.

Я начала с простых описаний, но довольно быстро заметила повторяющиеся паттерны в ответах нейросети. Например, во многих случаях в описаниях и сгенерированных подписях постоянно использовалось слово «character». Это навело меня на мысль сделать это частью основной стратегии генерации: я начала строить подсказки вокруг этой идеи, варьируя количество и тип героев, окружающую среду и действия.

Примеры использованных промтов:

«photo collage in MOOMIN style» — базовая установка, погружающая в нужный стиль

«a cartoon character holding a cup in his hand» — добавление действия, чтобы сцена казалась живой

«photo collage in MOOMIN style, river without characters» — попытка воссоздать пейзажи без акцента на героях

«photo collage in MOOMIN style, one character» — фокус на одиночной фигуре, часто дающей ощущение покоя или задумчивости

«photo collage in MOOMIN style, house» — архитектура как символ уюта и дома

Примеры генераций

На первых этапах количество шагов генерации было небольшим, но впоследствии я увеличила его, чтобы изображения стали более детализированными, атмосферными и «мягкими» по стилю. Это особенно помогло передать характерные для Муми-вселенной рассеянный свет, туманную дымку, мягкие тени и природную пастельность палитры.

Примеры генераций

Серия изображений уверенно передаёт дух вселенной Муми-троллей. Для меня каждая сцена предлагает немного разное настроение и композиционное решение, сохраняя при этом общее ощущение уюта, природной гармонии и тихой радости. Визуально это не просто копия оригинального стиля, а скорее его вдумчивая интерпретация — с мягкими линиями, спокойной палитрой и узнаваемыми персонажами.

В кадрах представлены разные моменты жизни Муми-долины: прогулки у воды и в лесу, чаепития, семейные сцены, пейзажные зарисовки и моменты путешествий. Эти сцены передают ключевые элементы оригинального мира: близость к природе, неторопливость быта, важность общения и заботу друг о друге.

Герои изображены в узнаваемом стиле — с округлыми формами, спокойным выражением лица, в простых и уютных позах. Все композиции сбалансированы, с глубиной, проработанным фоном и атмосферой тишины и покоя.

Исходный размер 2347x1239

Итоговые муми-тролли

Итоговая серия состоит из 20 кадров, каждый из которых передаёт уютную атмосферу сказочного мира, воссоздавая ключевые мотивы Муми-дола: природа, дом, общение, путешествия, чаепития. Изображения не просто копируют стиль — они впитывают дух оригинала: спокойствие, тёплые отношения, природную гармонию и меланхолию.

Выводы: что вышло?

В результате обучения получилась серия иллюстраций, которые визуально напоминают оригинальные работы Туве Янссон. Вот что можно выделить из результатов:

Атмосфера: лёгкая туманность, приглушённые цвета, мягкий свет — всё это модель передала прекрасно. Картинки получаются не резкие, а чуть размытые, идеально передают атмосферу как в оригинале.

Силуэты персонажей: узнаваемые формы Муми-тролля и других. Модель не всегда точно повторяет лица, но «чувство персонажа» остаётся.

Ландшафты: леса, холмы, дом Муми — всё выполнено с большой точностью к композиции оригинальных книг и мультфильмов.

Разнообразие: несмотря на схожий стиль, картинки получились разными — где-то больше света, где-то чувствуется ветер или дождь. Это даёт ощущение живости и глубины.

Именно это придаёт им ту самую атмосферу, к которой я стремилась — ощущение сказки, уютного одиночества и медленного течения времени.

Модель не просто повторила стиль, а создала на его основе новые образы, полные узнаваемых эмоций. Это особенно видно в пейзажах: каждый — как иллюстрация к отдельной главе из книги Янссон.

Процесс работы с генеративной нейросетью оказался не только технически интересным, но и эмоционально насыщенным. В какой-то момент модель начала не просто повторять стиль, а воспроизводить настроение — сдержанную радость, наивную наблюдательность.

Инструменты

Google Colab — рабочее пространство

Stable Diffusion XL — генеративная модель

DreamBooth + LoRA — обучение на собственных данных

Hugging Face — получение токена и загрузка модели

ChatGPT / GPT-4 / DeepSeek — генерация текстов и структуры

PIL, glob — техническая обработка изображений

Ссылки и материалы

Google Colab

Hugging Face

Диск с кодом