
Идея проекта

Yana Toboso — Kuroshitsuji, 2025
В рамках данного проекта я подготовил собственный датасет, собрав изображения из манги «Тёмный дворецкий» авторства Яны Тобосо. Мне стало интересно провести эксперимент: проверить, насколько обучаемая нейросеть сможет уловить характерные черты её стиля и воспроизвести их в новых изображениях.
Основная задача исследования заключается в том, чтобы натренировать модель таким образом, чтобы она не просто механически копировала изображения, а умела создавать самостоятельные работы, близкие по эстетике к оригиналу. В частности, важно, чтобы нейросеть научилась:
• работать с характерной цветовой палитрой, свойственной иллюстрациям Тобосо;
• правильно передавать особенности внешности и черты лиц персонажей;
• сохранять атмосферу и настроение, присущие её художественному стилю.
Таким образом, проект направлен на исследование того, насколько современные алгоритмы способны не только технически воспроизводить изображение, но и воссоздавать художественную выразительность, эмоциональный фон и уникальность авторского почерка.
Исходные изображения
Для датасета было отобрано 24 черно-белых изображения из самой манги.
Yana Toboso — Kuroshitsuji, 2006-2025


Yana Toboso — Kuroshitsuji, 2006-2025
Процесс обучения
Вся работа выполнялась в среде Google Colab, так как она предоставляет возможность использования GPU T-4. На первом этапе была произведена установка всех необходимых библиотек, включая Diffusers и DreamBooth.
Импорт библиотек
Следующим шагом стало добавление масштабированного датасета с изображениями (с пропорциями 1:1) с использованием встроенной функции Google Colab.
Загрузка датасета
С помощью BLIP я создал промпты для каждого изображения, что позволило убедиться в корректности распознавания нейросетью содержимого картинок. После этого этап подготовки датасета к обучению модели можно было считать завершённым.
Генерация промптов к изображениям
Для обучения нейросети были выбраны следующие параметры:
—resolution = 512 —train_batch_size = 2 —max_train_steps = 1000 —checkpointing_steps = 250
С этими параметрами время обучения составило 1 час 20 минут.
Обучение модели
Готовый результат я загрузил на Hugging Face и начал генерацию изображений с использованием префикса «photo collage in YANA TOBOSO style».
Сохранение модели в Hugging Face
Генерация изображений
Серия сгенерированных изображений
prompt: «photo collage in YANA TOBOSO style, a black and white image of a woman with a hat»
Первый заход генераций был через промпты, которые были созданы через BLIP, чтобы сразу сравнить с оригинальными изображениями. Прежде всего, нейросеть достаточно точно уловила черты лица и общие анатомические особенности персонажей, а также отчасти воспроизвела характерный стиль изображения глаз.


Работа Яны Тобосо // Генерация нейросети
prompt: «photo collage in YANA TOBOSO style, a man in a hat and tie with a bow tie»


Работа Яны Тобосо // Генерация нейросети
Кроме того, модель уверенно взяла на себя атмосферу: викторианская эстетика, орнаменты, драматический контраст и обилие деталей в одежде — это читается ясно. В то же время видны типичные артефакты генеративных моделей при попытке воспроизвести стилистику манги: непоследовательность штриховки, проблемные руки, пальцы и чрезмерная симметрия лиц.
prompt: «photo collage in YANA TOBOSO style, a girl with glasses and a plaid shirt»


Генерации нейросети
По качеству линии и мелким художественным приёмам — пока частичное соответствие: основные мотивы присутствуют, а тонкая «живость» оригинала — нет.
prompt: «photo collage in YANA TOBOSO style, Young Victorian governess in modest gray dress, hair neatly tied, standing by a wooden desk with a book in hand, serious expression»
prompt: «photo collage in YANA TOBOSO style, Victorian girl in white frilled dress with ribbon, clutching a porcelain doll, wide innocent eyes, soft light»


Генерации нейросети
prompt: «photo collage in YANA TOBOSO style, a drawing of a man with long hair and a black jacket»
Например, на изображениях ниже модель хорошо захватила: силуэт, удлинённые пропорции лица и шеи, типичный для готической манги стиль одежды — много пуговиц, жилет, широкий лацкан. Драматическое выражение и лёгкая улыбка тоже соответствуют «аристократическому» настрою.
Однако в сравнении с оригиналом, линии местами грубее, чем художник обычно допускает — нет той тонкой вариативности веса пера; штриховка теней выглядит местами «пятнистой», а не продуманной перекрёстной штриховкой.


Работа Яны Тобосо // Генерация нейросети
prompt: «photo collage in YANA TOBOSO style, Victorian aristocratic lady in a dark velvet gown with lace collar, elaborate hairstyle with feathers, holding a closed fan, dramatic candlelight portrait»
prompt: «photo collage in YANA TOBOSO style, Victorian medium in long mourning dress with veil, eyes rolled back in trance, occult séance atmosphere»
На этих изображениях самыми сильными сторонами вышли сложные кружева, бисер, перья, канделябры на фоне. Модель ловит «богатство» деталей и барочную атмосферу. Контрастного, «густого» черного больше, что усиливает готический эффект.
В то же время, мелкая штриховка кружева и складок иногда превращается в «шум» вместо аккуратной штриховки; черты лица — несколько упрощены, губы и нос имеют меньше нюансов, чем у оригинала. Пальцы и положение руки снова местами неестественны.


Генерации нейросети
prompt: «photo collage in YANA TOBOSO style, a man in a suit and tie standing in front of a window»
prompt: «photo collage in YANA TOBOSO style, Victorian villain in long dark overcoat, top hat casting a shadow over his face, sinister smirk, gothic mood»


Генерации нейросети
prompt: «photo collage in YANA TOBOSO style, Victorian femme fatale in a crimson silk dress»
prompt: «photo collage in YANA TOBOSO style, Young Victorian maid with apron and bonnet, holding a lantern in a dark hallway»
В общем и целом, готическая, декадентская подачи в изображениях модели читается чётко. Нейросеть хорошо подхватывает сложные элементы костюма, часто делает сильные тёмные пятна/акценты, что приближает к стилизации манги.
Сам же оригинал сохраняет индивидуальность персонажей, а модель склонна к созданию одинаковых лиц. Нейросеть имитирует наличие скринтона/штриховки, но распознаваемые паттерны иногда неправильно деформируются по форме (накладываются без учёта объёма). Модель повторяет узнаваемые признаки (глаза, кружево), но не всегда генерирует «новое» художественное изображение — скорее смесь узнаваемых элементов.


Генерации нейросети
prompt: «photo collage in YANA TOBOSO style, Victorian child in sailor suit, holding a wooden toy horse, sepia-toned portrait»
prompt: «photo collage in YANA TOBOSO style, Victorian street urchin with patched clothes, dirt on face, clutching bread, standing under gaslamp»


Генерации нейросети
В качестве вывода, хочется отметить, что применение генеративных нейросетей в подобном ключе остаётся довольно спорным и неоднозначным вопросом. С одной стороны, такие инструменты действительно могут быть полезны: они помогают художникам и дизайнерам в поиске вдохновения, позволяют быстро получать визуальные референсы, с которыми затем можно работать вручную, а также ускоряют процесс разработки идей и концептов. Нейросеть может выступать в роли вспомогательного инструмента, своеобразного «набросочного механизма», который облегчает творческий процесс.
С другой стороны, говорить о том, что искусственный интеллект способен полноценно заменить живого художника, невозможно. Причина заключается в том, что модель в своей основе не обладает собственным художественным опытом или воображением — она лишь комбинирует и перерабатывает уже существующие данные из обучающего набора. В результате полученные изображения могут быть внешне похожи на оригинальный стиль, но зачастую сопровождаются множеством артефактов, анатомическими неточностями и потерей выразительности.
Описание применения генеративной модели
Stable Diffusion— обучение генеративной нейросети.
BLIP — генерация подписей к изображениям.
Hugging Face — генерация токена и загрузка модели на сайт.