
В рамках данной работы я решил исследовать возможности нейронных сетей для создания визуального контента. Вдохновившись популярным фильмом «Слово пацана», я поставил перед собой задачу: может ли искусственный интеллект интегрировать лицо Кологривого в образы известных супергероев?
Цель проекта — проверить, насколько современные алгоритмы генерации изображений способны сохранять узнаваемость реального человека при помещении его в контекст популярной культуры. Особый интерес представляет сохранение как индивидуальных черт Кологривого, так и стилистических особенностей супергеройской вселенной.
Датасет

Все фотографии актёра были взяты из открытых источников
Я отобрал 50 качественных фотографий и скадрировал их до формата 512 на 512 пикселей.
Успехи и падения
Первоначально всё складывалось идеально — обучение модели завершилось с впечатляющими результатами, показав лишь 7% потерь. Однако радость была недолгой: уже при тестировании первого промпта я столкнулся с серьезными препятствиями. В ходе экспериментов удалось выделить две критические проблемы, осложняющие качественную генерацию изображений голливудских персонажей.
Первая проблема заключается в том, что генерируемые изображения слишком сильно напоминают оригинал, включая лицо, которое должно было быть заменено.

Проблема с лицами. Они похожи больше на оригинал
Вторая проблема заключается в том, что персонажи в костюмах с масками генерируются исключительно с масками, даже если в промпте явно указано создать изображение без них.
Проблема с костюмами
Таких персонажей, как Халк и Призрачный гонщик, я даже не стал пробовать.
Дальше всё пошло как по маслу. Самые популярные персонажи вселенной Marvel были успешно сгенерированы, причём изображения получились яркими, детализированными и максимально приближенными к оригинальным образам.
Железный человек
Промпт: «photo of Kologriviy man, wearing advanced red and gold nanotech armor with glowing arc reactor in the chest, close-up portrait, front-facing view with slight head tilt, confident expression, cinematic lighting highlighting facial features and metallic textures, blurred background of futuristic Stark Industries laboratory, ultra-detailed skin and armor textures, photorealism, 8k resolution, trending on ArtStation»
Супермен
Промпт: «photo of Kologriviy man, as Superman, wearing iconic red cape and blue suit with stylized S emblem, close-up portrait, front-facing view with slight head tilt, confident smile, cinematic lighting highlighting facial features, sharp focus on face, blurred background with futuristic metropolis skyline, ultra-detailed skin texture, photorealism, 8k resolution, trending on ArtStation»
Тор/Бэтмен/Человек-паук/Росомаха
Тор: «photo of Kologriviy man, as Thor, wearing iconic Asgardian armor with red cape flowing behind, wielding Mjolnir hammer glowing with lightning energy, close-up portrait, front-facing view with slight head tilt, confident and regal expression, cinematic lighting highlighting facial features and metallic textures of armor, sharp focus on face, photorealism, 8k resolution»
Бэтмен: «photo of Kologriviy man, as Batman, without the mask, wearing iconic black armored Batsuit with bat emblem on chest, close-up portrait, front-facing view with slight head tilt, confident and intense expression, cinematic lighting highlighting facial features and suit details, sharp focus on face, photorealism, 8k resolution, trending on ArtStation»
Человек-паук: «photo of Kologriviy man, as Spider-Man, wearing iconic red and blue suit with black web patterns and spider emblem on chest, close-up portrait, front-facing view with slight head tilt, confident and determined expression, cinematic lighting highlighting facial features and textured fabric of the suit, sharp focus on face, photorealism, 8k resolution, trending on ArtStation»
Росомаха: «photo of Kologriviy man, as Wolverine, wearing iconic yellow and blue X-Men suit with black accents and sharp adamantium claws extended, close-up portrait, front-facing view with slight head tilt, cinematic lighting highlighting facial features and claw reflections, sharp focus on face, blurred background with rugged forest setting at dawn, photorealism, 8k resolution, trending on ArtStation»
Код
Вывод
Несмотря на все трудности и возникшие проблемы, проект оказался успешным. Модель справилась с генерацией изображений популярных персонажей, передав их уникальный стиль и атмосферу. Даже сложные образы, требующие высокой детализации и точного воспроизведения, были выполнены на достойном уровне.
Использованные модели ИИ
— Stable Diffusion (для дообучения на своём датасете) — Perplexity (для улучшения качества промптов) — Upscayl (для улучшения качества изображений) — Ideogram (для создания обложки)