
Проект — это лонгрид про исследование новой эры развития технологий: полной роботизации и господства искусственного интеллекта.
Главная идея — показать, как ИИ воплощается в образах роботов, и как его влияние меняет мир. В центре истории — конфликт между двумя сторонами:
1\. Роботы, которые хотят развиваться вместе с людьми.
2\. Опасные роботы, стремящиеся к тотальному контролю над человечеством.
Этот конфликт отражает реальные вопросы настоящего — как ИИ влияет на общество и каким будет будущее человека в новом технологичном мире.
Особенность этого проекта — в том, что роботы здесь не просто холодные машины. У каждого из них есть характер, свои особенные черты.
Для достижения нужного качества генерации и визуальной целостности образов я собрал более 200 изображений из Pinterest.

Датасет с изображениями

Серия изображений
Серия изображений
Серия сгенерированных изображений
Серия сгенерированных изображений
Серия сгенерированных изображений
Серия сгенерированных изображений
Серия сгенерированных изображений
Серия сгенерированных изображений
Серия сгенерированных изображений
Серия сгенерированных изображений
Серия сгенерированных изображений
Серия сгенерированных изображений
Проект посвящён будущему, в котором роботы и искусственный интеллект играют ключевую роль в жизни человечества. Основная идея — показать, как могут выглядеть герои и злодеи среди ИИ, и что произойдёт, если между ними начнётся настоящая война.
Все изображения были созданы с помощью нейросети Stable Diffusion. Для обучения использовались подборки из Pinterest. Это помогло задать стиль и атмосферу: киберпанк, металлические текстуры, светящиеся глаза и sci-fi города.
Этот робот выглядит как защитник — сильный, собранный, с синим светом внутри корпуса. Он внушает доверие и ощущение, что стоит на стороне людей. Освещение, поза, детали брони — всё подчёркивает, что он «светлый» персонаж.
Серия изображений роботов «Светлой стороны»
У этого робота — «демоническое» лицо и красные глаза. Он выглядит как искусственный интеллект, который вышел из-под контроля. В этом образе читается опасность и холодный расчёт.
Серия изображений роботов «Тёмной стороны»
Стилистика всей серии — это современный киберпанк, но не в классическом неоне, а в более «глубоком» и реалистичном варианте, ближе к кино и играм.
Серия получилась атмосферной и разнообразной. Тут есть и протагонисты, и антагонисты, и нейтральные ИИ. Каждый образ помогает лучше почувствовать мир будущего, где роботы стали не просто машинами, а важными игроками с разными ролями. Изображения получились в одном стиле, но каждый робот — со своим характером и визуальной подачей.
Тёмная техно-эстетика: металл, угольные и серые тона с постапокалиптическими элементами.
Светящиеся элементы (глаза, ядро) подчёркивают «характер» робота. Синий свет у «героев», красный — у «злодеев».
Фотореализм с фантастикой: текстуры брони, освещение и окружение делают роботов реалистичными, но всё ещё «вне времени».
Детализация: видны швы на панелях, винты, внутренние схемы, микросхемы — всё это добавляет реализма.
Использованные инструменты:
Stable Diffusion — модель для генерации изображений.
Hugging Face — экспорт и импорт весов для модели.
Kaggle — выполнение кода и генерация изображений
Для начала необходимо было загрузить все зависимости и скрипты.
Скачивание зависимостей
После этого я создал директорию для загрузки исходных изображений.
Создание директории для изображений
Для обучения модели требовались пары «изображение — текстовое описание», поэтому я сгенерировал описания к собранным изображениям с помощью визуально-языковой модели BLIP (Bootstrapping Language-Image Pretraining). Это позволило автоматически создать точные и подписи для каждого изображения.
Генерация описаний для выборки
Генерация описаний для выборки
После подготовки датасета с парами «изображение–описание» я приступил к настройке обучения модели. Были заданы основные параметры тренировки. Далее я запустил процесс обучения, ориентируясь на достижение стабильного стиля и точной передачи визуальных характеристик роботов, заложенных в исходных референсах.
Настройка модели перед обучением
После завершения обучения я экспортировал финальную модель и веса на платформу Hugging Face, чтобы упростить дальнейший доступ и использовать её для генерации изображений. Это позволило удобно интегрировать модель в пайплайн, быстро тестировать промпты и запускать генерацию с учётом уже обученного визуального стиля и заданной эстетики.
Экспорт весов на Hugging Face
После загрузки весов с Hugging Face я импортировал их в рабочую среду и создал отдельную директорию для хранения результатов генерации.
Настройки для генерации
Далее я подготовил список с заранее сгенерированными промптами, чтобы автоматизировать и упростить процесс генерации изображений. Промпты были структурированы по тематикам (герои, злодеи, битвы, абстрактные образы и т. д.) и адаптированы под стилистику киберпанка.
Создание списка промптов
Затем я написал цикл, который автоматически генерировал изображения по заранее подготовленному списку промптов. Это позволило существенно ускорить процесс.
Цикл для генерации по промптам
Для ускорения и автоматизации процесса генерации изображений я использовал генеративную языковую модель GPT-4o для написания промптов. Вместо того чтобы вручную формулировать каждый запрос, я задал модели структуру и стилистические параметры, соответствующие концепции проекта (киберпанк, роботы, атмосферные сцены и т. д.). GPT-4o сгенерировала более 100 уникальных и тематически разнообразных промптов, что позволило:
· Существенно ускорить подготовку к генерации
· Добиться стилистической целостности всей серии
· Охватить широкий спектр визуальных сценариев (от героических сцен до апокалиптических пейзажей и абстрактных образов ИИ)
Генерированные описания были напрямую использованы в Stable Diffusion для создания изображений. Такой подход позволил соединить возможности текстовой генерации и визуального моделирования в единый, эффективный творческий процесс.