
Цель проекта — дообучение генеративной нейросети Stable Diffusion XL на базе иллюстраций художника и аниматора Феликса Колгрейва, с применением метода LoRA (Low-Rank Adaptation). Итогом обучения должна стать модель, способная генерировать изображения по текстовому описанию в узнаваемом, выразительном и уникальном стиле Колгрейва.
Иллюстрации Колгрейва отличаются высокой степенью стилизации, нестандартным дизайном персонажей и уникальной визуальной пластикой. В его работах можно уловить узнаваемые черты мышей, птиц или людей, однако эти образы зачастую радикально трансформированы, не имея прямых аналогов в реальности. Это делает задачу генерации особенно интересной — необходимо не просто «скопировать стиль», но и захватить авторскую логику трансформации образов.
Проект направлен на исследование возможностей современных генеративных моделей в контексте распознавания и воспроизведения стилистически сложных художественных концептов. Насколько точно нейросеть сможет «понять» и воспроизвести визуальный язык художника? Сумеет ли она интерпретировать и переосмыслить формы, как это делает человек? Иными словами, возможно ли научить ИИ не только имитировать стиль, но и видеть мир глазами художника?


Иллюстрации Феликса Колгрейва, 2021-2022
Датасет
Иллюстрации Феликса Колгрейва и фрагменты из анимационного фильма «Throat notes»
Для работы над проектом был сформирован датасет из 21 изображения, включающий иллюстрации Феликса Колгрейва, созданные в период с 2019 по 2023 год, а также кадры из его анимационного фильма «Throat Notes». Такой выбор обусловлен тем, что, Колгрейв сохраняет характерные черты в своих иллюстративных работах, однако прибегает к различным и не повторяющимся изобразительным решениям в своих мультфильмах. При этом «Throat Notes» наиболее близок к его узнаваемому художественному стилю.
Именно этот датасет был использован для начального этапа обучения нейросети. Позднее, с целью более глубокого анализа потенциала машинного обучения, был создан второй датасет, включающий дополнительные 12 изображений из различных мультфильмов автора. Это позволило расширить охват и попытаться выявить повторяющиеся формы и образы, которые Феликс Колгрейв использует в качестве художественного лейтмотива в своём творчестве.


Фрагменты из анимационного фильма «NYLONS», Феликс Колгрейв, 2021
Во второй датасет вошли фрагменты из таких фильмов, как: «NYLONS», «Double King», «Donks» и музыкального клипа «Don’t hurt me»
Результирующая серия изображений


Сгенерированные изображения: ворона с бантом и красная птица
Первые эксперименты с использованием обученной модели дали положительный результат: благодаря наличию в исходном датасете нескольких изображений птиц, выполненных в стиле выбранного художника, Stable Diffusion смогла точно воспроизвести их характерные черты. Кроме того, нейросети удалось успешно передать особенности работы с деталями и линейной графикой, характерные для творческого почерка Феликса Колгрейва.


Сгенерированные изображения второй эпохи: Красная птица
Тем не менее, вторая эпоха обучения не дала ожидаемых результатов. Несмотря на то, что в некоторых случаях качество графического исполнения улучшилось, начали проявляться ошибки генерации. Так, например, при попытке создать изображение по запросу «Cartoon red bird» нейросеть сгенерировала птицу с лицом персонажа из игры «Angry Birds».
Возможно, причиной этого стало смешение различных визуальных стилей: нейросеть столкнулась с трудностями в объединении разнородных художественных подходов, что привело к некорректной интерпретации образов.
Сверху: пейзажи первой эпохи обучения, снизу: пейзажи второй эпохи обучения
С другой стороны, поскольку в первоначальном датасете отсутствовали изображения пейзажей и основной акцент был сделан на персонажах (в отличие от второго датасета), вторая эпоха обучения продемонстрировала лучшие результаты в передаче пространственной композиции и создании пейзажей. Хотя ошибки генерации всё ещё встречаются, их значительно меньше по сравнению с первым этапом, а визуальный подход к пейзажам стал ближе к тому, что можно было бы ожидать от работ Феликса Колгрейва.
Изображения первой эпохи обучения: человек с бантом, скелет в короне и серая мышь
Анализ итоговой серии изображений показывает, что исходная модель наиболее точно воспроизвела особенности линейной графики, проработку складок на телах персонажей, а также характерное использование цвета и света, присущее стилю Феликса Колгрейва.
Несмотря на успешную передачу визуальных приёмов художника, обученной модели не удалось корректно интерпретировать образы, что привело к многочисленным ошибкам генерации.
Процесс обучения
В ходе работы над проектом использовалась облачная среда Google Colab. Через файловую систему в код был загружен исходный датасет, после чего с помощью модели распознавания изображений BLIP для каждой картинки были автоматически сгенерированы текстовые описания.
Создание пар изображение-описание и токенизация
Этот участок кода выполняет подготовку датасета для обучения нейросети — создаёт JSONL-файл с подписями к изображениям.
К полученным ранее подписям добавляется стилистический префикс, указывающий на стиль Феликса Колгрейва. Далее для каждого изображения формируется JSON-объект с именем файла и соответствующим описанием, которые последовательно записываются в файл metadata.jsonl, предназначенный для дальнейшего использования в процессе обучения нейросети.


Настройки процесса обучения для первой и второй эпох
Наконец, осуществляется обучение модели на исходном датасете. Было проведено два этапа: первый — с ограниченным набором изображений и базовыми параметрами, второй — с расширенным датасетом и улучшенными настройками, влияющими на качество визуализации и число обучающих итераций.
По завершении тренировки полученные веса были загружены на платформу Hugging Face, откуда они могут быть использованы для генерации собственных изображений.