Original size 1806x2549

Сгенерированный Поль Сезанн и нейрожуткое

PROTECT STATUS: not protected
4

Концепция

Основной задачей проекта — обучение генеративной нейросети Stable Diffusion стилистике определённого художника. Источником вдохновения послужил французский постимпрессионист Поль Сезанн. Во-первых, пастозная манера письма Сезанна, изобилующая цветовыми пятнами и нечёткими контурами, позволила бы успешно скрыть артефакты сгенерированных изображений. Во-вторых, художник писал картины в различных жанрах, что расширяет будущие генеративные возможности обученной нейросети. Также была поставлена задача провести наблюдение за тем, как точно нейросеть способна уловить настроение картины, основываясь на незначительных изменениях формулировок промптов. Как поведёт себя нейросеть при генерации сюжетов и образов, далёких от тех, что представлены в датасете? Что если бы Сезанн черпал вдохновение из жуткого? Финальный лонгрид представляет собой несколько пар изображений, сгруппированных по ключевым словам и сюжетам, но в то же время кардинально различающихся по атмосфере. Слева — нейрожуткое, справа — сезанновское.

Исходные изображения

0

Датасет:

- 35 изображений - размер: 1024×1024 - формат файла: jpg

Процесс обучения. Описание применения генеративной модели

Используемые инструменты:

Stable Diffusion — обучаемая генеративная нейросеть.

Hugging Face — получение токена, загрузка полученной модели на сайт.

Google Colab — написание/запуск кода и генераций.

Original size 3500x2024

После проверки GPU и скачивания необходимых моделей была создана папка «psezann» в пространстве Google Colab с предварительно кадрированными картинами. Для проверки доступа к датасету загруженные изображения были выведены на экран.

Original size 3500x1855

Нейросеть анализирует датасет и генерирует промпты на основе приведённых изображений.

Original size 3468x1700

Обучение нейросети заняло около полутора часов. Были выбраны следующие параметры: 1000 шагов с сохранением в репозиторий Hugging Face через каждые 500; для ускорения обучения объекты датасета были уменьшены до размера 512×512 пикселей и подавались батчами по 2 единицы.

Итоговая серия изображений

photo collage in pSEZANN style, dark blue lake, black swans, red stars, midnight /// photo collage in pSEZANN style, blue lake, swans, noon, white clouds

Неудивительно, что нейросеть успешно сумела воссоздать сезанновские пейзажи, которых в датасете было подавляющее большинство. Справилась она и с генерацией птиц, которые в постимпрессионистической манере выглядят достаточно эффектно. Примечательно, что разница в настроение передана не только цветами, указанными в промптах, но и композиционно — чёрно-красные лебеди «рассыпались» по озеру тревожными тёмными пятнами, в то время как на правом изображении белые, крупные птицы создают менее напряжённый ритм.

photo collage in pSEZANN style, angry bald man, gold spikes in background, black background /// photo collage in pSEZANN style, happy man in green hat, gold flowers in background

Портреты людей получились резки и угловаты для Сезанна, но экспрессивны, что работает на динамику и выразительность сюжетов. Позы персонажей противопоставлены друг другу — угрюмый антагонист с поднятыми плечами и открытый миру добряк, расправивший спину.

photo collage in pSEZANN style, creepy mushrooms in basket, mold /// photo collage in pSEZANN style, fresh fruits in basket, butterflies, sun rays

photo collage in pSEZANN style, big dark window, creepy gloomy sky, rotten apples, cat skeletons /// photo collage in pSEZANN style, big window, blue sky, apples, orange cats

Нейросеть хорошо обучилась «фирменным» элементам натюрмортов Сезанна — красно-зелёно-жёлтым фруктам и ниспадающим драпировкам с живописными складками. Но генерация животных оставляет желать лучшего, что особенно заметно но примере скелета кота и его расплывчатым живым собратьям.

photo collage in pSEZANN style, liminal space, yellow corridor, creepy /// photo collage in pSEZANN style, yellow corridor, sunshine, windows, pink curtain

Мазки постимпрессиониста узнаваемы во всех сгенерированных картинах, но цветовая гамма работ не всегда придерживается стилистике художника. Это вполне объяснимо тем, что работы Сезанна едва ли можно охарактеризовать как «creepy». Потому нейросеть периодически обращается к болезненно-жёлтым оттенкам хорроров.

photo collage in pSEZANN style, spooky village, red bloody sun, midnight /// photo collage in pSEZANN style, sunset village, peaceful

Пейзажи — самый удачный жанр для генерации. Они сохранили расплывчатость и дымку оригинальных картин. В них заметна и текстура краски, и светотень, написанная чистыми цветами, которые присущи картинам Сезанна.

Заключение

Таким образом, нейросеть способна успешно улавливать общее настроение картины, анализируя промпт целиком, а не отдельные слова. Она чётко придерживается заданной стилистики при относительно небольшом датасете, оставаясь гибкой. Например, создаёт сюжеты и образы, которые не свойственны художнику, сохраняя технику живописца. Это открывает новые возможности в сфере генеративных технологий и позволяет по-новому взглянуть на изобразительные мотивы прошлого.

Сгенерированный Поль Сезанн и нейрожуткое
4
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more