
Идея и цели проекта
Настоящая осень с её дождями и пасмурным небом, время сессии, наполненное стрессом, наводят меня на мысли о художнике Эгоне Шиле, о его способе видеть мир сквозь искажённые формы и невротично-острые линии. Я мечтаю отправиться в настоящее кругосветное путешествие, чтобы отвлечься от всего этого, но пока это невозможно, я делаю это виртуально рука об руку с этим художником.
Используя возможности нейросети, я создаю серию иллюстраций узнаваемых мировых пейзажей и памятников, «отправляя» Шиле в путешествие.


Автопортреты Шиле, иллюстрация 1/15 моего датасета.
Цели проекта:
(1) Исследовать, как визуальный стиль Эгона Шиле может применяться к пейзажам, создавая мост между реальностью, воспоминаниями и художественным взглядом художника.
(2) Проверить, сможет ли нейросеть сгенерировать узнаваемые пейзажи, используя LoRA, обученную исключительно на портретах Шиле.
(3) Посмотреть, как могли бы выглядеть пейзажи глазами портретиста и оценить влияние его характерной экспрессии на интерпретацию окружающего мира.
Работа с кодом
Сначала я подготовила окружение для работы с нейросетями. Установила нужные библиотеки для LoRA, Hugging Face, Diffusers и проверила, что всё корректно установлено.
Далее я занялась подготовкой датасета. Распаковала архив с изображениями Шиле, центрировала каждое изображение на квадратном холсте и изменила размер до 512×512 пикселей. Так я сделала все изображения одинаковыми, чтобы их было удобно использовать для обучения.
Чтобы убедиться, что датасет корректный, я взяла несколько первых изображений, уменьшила их и собрала в один ряд. Это позволило быстро проверить визуально, что все изображения выглядят правильно.
(Слайдер 1, скриншоты 1 и 2)
Скриншоты кода 1 и 2. Подготовка среды и датасета
После этого я сгенерировала текстовые подписи для изображений с помощью модели BLIP. Эти подписи помогают LoRA понять, что изображения должны соответствовать стилю Эгона Шиле. Я добавила префикс, указывающий на экспрессионистский и искажённый стиль, и сохранила всё в метаданные для обучения.
Перед обучением я очистила память GPU, удалив ненужные объекты, чтобы освободить ресурсы для тренировки LoRA. Настроила accelerate для работы с GPU.
Далее я авторизовалась на Hugging Face, чтобы потом иметь возможность сохранять и публиковать обученную модель. После подготовила папку с изображениями, которые будут использоваться для обучения LoRA. Скопировала все подготовленные файлы туда, чтобы обучение работало с чистым набором данных.
(Скриншот 3)
Скриншот кода 3. Подготовка к обучению
Затем я запустила обучение LoRA на базе Stable Diffusion XL. Настроила параметры: размер батча, mixed precision, количество шагов обучения, использование градиентного чекпоинтинга и 8-bit Adam для экономии памяти. LoRA обучалась, чтобы перенять стиль Эгона Шиле с моих изображений. После завершения обучения я создала репозиторий на Hugging Face, сохранила model card с описанием проекта и загрузила все файлы обученной LoRA.
И наконец, я подключила LoRA к Stable Diffusion XL через pipeline и загрузила её на GPU. Теперь модель готова к генерации изображений в стиле Эгона Шиле, и я могу приступить к нашему с Эгоном виртуальному кругосветному путешествию!
(Слайдер 2, скриншоты 4 и 5)
Скриншоты кода 4 и 5. Сам процесс обучения, выгрузка модели
Серия полученных изображений
Промпт — «painting in EGON-SCHIELE style, a detailed view of Big Ben clock tower»
Промпт — «painting in EGON-SCHIELE style, Times Square with billboards and crowds»
Промпт — «painting in EGON-SCHIELE style, Eiffel Tower from the Champ de Mars»
Промпт — «painting in EGON-SCHIELE style, Colosseum in Rome with surrounding ruins»
Промпт — «painting in EGON-SCHIELE style, Statue of Liberty on Liberty Island»
Промпт — «painting in EGON-SCHIELE style, Mount Fuji with cherry blossoms in foreground»
Промпт — «painting in EGON-SCHIELE style, Golden Gate Bridge in fog»
Промпт — «painting in EGON-SCHIELE style, Taj Mahal with reflection in pool»
Промпт — «painting in EGON-SCHIELE style, Sydney Opera House on the harbor»
Промпт — «painting in EGON-SCHIELE style, Sagrada Familia cathedral with surrounding streets»
Промпт — «painting in EGON-SCHIELE style, Machu Picchu ruins with mountains in background»
Промпт — «painting in EGON-SCHIELE style, Kremlin towers and walls from Red Square»
Промпт — «painting in EGON-SCHIELE style, Burj Khalifa skyscraper from street level»
Промпт — «painting in EGON-SCHIELE style, Great Wall winding over mountains»
Промпт — «painting in EGON-SCHIELE style, Great Pyramid of Giza under a clear sky with desert surroundings»
Благодаря простым, однозначным промптам, качественному датасету (собранному мной лично) и использованию узнаваемых, ярких образов результатирующие изображения всегда получались с первого раза, не требовали доработки или уточнения деталей.
Я считаю, что обучение было результативным, но хочу отметить, что большинству изображений не хватает той авторской резкости и динамики, которая свойственна Шиле, хотя общая стилистика более чем отвечает моему запросу. Возможно, это связано с тем, что модель всего лишь обучается приему, но не достигает авторского видения, присущего исключительно человеку.
В завершении хочу сказать, что очень рада за моего нейросетевого Шиле-путешественника!