
Описание идеи
С детства мне отчетливо запомнились образы, которые рисовал в своих картинах Хаяо Миядзаки. Я нашла датасет в открытом доступе с нарезками из анимационных фильмов Ghibli Studio и решила попробовать создать картинки в стиле Ghibli
изображения в стиле Ghibli
Написание кода
Изучив уже существующие наработки пользователей и собранные датасеты, я нашла набор изображений из фильмов Ghibli studio на HuggingFace, с хорошей полнотой
С использованием модуля datasets я загрузила набор данных в среду выполнения
загрузка набора данных

Структура датасета такова, что все изображения в указанном наборе данных сразу сопровождаются промптами к ним (поле caption), что позволило мне не генерировать их по отдельности
пример изображений
Особенностью представленного датасета является файт того, что изображения в нём не соответствуют формату 1 к 1, заявленному в задании. Поэтому прежде чем сохранять их в директорию в среде выполнения, я добавила предобработку фотографий, позволяющую привести их к формату квадратных изображений. Также с целью экономии ресурсов было принято решение оставить в нашем наборе данных только первые 200 фотографий
доработка кода
Теперь всё готово для обучения собственной модели, которая в дальнейшем будет использоваться для реализации наших промтов. Процесс обучения занял примерно 47 минут
Следующий этап генерация фото моей предобученной моделью. Загрузим её и протестируем
Пробуем промптить и получаем следующие результаты
prompt: photo in Ghilbi style, a frog in hat
prompt: photo in Ghilbi style, A young girl sitting by the window of an old train crossing a sea bridge
prompt = «photo in Ghilbi style, young boy go through mystical forest, giant tree spirits, moss-covered stones, shafts of sunlight through mist, delicate atmosphere, hand-painted look, magical realism
prompt = «photo in Ghilbi style, young boy»
prompt = «photo in Ghilbi style, girl with baloon walking on the hills»
prompt = «photo in Ghilbi style, grandpa sitting on the porch»
По итогам тестирования модели и результатов её работы наблюдаем успешную генерацию фотографий в стиле Ghibli Studio. На некоторых изображениях можно наблюдать незначительное размытие контура фигур, это возможно исправить при помощи повышения объемов выборки и качества изображений при обучении модели.
Вместе с тем, хотелось бы отметить, что. модель гораздо лучше справляется с односложными формулировками
Тем не менее, полученный результат хорошо передает стилистику картин, персонажей и окружающего мира Ghibli studio, что и было желаемым результатом