Концепция

Проект направлен на обучение модели Stable Diffusion генерации изображений в стиле, основанным на средневековых манускриптах.
Основная задача — оценить, насколько нейросеть способна воспроизводить стиль и генерировать визуально целостные и применимые изображения.
В качестве обучающего материала использовались изображения из старинных манускриптов, приведенные к квадратному формату. В выборку вошли как небольшие декоративные фрагменты, так и целостные иллюстрации.

Исходные изображения


Иллюстративные фрагменты из записей
Полноценные иллюстрации
Процесс обучения
Сначала у меня идет техническая часть: проверка графического процессора и установка необходимых библиотек для работы со Stable Diffusion XL, LoRA и DreamBooth.
После был загружен обучающий скрипт DreamBooth для SDXL, который используется для запуска обучения LoRA на моем наборе изображений.
Далее были заданы рабочие директории для обучающих изображений и файлов, а также специальный токен стиля «mdvlstyle».
И затем были загружены обучающие изображения.


После подготовки датасета, я запустила процесс обучения LoRA-адаптера. Поскольку в основе лежит довольно детальный стиль, моим оптимальным решением было оставить 700 шагов.
И как модель «обучилась», уже пошел процесс создания самих изображений.


Сгенерированный результат
Негативный промпт у всех был один: «photo, realistic, 3d, render, modern, blurry, low quality»
Обычный промпт: «mdvlstyle medieval illuminated manuscript, flat stylized composition, highly detailed» Отличие было лишь в добавлении персонажей.


«mdvlstyle medieval illuminated manuscript, green dragon with long neck and wings,» «curled body, decorative marginalia, gold leaf background, parchment texture,» «flat stylized composition, naive perspective, highly detailed»


«mdvlstyle medieval illuminated manuscript, king being crowned by a noblewoman,» «ceremonial scene, gothic arches, gold leaf background, ornate frame,» «flat stylized composition, medieval clothing, highly detailed»
«mdvlstyle medieval illuminated manuscript, rabbits fighting with swords, humorous scene,» «marginalia illustration, ornate border, gold leaf, parchment, flat stylized composition,» «highly detailed, whimsical»
«mdvlstyle medieval illuminated manuscript, alchemist mixing potions at a table» «strange creatures around, symbolic objects, circular composition, gold leaf,» «ornate decorations, flat stylized composition, highly detailed»
Итоги
Нейросеть хорошо справилась с передачей цветовой гаммы и узорности. Однако ей тяжело делать что-то более необычное, например, мифических животных, добавляя лишние лапы или «переломы».
Были использованы: — Photoshop (для обрезания изображений) — Google Collab (написание кода) — Stable Diffusion (обучение генеративной модели)




