Original size 1140x1600

Обучение генеративной нейросети: бабочки

Данный проект исследует обучение генеративной модели Stable Diffusion для создания высокореалистичных, детализированных и эстетически привлекательных изображений бабочек. Основное внимание уделяется глубокой передаче их анатомической точности, уникальных узоров крыльев и естественной красоты в различных природных контекстах.

На основе обширной и разнообразной подборки фотографий бабочек, включающей различные виды, ракурсы, условия освещения и природные ландшафты, нейросеть обучается изучению визуального языка бабочек:

• Анатомических особенностей: Точная передача форм тела, усиков, ног и, конечно, структуры крыльев. • Уникальных узоров и текстур: Воспроизведение сложнейших рисунков на крыльях, их цветовых переходов, а также микротекстуры чешуек. • Цветовой палитры и иризации: Имитация богатого спектра естественных оттенков, от ярких и насыщенных до нежных и пастельных, а также эффектов иризации, присущих многим видам. • Естественного взаимодействия с окружающей средой: Позиционирование бабочек в их естественных условиях (на цветах, ветках, в воздухе), с учетом освещения, глубины резкости и атмосферы природного ландшафта.

Главная цель — развитие способности нейросети генерировать фотореалистичные изображения бабочек, которые не только выглядят естественно, но и обладают художественной ценностью. А также обеспечение узнаваемости и биологической правдоподобности изображаемых видов и их естественных поз.

Для проекта был создан датасет, состоящий из 124 изображений бабочек в естественных условиях, в основном голубых

Original size 1830x1884

Процесс

Обучение нейросети

1. Инициализация среды: подключение необходимых библиотек, монтирование Google Drive к среде Google Colab, и настройка файловой структуры проекта путем указания путей к рабочим директориям.

2. Конфигурация обучения: определение CFG — структуры, содержащей основные гиперпараметры, управляющие ключевыми аспектами процесса обучения нейросети.

3. Модуль сбора данных: реализация утилиты для автоматического поиска и индексации изображений, которая рекурсивно сканирует указанную папку и собирает полные пути ко всем найденным изображениям с заданными расширениями.

4. Определение структуры данных: создание класса датасета, определяющего логику загрузки, предобработки и форматирования отдельных изображений для последующего использования в процессе обучения.

5. Подготовка модели: загрузка предварительно обученной модели Stable Diffusion и инициализация метода LoRA для кастомизации и адаптации модели к целевой задаче.

6. Цикл обучения: модель обрабатывает данные, оценивает ошибки и корректирует свои параметры для улучшения результатов.

7. Сохранение: итоговые параметры LoRA модели сохраняются для дальнейшего использования.

Генерация изображений

1. Инициализация рабочего окружения: импорт необходимых библиотек, подключение Google Drive к среде Google Colab, и настройка директорий для хранения входных и выходных данных.

2. Конфигурация параметров генерации: определение ключевых настроек, управляющих процессом создания изображений, включая параметры, влияющие на стиль, детализацию и композицию.

3. Подготовка генеративной модели: загрузка базовой модели Stable Diffusion и применение обученного LoRA адаптера для получения кастомизированной модели, готовой к генерации изображений.

4. Промпты: список текстовых описаний, определяющих, что должно быть изображено, задающих стиль, содержание и другие характеристики будущих изображений.

5. Механизм создания изображения: функция, определяющая пошаговую логику генерации одного уникального изображения на основе заданного промпта и настроек модели.

6. Автоматизация генерации: основной цикл, который последовательно запускает функцию генерации для каждого промпта из списка, обеспечивая создание серии изображений.

блокнот и датасет

Результатом стала серия детализированных изображений бабочек, охватывающая множество видов, ракурсов и природных окружений. Эти изображения демонстрируют высокую степень реализма, точность в передаче уникальных узоров крыльев и богатой цветовой гаммы, а также естественность в контексте их обитания. Проект предлагает новое прочтение фотореалистичного искусства, где машинный интеллект способен воссоздать хрупкую и величественную красоту этих насекомых с художественной выразительностью.

Original size 4500x3000

Вывод

Изображения получились яркими и интересными. По композиции нареканий абсолютно нет, фотографии выглядят естественно. Но в вопросе точности анатомии все еще есть проблемы, если приглядываться можно распознать искуственный интеллект. В целом основная задача была выполнена и фотографии привлекают своей выразительностью, можно с легкостью утверждать, что по художественной ценности они превзошли свои референсы.

Обучение генеративной нейросети: бабочки

Marina Karimova

artificial intelligence

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...