Сравнение генераций разных моделей нейросетей
Original size 2480x3500
This project is a student project at the School of Design or a research project at the School of Design. This project is not commercial and serves educational purposes
big
Original size 1112x138

Основные принципы работы нейросетей

Нейронная сеть — это математическая модель, вдохновленная структурой и функционированием биологических нейронных сетей мозга. Ее основная задача — научиться распознавать закономерности в данных, а затем использовать эти закономерности для выполнения различных задач, таких как классификация, прогнозирование или генерация нового контента, такого как изображения.

Принципы работы нейросетей построены на исторических разработках, рассмотренных ранее.

В основе лежит идея «нейрона», элементарной вычислительной единицы. Каждый такой искусственный нейрон получает на вход одно или несколько числовых значений. Эти входные данные умножаются на веса, которые отражают важность или силу связи между нейронами. Затем все эти взвешенные входы суммируются. К этой сумме добавляется еще одно значение, называемое «смещением», или же на английском — bias, которое помогает модели лучше адаптироваться к данным.

Полученная сумма проходит через «функцию активации». Эта функция вводит нелинейность в систему, без нее нейронная сеть была бы простой линейной регрессией. Функция активации определяет, насколько сильно нейрон активируется и передает сигнал дальше.

После эти нейроны объединяются в слои. У модели обычно есть три основных типа слоев: входной, скрытые слои и выходной. Входной слой получает исходные данные. Скрытые слои, которые могут быть многочисленными, выполняют основную вычислительную работу. Выходной слой же выдает конечный результат работы сети. К примеру, для задачи классификации изображений выходной слой может состоять из нескольких нейронов, каждый из которых соответствует определенному классу, а его активация покажет вероятность принадлежности изображения к этому классу.

Следующий процесс, при котором данные проходят через нейронную сеть от входного слоя к выходному, называется прямым распространением или forward propagation. Но, чтобы сеть научилась выполнять свою задачу, ей нужно «обучение». Обучение начинается с того, что мы подаем сети обучающие данные, допустим, изображения кошек и ворон вместе. Сеть делает свое «предсказание» на выходном слое. Затем мы сравниваем это предсказание с истинным значением с помощью функции потерь. Функция потерь измеряет насколько сильно нейросеть ошиблась. Чем больше ошибка, тем выше значение функции потерь.

Ключевой шаг обучения — это обратное распространение ошибки или же backpropagation. Это алгоритм, который позволяет вычислить, как изменение каждого отдельного веса и смещения в сети повлияет на общую ошибку. Он распространяет ошибку обратно от выходного слоя к входному, вычисляя «градиенты» — направления, в которых веса и смещения должны быть изменены, чтобы уменьшить ошибку.

Имея эти градиенты, мы используем алгоритм градиентного спуска, итеративный процесс, при котором веса и смещения сети корректируются в направлении, противоположном градиенту, с определенным шагом обучения. Таким образом, нейронная сеть учится, постепенно подстраивая свои внутренние параметры, чтобы все точнее и точнее сопоставлять входные данные с желаемыми выходными.

Если обычные нейронные сети являются дискриминативными, то есть, они учатся различать или классифицировать данные, то генеративные нейронные сети — это порождающие модели. Они не просто распознают объекты, но и создают новые, уникальные изображения, которые никогда не существовали в обучающем наборе, но при этом выглядят вполне реалистично.

Сравнение разных моделей генеративных нейросетей

У каждой модели нейросети есть свои стили, свои особенности, свои «характеры». Они все занимаются генерацией изображений, но делают это по-разному, с разным подходом, и результат у них получается тоже непохожий.

Original size 820x240

Craiyon — нейросеть, которая раньше была известна как DALL-E mini.

Основное направление Craiyon — демонстрация возможностей генеративного ИИ в самой простой и доступной форме. Это open-source проект, который основывается на меньших и менее сложных архитектурах по сравнению с коммерческими моделями и создавался как модель для массового пользования, чтобы каждый мог попробовать свои силы в генерации изображений без каких-либо затрат или глубоких технических знаний. Его задача — быстро и бесплатно выдать визуальное представление текстового запроса, пусть даже оно и будет выглядеть немного сюрреалистично или «по-детски».

Эта модель очень хороша для создания забавных абстрактных концептов, или просто для проверки того, насколько безумной может быть реализация вашей идеи. Craiyon имеет очень характерный, слегка «пластилиновый», низкодетализированный и зачастую комичный стиль. Человеческие лица почти всегда искажены, текст нечитаемый, а объекты могут иметь странные формы или пропорции. Это делает его странным, но в то же время уникальным.

Далее я также рассмотрю возможности генерации каждой из приведенной модели нейросети на примере одного промта

Promt:

A fluffy white sheep gracefully leaps over a vibrant field of colorful wildflowers. Medium shot, natural motion, natural light.

2D-стилистика

Изображения, сгенерированные нейросетью Craiyon

При первых же генерациях можно увидеть фирменный стиль Craiyon. 2D стилистика плохо считывается с изображений. Получившиеся генерации выглядят несерьёзно, слишком неаккуратно и по-детски нелепо, это и их минус, и плюс. Такие изображения делаются очень быстро, их можно использовать как идею или эскиз для будущих, более внушительных работ, а также просто для вдохновения. Но для серьёзных проектов генерации совершенно не пригодны.

3D-стилистика

Изображения, сгенерированные нейросетью Craiyon

3D стилистика получилась чуть лучше, чем 2D, но всё такая же «детская». Форма и анатомия овечки выглядят более убедительно, хоть есть много недочетов.

Реализм

Изображения, сгенерированные нейросетью Craiyon

С реализмом у Craiyon всегда много проблем. Бывают более успешные генерации, как пример слева, но случается это крайне редко. В основном результат выглядит как пример справа. Неправильная анатомия, перекошенные тела или лица, если генерировать людей, много лишних конечностей, как из фильмов ужасов. Craiyon совершенно не подходит для генерации реалистичных изображений, для этой задачи лучше воспользоваться другими моделями.

Original size 820x240

Если генерации модели Craiyon можно сравнить с творчеством ребенка или только начинающего художника, то Stable Diffusion можно сравнить с творчеством талантливого, но пока еще непрофессионального художника.

Stable Diffusion не только генерирует изображения, но также предоставляет фундаментальный инструмент для этого, который может быть адаптирован, модифицирован и улучшен бесчисленным множеством способов. Его основное направление — это создание мощной, гибкой и расширяемой платформы для генерации изображений, которая может быть настроена под самые разнообразные задачи: от фотореализма до аниме, от концепт-арта до предметного дизайна. Его цель — дать пользователю максимальный контроль и свободу. Это модель с открытым исходным кодом.

Основная идея модели — превращение случайного шума в осмысленные изображения по текстовым описаниям или другим входным данным. Stable Diffusion использует архитектуру, основанную на диффузионных моделях, которая обучается на больших датасетах изображений и соответствующих им текстовых описаниях. В процессе обучения модель учится постепенно «очищать» шум, превращая его в изображение, соответствующее заданному описанию.

При генерации новых изображений пользователь вводит текстовое описание, а модель, начиная со случайного шума, модифицирует его, чтобы получить изображение, соответствующее запросу. Это достигается благодаря обученной нейросети, которая умеет предсказывать, как преобразовать шум к изображению, связанному с текстом.

Сгенерированные изображения

2D-стилистика

Изображения, сгенерированные нейросетью Stable Diffusion

Stable Diffusion на первый взгляд справляется уже намного лучше, чем Craiyon, но результат выглядит всё равно не идеально. В умелых руках Stable Diffusion способен генерировать изображения, которые неотличимы от фотографий, высококачественных иллюстраций или профессиональных рисунков. Это зависит от качества промта и настроек. Первые генерации сделаны без регулирования параметров. Хоть овечки выглядят неплохо, цветы на фоне сильно пострадали.

Изображения, сгенерированные нейросетью Stable Diffusion

При том же промте, но отрегулированных настройках, Stable Diffusion выдал совершенно другой результат. Теперь генерации выглядят как полноценные качественные иллюстрации. Овечка пропорциональна, фон не смазанный, цветы четкие. Все формы и объекты хорошо читаются. Результат очень убедительный. С помощью добавления в промт описания можно настроить свет и тени, при этом не слишком меняя полученное изначально изображение.

Реализм

Original size 1111x539

Изображение, сгенерированное нейросетью Stable Diffusion

При стандартных настройках результат генерации реализма почти такой же, как и с 2D стилистикой. Овечка выглядит пропорционально, считываются элементы реализма, но шерсть во многих местах смазанная, как и фон. При стандартных настройках также прослеживаются одни и те же цветовые гаммы, не зависящие от выбранной стилистики. Всё слишком неуместно пёстро.

Изображения, сгенерированные нейросетью Stable Diffusion

С регуляцией настроек результат выглядит уже достойно. Нет пёстрой цветовой гаммы, изображение выглядит практически как фотография. Минус стилистики реализма в Stable Diffusion — даже при должных настройках полученные генерации слишком похожи друг на друга, словно это одно и то же изображение, но с разных ракурсов. Если нужна только одна генерация, то Stable Diffusion хороший выбор, но если генераций одного промта нужно несколько, то эта модель не самый подходящий вариант.

3D-стилистика

Original size 1111x539

Изображение, сгенерированное нейросетью Stable Diffusion

3D стилистика у Stable Diffusion получилась очень хорошо. Минус в том, что эта модель в основном генерирует 3D low-poly стилистику детского стиля. Сделать слишком детализированные изображения нужно будет постараться. Также стилистика мордочки животных у таких генераций слишком узнаваемая и практически повсюду, что делает реализацию определенного фирменного стиля более сложным.

Original size 820x240

Ранее рассмотренный Stable Diffusion — это мощный, но требующий настройки универсальный станок. Midjourney же можно сравнить с элитной художественной студией со своим уникальным, очень узнаваемым стилем и максимально эстетичными и впечатляющими работами.

Midjourney сфокусирован на создании высокохудожественных, визуально захватывающих изображений, часто с элементами фантастики, фэнтези, кинематографичности или сюрреализма. Он не просто генерирует картинки, он создает атмосферу, настроение. Модель обучена на огромном количестве произведений искусства, иллюстраций, профессиональных фотографий, и это явно проявляется в его склонности к драматизму, глубоким цветам и композиционной гармонии.

Он нацелен на художников, дизайнеров, авторов контента, которым важен быстрый, но при этом очень качественный и стильный результат. Непревзойденная эстетика его главное преимущество. Даже при очень простых текстовых запросах Midjourney часто выдает изображения, которые выглядят как профессиональные иллюстрации или концепт-арты. У него есть свой «почерк» — часто это насыщенные цвета, мягкое освещение, внимание к текстурам и общая «художественность».

В отличие от Stable Diffusion, Midjourney является полностью закрытой коммерческой системой, которую нельзя скачать, модифицировать, создавать свои собственные модели или запускать его локально. Midjourney используется только через облачные сервисы. Это дает удобство, но ограничивает свободу.

Хотя в Midjourney есть параметры для соотношения сторон, стилизации, «веса» промта и тому подобное, он все же предоставляет меньше инструментов для детального контроля над композицией, позой или конкретными элементами изображения по сравнению с экосистемой Stable Diffusion. Но это не только минус, но и его плюс, так как для получения впечатляющих результатов не требуется глубокое знание промтинга или множества технических параметров, как в Stable Diffusion.

Сгенерированные изображения

2D-стилистика

Изображения, сгенерированные нейросетью Midjourney

На первых же генерациях Midjourney видно, как они отличаются от генераций других моделей. Изображения выглядят по-детски, но так, словно это концепт-арты профессионального дизайнера и художника. В них чувствуется движение героя, движение цветов. Каждая деталь проработана на высшем уровне. Еще один плюс — эмоции. Обе овечки ощущаются живыми, даже несмотря на 2D стилистику, благодаря их мимике. Можно понять почему Midjourney лидирует при выборе нейросетей у многих пользователей, ведь такие генерации во многом превосходят генерации других моделей и идеально подходят для серьёзных проектов.

Реализм

Original size 1111x539

Изображение, сгенерированное нейросетью Midjourney

Изображения, сгенерированные нейросетью Midjourney

Реализм у Midjourney тоже стилистический. Изображения этой модели не про реалистичные генерации, как фотографии, а про художественный реализм. Изображения выглядят превосходно до мельчайших деталей, но реализма от Midjourney добиться крайне тяжело. Большинство генераций, как и эти, будут выглядеть так, словно это картина профессионального художника, но никак не фотография.

3D-стилистика

Original size 1111x539

Изображение, сгенерированное нейросетью Midjourney

3D стилистика у Midjourney одна из самых удачных. Изображение выглядит цельным, ничего не выбивается из общего фона. Овечка выглядит как стилизованная 3D модель с профессиональным рендером и фирменным мягким светом Midjourney.

Original size 1264x358

Сгенерированные изображения

2D-стилистика

Изображения, сгенерированные нейросетью Leonardo AI

2D стилистика у Leonardo AI проигрывает стилистике Stable Diffusion или Midjourney. Она слишком простая по сравнению с предыдущими, в ней есть недочеты, но для «генераций для себя» она вполне сойдет. Но, хоть изображения среднего уровня, на них хорошо проработаны формы мелких деталей, таких как цветов, а также отлично работает свето-тень. Это огромный плюс.

Реализм

Изображения, сгенерированные нейросетью Leonardo AI

Реализм у Leonardo AI вышел лучше, чем у всех других нейросетей. Генерации выглядят не просто как фотографии, а как кадры из профессионального кино. Очень красивое поле и небо, овечки как настоящие. Свет — изюминка этих изображений. Если на 2D стилистике свет вытягивал генерации, делая их чуть лучше среднего уровня, то здесь он придает эффект «киношного кадра». Благодаря ему изображения выглядят «живыми», на них хочется смотреть еще и еще.

3D-стилистика

Изображения, сгенерированные нейросетью Leonardo AI

3D стилистика тоже неплохая, но смотрится неидеально из-за смешения реалистичного неба, 3D цветов, но очень детализированных, и совсем простенькой овечки. Это не худший результат, но и не самый лучший. Если бы каждый объект был бы выдержан в одном стиле, то генерации выглядели бы намного убедительнее.

Сгенерированные видео

Leonardo AI также способен генерировать не только изображения, но и видео. Для таких генераций у Leonardo AI есть отдельная плашка с выбором стилистики из предложенных вариантов. Если никакой вариант не подошел, то нейросеть будет опираться исключительно на промт.

Original size 790x456

Первое сгенерированное видео было со стилистикой «Clay Animation». Промт использовался тот же, что и для изображений. Видео в такой стилистике вышло очень умилительным и с убедительным визуалом. Овечка хорошо детализированная, фон тоже, словно это детский мультик из пластилина. В начале у овечки есть несколько неровных шагов, но потом, на протяжении всего видео, она идет очень хорошо, нет никаких артефактов или косых неуклюжих движений. Даже ушки и хвост качаются в такт. Генерация вышла сказочной, почти на высшем уровне.

Original size 832x480

Видео, сгенерированное нейросетью Leonardo AI

Вторая генерация была в стилистике «Dark Fantasy». Здесь уже присутствует фирменный «киношный» стиль Leonardo AI. Овечка выглядит как настоящая, хорошо падает свет без лишних теней или засветов. Движения тоже радуют, у овечки не страдает анатомия, и помимо этого, при ее ходьбе цветы рядом с ней двигаются от ее шагов, а цветы на фоне слегка заметно колышутся от ветра. Обе генерации очень порадовали, несмотря на совершенно разные стилистики, результаты одинаково хороши, и их можно много где использовать.

Original size 832x480

Изображение, сгенерированное нейросетью Leonardo AI

В Leonardo AI есть функция анимирования уже созданной генерации. Для этого я сгенерировала изображение в стилистике «Felted», чтобы протестировать то, как нейросеть справится с анимацией шерстяных вязаных объектов.

Original size 640x368

Видео, сгенерированное нейросетью Leonardo AI

Нейросеть действительно анимировала изначальное изображение, не изменяя его и не добавляя в него новых деталей. Текстура шерсти осталась такой же, в некоторый моментах видео даже видна анимация ворсинок. В генерации вышло хорошо всё, кроме движений. Прыжки овечки здесь нереалистичные, она сначала, как и должна, подпрыгивает с земли, а потом делает два странных полупрыжка в воздухе. Стилистика превосходная, и на предыдущих генерациях проблем с движениями практически не было, так что это не критично.

Вывод

Craiyon подойдет для создания смешных нелепых изображений или набросков для будущих работ. Для серьезных проектов совершенно не тот вариант.

Stable Diffusion — хорошая средняя модель. Она подойдет и для обычных пользователей, и для профессионалов, которые хорошо разбираются в настройках генераций.

Midjourney — прекрасная модель для стилизации. Она может генерировать изображения, которые выглядят как профессиональные иллюстрации или концепт-арты. У генераций всегда будет присутствовать «художественность», качественные текстуры и убедительный, но мягкий стиль. Единственный минус — слишком мало настроек, поэтому опираться придется исключительно на промт.

Leonardo AI для тех, кто хочет поэкспериментировать, но на более серьезном уровне, чем у модели Craiyon. Если хорошо разобраться, то можно сгенерировать уверенную стилизацию, потрясающие реалистичные изображения, и даже видео с практически не страдающей анатомией и без артефактов.

Эксперимент с генерациями показал, что нет плохой модели нейросети. Каждая из них в чем-то хороша, а в чем-то не очень. Всё зависит от задачи и ожидаемых пользователем результатов. Поэтому модель нейросети нужно выбирать, опираясь на нужный стиль генерации.

Сравнение генераций разных моделей нейросетей
4
Chapter:
1
2
3
4
5
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more