ИИ в генерации 3d контента
Original size 840x1264

Теперь, обозначив критерии хорошей модели, мы можем приступить к сравнению ИИ сервисов для создания 3D моделей. Мы сравним качество моделей не только по некоторым пунктам (общий вид, текстуры, UV, топология), но и по способам создания (текстовый запрос, по референсу, по целевой задачи).

В этой главе мы рассмотрим такие ИИ сервисы как Tripo, Rodin, Meshy и Luma AI. Познакомимся с ними поближе.

Rodin — бесплатный ИИ сервис по созданию 3D моделей. У него понятный интуитивный интерфейс, гибкие настройки генерации, а также обширные возможности формата модели для скачивания.

big
Original size 1919x736

Интерфейс Rodin

big
Original size 1121x749

Пример генерации Rodin

Tripo AI менее функционален, более прямолинеен: генерация либо по фото, либо по текстовому запросу. Он также бесплатен и дает большое количество токенов для генераций. Сгенерированные модели можно в отдельном окне покрутить, стилизовать, сделать риг и другие манипуляции с готовой моделью.

big
Original size 1919x823

Интерфейс Tripo

Original size 1529x919

Пример генерации Tripo

Meshy — наиболее популярный сервис из всех. Развитый интерфейс, много функций делают его наиболее приятным для новичков. Стабильно достойные генерации, изменение текстуры и формы в редакторе, много токенов. Единственное — некоторые важные функции не доступны с бесплатной подпиской.

Original size 1919x926

Интерфейс Meshy

Original size 959x659

Пример генерации Meshy

Luma AI — это сервис, использующий фотограмметрию для создания 3D-моделей и видео на основе обычных фотографий. Его главная особенность — преобразовывать фото в 3D сцены. Мы остановимся именно на этой функции, которую разовьем в конце этой главы как отдельный уникальный метод работы с фотограмметрией при помощи ИИ.

Original size 1919x934

Пример работы Luma

В рамках исследования качества моделей, создаваемых с помощью ИИ, мы будем сравнивать их с критериями, описанными в разделе «Стандарты хорошей модели». Это позволит объективно оценить, насколько алгоритмы соответствуют профессиональным требованиям, включая топологию, качество текстур и правильность UV развертки.

Text to 3D: неорганическая модель

Текстовый запрос для генерации будет единым. Пусть это будет что-то с грубыми формами, но и имеющее нечто сложное и необычное — стол в стиле рококо.

Рендер производим в блендере в режиме EEVEE.

Original size 1920x1080

Результат от Tripo

Original size 1920x1080

Результат от Tripo

Модель получилась достойной с хорошими формой, пропорциями, нужными деталями: элегантные ножки, красивая лепнина, соблюден нужный стиль мебели.

Original size 966x610

Топология от Tripo

Топология тоже хорошая. Соблюдаются направления лупов, общие их направления на плоских участках, ножках. Но она теряется на местах лепнины, формой она никак не выражается, только текстурой.

Original size 2480x1350

UV развертка от Tripo

UV неоднозначная. В простых плоских местах Tripo сделал логичные разделения: участки основы стола хорошо поделены по проекции. Вместе с этим мы видим кашу из маленьких островков.

Original size 978x610

Текстура от Tripo

Original size 1034x568

Косяки в текстуре от Tripo

В общем текстура вышла хорошая, с PBR материалами, но при детальном рассмотрении очевидно видны косяки, которые придется долго править. Причем в продакшене ситуация бы становилась еще хуже: пришлось бы часами выискивать всевозможные недочеты.

Original size 1920x1080

Генерация от Meshy

Original size 777x542

Генерация от Meshy

Этот стол тоже хорош. Сочетание лепнины с выразительными формами также попадают в наш текстовый запрос.

Original size 975x730

Топология от Meshy

Топология местами плохая: лупы уходят в треугольники, лепнина в форме не читается.

Original size 908x906

UV от Meshy

UV также получилась неидеальна: те же многочисленные островки, делающие местами развертку нечитаемой.

Original size 1920x1080

Генерация Rodin

Эта модель получилась хуже предшественников: слишком мыльные текстуры, плохие материалы, скудная лепнина.

Original size 924x775

Топология от Rodin

При этом топология здесь лучше: Rodin выразил лепнину полигонами, а не текстурами, что заметно его выделяет.

Original size 912x910

UV от Rodin

В этой UV хорошее деление на смысловые части модели, но все равно есть небольшое количество лишних мелких островков.

Text to 3D: персонаж

Генерация персонажей более интересна: посмотреть на пропорции, креативные решения в одежде, деталях. Наш промпт — чумной доктор средневековья.

Далее мы сконцентрируемся на общем ощущении от моделей, их форме и их текстурах, так как топология и UV будут иметь те же недостатки, разобранные выше.

Original size 1920x1080

Генерация от Tripo

Original size 1920x1080

Генерация от Meshy

Original size 1920x1080

Генерация от Rodin

Все модели получились достойными с сохранением атрибутов, подходящих под запрос, креативными решениями в образах докторов. Результат от Tripo выделяется: он и наиболее реалистичен, и наиболее качественен в отображении материалов, но в то же время другие модели тоже хороши, если бы цель была стилизовать персонажа.

Text to 3D: практика

Кроме двух классических подходов, я бы хотел привнести в исследовании конкретики и создать модели, которые бы мог и сам использовать в своем дипломном проекте. На данный момент мне нужен: классический вьетнамский алтарь.

Original size 1920x1080

Генерация от Tripo

Original size 1920x1080

Генерация от Meshy

Original size 1920x1080

Генерация от Rodin

Модель от Tripo получилась наиболее целостной и достоверной, в то время как у Meshy неровное моделирование колонн, висящие в воздухе элементы, а Rodin сгенерировал менее креативный результат.

Image to 3D: неорганическая модель

Теперь при генерации моделей мы возьмем конкретное фото. Пусть это будет азиатский высокий особняк.

Original size 1280x1280

Референс для генерации

Original size 1920x1080

Генерация от Tripo

Original size 1920x1080

Генерация от Meshy

Original size 1920x1080

Генерация от Rodin

Все три ИИ хорошо справились с формой и материалами, но Tripo ярко выделяется на фоне остальных более сочным шейдингом и большей детализацией.

Image to 3D: персонаж

При подборке референса для ИИ важно подобрать качественное фото в анфас, чтобы ИИ точно осознал модель. Наш референс — стилизованный «ботаник».

Original size 640x640

Референс для генерации

Original size 1920x1080

Генерация от Tripo

Original size 1920x1080

Генерация от Meshy

Original size 1920x1080

Генерация от Rodin

В целом у всех трех ИИ получилось неплохо. У Rodin и Meshy правильная топология, когда как у Tripo склеенные пальцы рук, штанины. В материалах Tripo тоже заметно хуже: странные оттенки кожи, большое количество косяков в текстуре головы.

Image to 3D: практика

Посмотрим, как ИИ решили практическую задачу: у моего проекта должен быть детализированный хлопок, который бы я мог показать в близких ракурсах.

Original size 700x700

Референс хлопка

Original size 1920x1080

Генерация от Tripo

Original size 1920x1080

Генерация от Meshy

Original size 1920x1080

Генерация от Rodin

Rodin вставил палки в сами бутоны хлопка, Meshy не добавил листву, Tripo показал заметно лучше результат.

NERF на основе сгенерированного видео

NERF представляет собой подход, при котором искусственная нейросеть создаёт плотное представление сцены, включая её геометрию и освещение. Это позволяет достичь высокого уровня реализма и точности, особенно в условиях сложных световых и текстурных конфигураций. Благодаря этому подходу можно быстро и эффективно преобразовывать 2D данные в интерактивные 3D среды, минимизируя затраты на традиционные методы фотограмметрии.

Заместо того, чтобы куда-то идти искать конкретный существующий объект для съемки я предлагаю генерировать реалистичные видео (по возможности просить ИИ сделать оборот 360 градусов) и делать фотограмметрию. Это и быстро, и экономно. Как пример, я взял нашумевшую Sora, которая на данный момент выдает наиболее хорошие результаты в генерации видео.

Методология включает преобразование видео, созданного с помощью Sora, в секвенцию отдельных кадров. Эти кадры затем используются для обучения NERF в сервисе Luma AI, который позволяет генерировать 3D сцену, напоминающую фотограмметрию, но полностью основанную на рендеринге.

Original size 1919x936

NERF на основе видео от Sora

Original size 1919x935

NERF на основе видео от Sora

В результате мы получаем объемную 3D сцену, основанную на нескольких кадрах из сгенерированного видео, которую можно использовать как основу для последующей работы.

Chapter:
1
2
3
4
5
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more