
Теперь, обозначив критерии хорошей модели, мы можем приступить к сравнению ИИ сервисов для создания 3D моделей. Мы сравним качество моделей не только по некоторым пунктам (общий вид, текстуры, UV, топология), но и по способам создания (текстовый запрос, по референсу, по целевой задачи).
В этой главе мы рассмотрим такие ИИ сервисы как Tripo, Rodin, Meshy и Luma AI. Познакомимся с ними поближе.
Rodin — бесплатный ИИ сервис по созданию 3D моделей. У него понятный интуитивный интерфейс, гибкие настройки генерации, а также обширные возможности формата модели для скачивания.

Интерфейс Rodin

Пример генерации Rodin
Tripo AI менее функционален, более прямолинеен: генерация либо по фото, либо по текстовому запросу. Он также бесплатен и дает большое количество токенов для генераций. Сгенерированные модели можно в отдельном окне покрутить, стилизовать, сделать риг и другие манипуляции с готовой моделью.

Интерфейс Tripo
Пример генерации Tripo
Meshy — наиболее популярный сервис из всех. Развитый интерфейс, много функций делают его наиболее приятным для новичков. Стабильно достойные генерации, изменение текстуры и формы в редакторе, много токенов. Единственное — некоторые важные функции не доступны с бесплатной подпиской.
Интерфейс Meshy
Пример генерации Meshy
Luma AI — это сервис, использующий фотограмметрию для создания 3D-моделей и видео на основе обычных фотографий. Его главная особенность — преобразовывать фото в 3D сцены. Мы остановимся именно на этой функции, которую разовьем в конце этой главы как отдельный уникальный метод работы с фотограмметрией при помощи ИИ.
Пример работы Luma
В рамках исследования качества моделей, создаваемых с помощью ИИ, мы будем сравнивать их с критериями, описанными в разделе «Стандарты хорошей модели». Это позволит объективно оценить, насколько алгоритмы соответствуют профессиональным требованиям, включая топологию, качество текстур и правильность UV развертки.
Text to 3D: неорганическая модель
Текстовый запрос для генерации будет единым. Пусть это будет что-то с грубыми формами, но и имеющее нечто сложное и необычное — стол в стиле рококо.
Рендер производим в блендере в режиме EEVEE.
Результат от Tripo
Результат от Tripo
Модель получилась достойной с хорошими формой, пропорциями, нужными деталями: элегантные ножки, красивая лепнина, соблюден нужный стиль мебели.
Топология от Tripo
Топология тоже хорошая. Соблюдаются направления лупов, общие их направления на плоских участках, ножках. Но она теряется на местах лепнины, формой она никак не выражается, только текстурой.
UV развертка от Tripo
UV неоднозначная. В простых плоских местах Tripo сделал логичные разделения: участки основы стола хорошо поделены по проекции. Вместе с этим мы видим кашу из маленьких островков.
Текстура от Tripo
Косяки в текстуре от Tripo
В общем текстура вышла хорошая, с PBR материалами, но при детальном рассмотрении очевидно видны косяки, которые придется долго править. Причем в продакшене ситуация бы становилась еще хуже: пришлось бы часами выискивать всевозможные недочеты.
Генерация от Meshy
Генерация от Meshy
Этот стол тоже хорош. Сочетание лепнины с выразительными формами также попадают в наш текстовый запрос.
Топология от Meshy
Топология местами плохая: лупы уходят в треугольники, лепнина в форме не читается.
UV от Meshy
UV также получилась неидеальна: те же многочисленные островки, делающие местами развертку нечитаемой.
Генерация Rodin
Эта модель получилась хуже предшественников: слишком мыльные текстуры, плохие материалы, скудная лепнина.
Топология от Rodin
При этом топология здесь лучше: Rodin выразил лепнину полигонами, а не текстурами, что заметно его выделяет.
UV от Rodin
В этой UV хорошее деление на смысловые части модели, но все равно есть небольшое количество лишних мелких островков.
Text to 3D: персонаж
Генерация персонажей более интересна: посмотреть на пропорции, креативные решения в одежде, деталях. Наш промпт — чумной доктор средневековья.
Далее мы сконцентрируемся на общем ощущении от моделей, их форме и их текстурах, так как топология и UV будут иметь те же недостатки, разобранные выше.
Генерация от Tripo
Генерация от Meshy
Генерация от Rodin
Все модели получились достойными с сохранением атрибутов, подходящих под запрос, креативными решениями в образах докторов. Результат от Tripo выделяется: он и наиболее реалистичен, и наиболее качественен в отображении материалов, но в то же время другие модели тоже хороши, если бы цель была стилизовать персонажа.
Text to 3D: практика
Кроме двух классических подходов, я бы хотел привнести в исследовании конкретики и создать модели, которые бы мог и сам использовать в своем дипломном проекте. На данный момент мне нужен: классический вьетнамский алтарь.
Генерация от Tripo
Генерация от Meshy
Генерация от Rodin
Модель от Tripo получилась наиболее целостной и достоверной, в то время как у Meshy неровное моделирование колонн, висящие в воздухе элементы, а Rodin сгенерировал менее креативный результат.
Image to 3D: неорганическая модель
Теперь при генерации моделей мы возьмем конкретное фото. Пусть это будет азиатский высокий особняк.
Референс для генерации
Генерация от Tripo
Генерация от Meshy
Генерация от Rodin
Все три ИИ хорошо справились с формой и материалами, но Tripo ярко выделяется на фоне остальных более сочным шейдингом и большей детализацией.
Image to 3D: персонаж
При подборке референса для ИИ важно подобрать качественное фото в анфас, чтобы ИИ точно осознал модель. Наш референс — стилизованный «ботаник».
Референс для генерации
Генерация от Tripo
Генерация от Meshy
Генерация от Rodin
В целом у всех трех ИИ получилось неплохо. У Rodin и Meshy правильная топология, когда как у Tripo склеенные пальцы рук, штанины. В материалах Tripo тоже заметно хуже: странные оттенки кожи, большое количество косяков в текстуре головы.
Image to 3D: практика
Посмотрим, как ИИ решили практическую задачу: у моего проекта должен быть детализированный хлопок, который бы я мог показать в близких ракурсах.
Референс хлопка
Генерация от Tripo
Генерация от Meshy
Генерация от Rodin
Rodin вставил палки в сами бутоны хлопка, Meshy не добавил листву, Tripo показал заметно лучше результат.
NERF на основе сгенерированного видео
NERF представляет собой подход, при котором искусственная нейросеть создаёт плотное представление сцены, включая её геометрию и освещение. Это позволяет достичь высокого уровня реализма и точности, особенно в условиях сложных световых и текстурных конфигураций. Благодаря этому подходу можно быстро и эффективно преобразовывать 2D данные в интерактивные 3D среды, минимизируя затраты на традиционные методы фотограмметрии.
Заместо того, чтобы куда-то идти искать конкретный существующий объект для съемки я предлагаю генерировать реалистичные видео (по возможности просить ИИ сделать оборот 360 градусов) и делать фотограмметрию. Это и быстро, и экономно. Как пример, я взял нашумевшую Sora, которая на данный момент выдает наиболее хорошие результаты в генерации видео.
Методология включает преобразование видео, созданного с помощью Sora, в секвенцию отдельных кадров. Эти кадры затем используются для обучения NERF в сервисе Luma AI, который позволяет генерировать 3D сцену, напоминающую фотограмметрию, но полностью основанную на рендеринге.
NERF на основе видео от Sora
NERF на основе видео от Sora
В результате мы получаем объемную 3D сцену, основанную на нескольких кадрах из сгенерированного видео, которую можно использовать как основу для последующей работы.