3d内容生成-韭研公社

登录注册

3d内容生成

自性

2024-03-06 07:59:01

电子发烧友网报道（文/吴子鹏）近日，一款名为DUSt3R的AI新工具在GitHub上爆火。DUSt3R能够在短短2秒钟内通过仅有2张图片完成3D 重建，让许多网友大呼惊奇，甚至认为这比之前热门的Sora更加实用。
有考古从业者称，在考古现场，构建3D模型是非常必要且难度很大的工作，通过DUSt3R快速重建出土文物的3D形状，是一个非常高效的方式。同时，DUSt3R在游戏和建筑等领域也有非常多的应用场景。
目前，DUSt3R在GitHub上的热度非常高，已经排名在GitHub热榜的第二名。根据网友实测，只需要拍摄两张照片，DUSt3R就可以完成家庭厨房或者摩托车的3D建模，并且除了3D图，还有深度图、置信度图和点云图。
图片
图源：naverlabs.com
图片
图源：naverlabs.com
，时长00:08

实际上，早在一两年前GPT刚刚兴起的时候，就有人讨论过通过AI模型工具来完成3D建模，不过当时的试验结果表明，这是一项非常难的工作。
根据当时的讨论，AIGC用于3D内容生成，主要有三个方面的挑战。其一是原始训练素材库需要比较高质量的2D图片，且需要的数量比较大，并辅助大量的计算资源来配合。不过，受限于当时的算法模型，最终出来的效果都不太好。
其二是算法模型本身，在GPT热潮初期，文生文，以及文生图，都是2D层面的探索，生成复杂的3D模型需要更加复杂的算法。有算法工程师指出，这是完全不一样的算法模型，需要从底层重新梳理。
其三是质量缺陷。基于当时的算法和算力设施，生成3D模型并非不能完成的任务，不过完成的质量是非常糟糕的，需要进行大量的后期处理和优化，往往这个修复的工作量是超出传统建模的工作量的。
随后产业界也有很多尝试，比如GET3D和3D-GAN等工具可以生成网格（Mesh）的3D模型，这些工具大部分在 ShapeNet等3D数据集上进行训练，具有一定的质量，不过基本是单体建模，且复杂度不高。目前，有很多3D工具是基于differentiable rasterizer基础算法的。
在OpenAI的工具体系中，OpenAI Point·E其实也是一款3D生成工具，不过并不是原生的3D，而是从2D升维到3D，也就是先通过文字提示借助2D diffusion 模型生成2D图像，然后用3D点云的diffusion模型对图片进行升维。谷歌的DreamFusion和英伟达的Magic3D也是属于这个类型。
当然，上述工具都有一个通病，那就是几乎都需要半小时以上的时间才能够完成复杂3D模型的建立，和DUSt3R之间有很大的差距。
据悉，DUSt3R带来了一个3D模型生成的新范式，不需要任何相机校准或视点姿势的先验信息，就可完成任意图像的密集或无约束3D重建。传统的3D AI工具，通常需要MVS估计相机参数，并在3D空间中对相应的像素进行三角测量。不过，DUSt3R并不需要这些。如下图所示，DUSt3R能够基于一组具有未知相机姿态和内在特征的照片，生成对应的一组点图，并给出相机参数、像素对应关系、深度图等重要参数。因此这款工具不仅降低了输入数据的门槛，同时让输出数据质量大幅提升，输出数据需要的时间大幅缩短。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

工分