OpenAI新模型炸场！文本就能生成3D模型，已经开源！

添加书签

AIGC开放社区
2023-05-08

专注AIGC领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展和应用落地，以及国内LLM的发展和市场研究，欢迎关注！

5月6日，ChatGPT母公司OpenAI发布了最新开源项目Shap-E，通过文本就能生成3D模型。目前github已经突破2000颗星。（开源地址：https://github.com/openai/shap-e）

据悉，Shap-E采用了3D模型领域创新的隐式神经表示（INR），支持神经辐射场 (NeRF)和纹理网格（DMTet）两种方法。也就是说，Shap-E模型可以直接生成隐式函数，更好的捕捉细粒度的形状和纹理，突破了传统的局限性，从而更准确、快速地生成3D模型。（论文：https://arxiv.org/abs/2305.02463）

其实去年12月，OpenAI就已经开源了一款名叫Point-E的模型，也是通过文本就能快速生成3D模型，但采用的是传统的扩散模型与DALL-E 2、Midjourney类似，生成效果、效率方面比Shap-E差很多。

Shap-E介绍

有人猜测，OpenAI连续发布两款文本生成3D模型，难道是为GPT-5做准备，下一阶段的ChatGPT可直接生成3D模型？

Shap-E的核心技术NeRF

从OpenAI发布的论文来看，NeRF成为本次新开源项目Shap-E的核心技术之一，突破了传统的扩散模型的局限性。「AIGC开放社区」先为大家简单介绍一下NeRF这项技术，以便更好的了解Shap-E模型的技术特性。

NeRF（Neural Radiance Field ）是由谷歌高级研究科学家Jon Barron在2020年开发的一种用于三维场景重建的深度学习方法。

NeRF可以通过学习2D照片生成3D场景，同时可以兼顾物体表面的颜色和光照，以便可以从任意视角生成高质量的渲染3D模型。

NeRF技术介绍

NeRF 的主要技术优势是可以从有限数量的图像中学习连续、高质量的三维场景表示。

相比传统的基于几何的重建方法，NeRF 在处理复杂光照、遮挡和反射等问题时表现出更强的性能。但NeRF也有明显的缺点，算力消耗巨大生成图像较慢。

2022年3月5日，NVIDIA在NeRF基础之上推出了“ Instant NeRF”解决了训练、生成模型慢的难题。相比之前， Instant NeRF的训练效率提升了1000倍，只需几秒钟就能训练几十张静态图片，在几十毫秒内就能生成3D场景。

因此，Shap-E吸取了NVIDIA优秀的训练方法，分为两个阶段进行。首先，通过训练基于 Transformer（开发ChatGPT的核心技术）的编码器来生成3D资源的INR参数。

其次，在编码器的输出上训练扩散模型。与以前的方法不同，可同时生成代表NeRF和纹理网格的INR允许它们以多种方式呈现。也就是说Shap-E使用了向量序列替代了之前Point-E的点云模式。

OpenAI发现，用新方法训练的Shap-E模型比之前推出的Point-E，在推理、生成效果等方面强了几个数量级，极大提升了3D模型的生成效率，也降低了整体算力成本。

OpenAI给出了几个通过Shap-E生成的实际案例，例如，一架看起来像香蕉的飞机；一只绿色的靴子；一架宇宙飞船；一只企鹅；一碗蔬菜等，都精准、快速地生成了3D模型。不过细节方面还是略显粗糙，有很大的优化空间。

在场景化落地方面，Shap-E高效生成3D模型的能力在商业应用方面非常广泛，例如，元宇宙、VR/AR、工业设计、影视制作、游戏开发、3D打印、教育等。尤其是在VR/AR领域Shap-E具有颠覆性作用，可以加速3D场景的构建效率。

总体来说，Shap-E是Point-E模型的增强版，采用了扩散模型+ NeRF+ DMTet的混合方法，进一步提升了3D模型的生成效果、效率并降低了算力成本。

本文素材来源OpenAI，如有侵权请联系删除

END

OpenAI新模型炸场！文本就能生成3D模型，已经开源！

即将举行的活动

联系我们

最新网络研讨会

推荐

AIGC开放社区

加入 AIGC开放社区

OpenAI新模型炸场！文本就能生成3D模型，已经开源！

即将举行的活动

联系我们

订阅我们的免费咨讯

最新网络研讨会

推荐

AIGC开放社区

加入 AIGC开放社区