谷歌AI新研究：文本生成3D模型，椅子可以是牛油果材质

2022-11-27 12:52:19

Esther｜编辑

此前，青亭网曾报道过一款用语音创作3D动画，加速3D和VR叙事内容创作的插件Anything World。该插件的概念足够简单，即通过AI算法实时识别语音指令，并生成对应的3D动画，比如动物、汽车等等。应用于VR游戏中，这样的技术可以为低门槛的沙盒体验带来可能。

实际上，随着AR/VR技术发展，对于3D内容创作的需求也越来越大，而低门槛、简易的3D创作工具，将有望吸引更多普通用户来创作3D内容，形成UGC生态。为了进一步探索自然语言生成3D图形的技术，谷歌科研人员研发了一款基于NeRF 3D场景技术，以及OpenAI文本生成模型DALL·E、CLIP的3D生成系统：Dream Fields。

据青亭网了解，Dream Fields的特点是无需照片样本就能生成3D图像，通过自然语言描述就可以合成全新的3D视角，还可以生成多种物品组合成的复合结构。谷歌科研人员称，Dream Fields效果媲美3D数字背景，或是ArtStation..的内容。

结合OpenAI技术

在这项研究中，科研人员利用神经辐射场（NeRF）参数来代表3D图形，而神经辐射场的特点则是可分别渲染场景，场景中包含具有色彩和密度参数的多层感知器。

通常，通过NeRF方案生成3D场景需要多张3D照片，比如一组3D架子鼓可能合成了100张照片，来实现360°视觉重建。相比之下，Dream Fields不需要用照片来生成3D模型，而且可以生成全新的3D内容。实际上，Dream Fields算法在深度神经网络指导下，可以根据用户对3D对象的文本描述，以及一些简单的调整，即可显示几何结构和颜色信息。此外，还可以生成3D图形的全新视角，视觉效果足够连贯。

今年初，OpenAI发布了两大基于自然语言处理的图像生成模型DALL·E和CLIP，前者可通过文本生成图像（也就是可以读取文字来画画），而后者则可通过文本来分类图片。

据悉，DALL·E和CLIP也被看作是多模态图像版GPT-3（生成型预训练变换模型），这两种模型的AI算法使用图像与图像描述训练而成，因此可以评估文本描述是否与图像内容恰当匹配。而这的区别在于，OpenAI可通过CLIP来分类DALL·E生成的图像，提升图像生成的准确性。一些科研人员将也CLIP与VQGAN、BigGAN、StylGAN等生成模型结合，来实现根据文本描述生成图像的效果。

相比之下，谷歌的Dream Fields利用AI识别文本并生成3D图像，结合了CLIP和NeRF技术，可通过神经网络来储存3D模型。细节方面，Dream Fields的CLIP视觉转换架构是通过成对的2D照片和文字说明来训练的，未使用额外的多视角数据或3D模型。为了提升3D图像的视觉质量，Dream Fields还为其生成随机背景，并提升渲染图像的透光性。

在训练Dream Fields算法时，将需要多角度2D照片，完成训练后便可生成3D模型、合成新视角。而CLIP的作用，依然是评估文本生成图像的准确性。文本输入至Dream Fields后，未训练的NeRF模型会从单个视角生成随机视图，然后通过CLIP来评估生成图像的准确性。也就是说，CLIP可以用来纠正和训练NeRF模型生成图像。这个过程将从不同的视角重复2万次，直到生成符合文本描述的3D模型。

除了3D图形外，Dream Fields还生成深度图，效果看起来可信度高。Dream Fields的文本生成3D图形算法使用多样化的网络数据训练，因此可以识别和生成多种类型的物体。甚至可以合成物体，比如将扶手椅、茶壶以不同的风格和材质结合，或是生成大脑、珊瑚和木芙蓉的集合体等等。

3D领域的DALL·E方案

为了提升3D图像生成的效果，Dream Fields仅生成3D模型本身，而背景则采用随机合成图像。目前，Dream Fields可合成的物体包括船、花瓶、公共汽车、食物、家具等等。或是将牛油果和椅子合成，用大蒜扮演且，用皮卡丘做成牛油果椅子、茶壶等有趣的3D效果。

科研人员表示：通过Dream Fields，我们希望加速艺术内容和多媒体应用开发。

谷歌表示：由于缺少多样化、带文本描述的3D数据，此前方案能生成的3D内容类别有限。相比之下，Dream Fields通过预先训练的图像文本模型来生成3D图像，训练采用的数据来自于网络。

随着3D渲染技术发展，越来越多的媒体内容开始采用3D形式。在游戏、VR应用、电影中，开发者们需要手动创作数千个3D模型，耗费大量时间和精力，成本相当高。

此前，开发者利用3D数据来合成点云、立体像素网格、三角形网格，以及基于GAN模型的隐函数。不过，由于有标记的3D形状数据有限，所以3D数据仅能合成少数的物体类型。相比之下，Dream Fields不需要额外的3D训练数据，使用自然语言和简洁的创作界面即可合成3D图形。

同时，Dream Fields还证明了语言的合成/组成特性可提升3D创作的灵活性，更容易选择形状、色彩和风格。除了自然语言识别外，Dream Fields还采用NeRF 3D技术来合成新视角，重建3D立体图像。经过NeRF平滑插帧效果，3D图形具有足够高的空间分辨率，效果比立体像素、点云更好。此外，还比网格等明确的3D几何结构更容易优化，不受拓扑结构限制。

参考：

http://ajayj-com.translate.goog/dreamfields?_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=zh-CN

（ END）

小编推荐

1 发财树叶子蔫了怎么办（发财树叶子发黄干枯怎么处理）
大家好，小丽今天来为大家解答发财树叶子蔫了怎么办以下问题，发财树叶子发黄干枯怎么处理很多人还不知道，现在让我们一起来看看吧！1、一、
2 癌症体质的人，通常有4个“特性”，希望你一个也没有
千百万环保超市会员共同关注！癌症，这个字眼总能让人心生惧怕，它如同沉寂潜行的死神，或者在任何人群中默默显现。然而，癌症并
3 乔布莱恩特总冠军（我想看乔布莱恩特）
大家好，小美今天来为大家解答乔布莱恩特总冠军以下问题，我想看乔布莱恩特很多人还不知道，现在让我们一起来看看吧！1、迈克汤普森以状元的
4 夫君们笑一个男主（夫君们,笑一个）
大家好，小伟今天来为大家解答夫君们笑一个男主以下问题，夫君们,笑一个很多人还不知道，现在让我们一起来看看吧！1、封城九宫主岚颜，从小心
5 可怜绣户侯门女独卧青灯古佛旁（可怜绣户侯门女独卧青灯古佛旁写的是谁）
大家好，小美今天来为大家解答可怜绣户侯门女独卧青灯古佛旁以下问题，可怜绣户侯门女独卧青灯古佛旁写的是谁很多人还不知道，现在让我们一
6 人有三急是指哪三急呀（人有三急的三急指的是哪三急）
大家好，小美今天来为大家解答人有三急是指哪三急呀以下问题，人有三急的三急指的是哪三急很多人还不知道，现在让我们一起来看看吧！1、通常
7 小学部｜综合实践活动、劳动、地方课程教研｜深耕细研不负春，“研”途花开溢芳菲——三学科本学期第二次联合研训
深耕细研不负春“研”途花开溢芳菲三学科本学期第二次结合研训春之美，在于生机与勃发；教之美，在于钻研与提拔。4月18日上午，滨江区小学综
8 亚洲最帅男明星是谁（亚洲十大最帅男星）
大家好，小美今天来为大家解答亚洲最帅男明星是谁以下问题，亚洲十大最帅男星很多人还不知道，现在让我们一起来看看吧！1、肖战能够成为亚洲

谷歌AI新研究：文本生成3D模型，椅子可以是牛油果材质

最新文章

小编推荐