谷歌AI新研究:文本生成3D模型,椅子可以是牛油果材质

Esther|编辑

此前,青亭网曾报道过一款用语音创作3D动画,加速3D和VR叙事内容创作的插件Anything World。该插件的概念足够简单,即通过AI算法实时识别语音指令,并生成对应的3D动画,比如动物、汽车等等。应用于VR游戏中,这样的技术可以为低门槛的沙盒体验带来可能。

实际上,随着AR/VR技术发展,对于3D内容创作的需求也越来越大,而低门槛、简易的3D创作工具,将有望吸引更多普通用户来创作3D内容,形成UGC生态。为了进一步探索自然语言生成3D图形的技术,谷歌科研人员研发了一款基于NeRF 3D场景技术,以及OpenAI文本生成模型DALL·E、CLIP的3D生成系统:Dream Fields。

据青亭网了解,Dream Fields的特点是无需照片样本就能生成3D图像,通过自然语言描述就可以合成全新的3D视角,还可以生成多种物品组合成的复合结构。谷歌科研人员称,Dream Fields效果媲美3D数字背景,或是ArtStation..的内容。

结合OpenAI技术

在这项研究中,科研人员利用神经辐射场(NeRF)参数来代表3D图形,而神经辐射场的特点则是可分别渲染场景,场景中包含具有色彩和密度参数的多层感知器。

通常,通过NeRF方案生成3D场景需要多张3D照片,比如一组3D架子鼓可能合成了100张照片,来实现360°视觉重建。相比之下,Dream Fields不需要用照片来生成3D模型,而且可以生成全新的3D内容。实际上,Dream Fields算法在深度神经网络指导下,可以根据用户对3D对象的文本描述,以及一些简单的调整,即可显示几何结构和颜色信息。此外,还可以生成3D图形的全新视角,视觉效果足够连贯。

今年初,OpenAI发布了两大基于自然语言处理的图像生成模型DALL·E和CLIP,前者可通过文本生成图像(也就是可以读取文字来画画),而后者则可通过文本来分类图片。

据悉,DALL·E和CLIP也被看作是多模态图像版GPT-3(生成型预训练变换模型),这两种模型的AI算法使用图像与图像描述训练而成,因此可以评估文本描述是否与图像内容恰当匹配。而这的区别在于,OpenAI可通过CLIP来分类DALL·E生成的图像,提升图像生成的准确性。一些科研人员将也CLIP与VQGAN、BigGAN、StylGAN等生成模型结合,来实现根据文本描述生成图像的效果。

相比之下,谷歌的Dream Fields利用AI识别文本并生成3D图像,结合了CLIP和NeRF技术,可通过神经网络来储存3D模型。细节方面,Dream Fields的CLIP视觉转换架构是通过成对的2D照片和文字说明来训练的,未使用额外的多视角数据或3D模型。为了提升3D图像的视觉质量,Dream Fields还为其生成随机背景,并提升渲染图像的透光性。

在训练Dream Fields算法时,将需要多角度2D照片,完成训练后便可生成3D模型、合成新视角。而CLIP的作用,依然是评估文本生成图像的准确性。文本输入至Dream Fields后,未训练的NeRF模型会从单个视角生成随机视图,然后通过CLIP来评估生成图像的准确性。也就是说,CLIP可以用来纠正和训练NeRF模型生成图像。这个过程将从不同的视角重复2万次,直到生成符合文本描述的3D模型。

除了3D图形外,Dream Fields还生成深度图,效果看起来可信度高。Dream Fields的文本生成3D图形算法使用多样化的网络数据训练,因此可以识别和生成多种类型的物体。甚至可以合成物体,比如将扶手椅、茶壶以不同的风格和材质结合,或是生成大脑、珊瑚和木芙蓉的集合体等等。

3D领域的DALL·E方案

为了提升3D图像生成的效果,Dream Fields仅生成3D模型本身,而背景则采用随机合成图像。目前,Dream Fields可合成的物体包括船、花瓶、公共汽车、食物、家具等等。或是将牛油果和椅子合成,用大蒜扮演且,用皮卡丘做成牛油果椅子、茶壶等有趣的3D效果。

科研人员表示:通过Dream Fields,我们希望加速艺术内容和多媒体应用开发。

谷歌表示:由于缺少多样化、带文本描述的3D数据,此前方案能生成的3D内容类别有限。相比之下,Dream Fields通过预先训练的图像文本模型来生成3D图像,训练采用的数据来自于网络。

随着3D渲染技术发展,越来越多的媒体内容开始采用3D形式。在游戏、VR应用、电影中,开发者们需要手动创作数千个3D模型,耗费大量时间和精力,成本相当高。

此前,开发者利用3D数据来合成点云、立体像素网格、三角形网格,以及基于GAN模型的隐函数。不过,由于有标记的3D形状数据有限,所以3D数据仅能合成少数的物体类型。相比之下,Dream Fields不需要额外的3D训练数据,使用自然语言和简洁的创作界面即可合成3D图形。

同时,Dream Fields还证明了语言的合成/组成特性可提升3D创作的灵活性,更容易选择形状、色彩和风格。除了自然语言识别外,Dream Fields还采用NeRF 3D技术来合成新视角,重建3D立体图像。经过NeRF平滑插帧效果,3D图形具有足够高的空间分辨率,效果比立体像素、点云更好。此外,还比网格等明确的3D几何结构更容易优化,不受拓扑结构限制。

参考:

http://ajayj-com.translate.goog/dreamfields?_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=zh-CN

( END)


 
   推荐阅读    




 
每天五分钟,轻松了解前沿科技。    
         —— 青亭网  
标签:
qingtinwang
青亭网 微信号:qingtinwang 扫描二维码关注公众号
优质自媒体

小编推荐

  1. 1 发财树叶子蔫了怎么办(发财树叶子发黄干枯怎么处理)

    大家好,小丽今天来为大家解答发财树叶子蔫了怎么办以下问题,发财树叶子发黄干枯怎么处理很多人还不知道,现在让我们一起来看看吧!1、一、

  2. 2 癌症体质的人,通常有4个“特性”,希望你一个也没有

    千 百 万 环 保 超 市 会 员 共 同 关 注 !癌症,这个字眼总能让人心生惧怕,它如同沉寂潜行的死神,或者在任何人群中默默显现。然而,癌症并

  3. 3 乔布莱恩特总冠军(我想看乔布莱恩特)

    大家好,小美今天来为大家解答乔布莱恩特总冠军以下问题,我想看乔布莱恩特很多人还不知道,现在让我们一起来看看吧!1、迈克汤普森以状元的

  4. 4 夫君们笑一个男主(夫君们,笑一个)

    大家好,小伟今天来为大家解答夫君们笑一个男主以下问题,夫君们,笑一个很多人还不知道,现在让我们一起来看看吧!1、封城九宫主岚颜,从小心

  5. 5 可怜绣户侯门女独卧青灯古佛旁(可怜绣户侯门女独卧青灯古佛旁写的是谁)

    大家好,小美今天来为大家解答可怜绣户侯门女独卧青灯古佛旁以下问题,可怜绣户侯门女独卧青灯古佛旁写的是谁很多人还不知道,现在让我们一

  6. 6 人有三急是指哪三急呀(人有三急的三急指的是哪三急)

    大家好,小美今天来为大家解答人有三急是指哪三急呀以下问题,人有三急的三急指的是哪三急很多人还不知道,现在让我们一起来看看吧!1、通常

  7. 7 小学部|综合实践活动、劳动、地方课程教研|深耕细研不负春,“研”途花开溢芳菲——三学科本学期第二次联合研训

    深耕细研不负春“研”途花开溢芳菲三学科本学期第二次结合研训春之美,在于生机与勃发;教之美,在于钻研与提拔。4月18日上午,滨江区小学综

  8. 8 亚洲最帅男明星是谁(亚洲十大最帅男星)

    大家好,小美今天来为大家解答亚洲最帅男明星是谁以下问题,亚洲十大最帅男星很多人还不知道,现在让我们一起来看看吧!1、肖战能够成为亚洲

Copyright 2024 优质自媒体,让大家了解更多图文资讯!