Meta:训练AR眼镜的智能助手,需要用第一人称视频

Esther|编辑

在大多数人印象中,AR眼镜的主要特征是提供虚实融合的视觉辅助效果。实际上,与同样基于虚拟技术的VR相比,AR不仅仅能够看到真实环境,它的应用场景和VR也不同,因为它可以通过一系列智慧的功能来辅助日常生活、工作和学习。

此前Facebook就曾提出,AR眼镜将采用支持场景感知的AI算法,推算使用者在场景中需要获取的信息,以及需要执行的下一步动作,接着使用者可以用EMG腕带来进行确认。的确,穿戴式AR眼镜与智能AI助手结合是必然的结果,市面上大多数非AR的智能眼镜已经配备语音助手,相比之下AR眼镜需要的不只是语音助手,它应该可以通过摄像头来提供智能的视觉辅助,就像是科幻电影描述的那样。

近年来,计算机视觉技术已经得到长足发展,相关算法可以识别不同类型的物体,或是用于手势识别、人脸识别等场景。不过,目前计算机视觉算法面临的最大难题是,它主要是基于第三人称视角的照片和视频训练的,因此AI相当于以旁观者的角度去识别周围环境和活动,如果将它应用于家用机器人或AR眼镜,则需要识别第一人称图像,这对基于第三人称数据训练的AI并不友好。

为了解决上述问题,Meta近期开源了市面上最大的第一人称视频数据集Ego4D,视频时长累计3205小时,号称是其他同类数据集规模的20多倍。据悉,该数据集是Meta与全球13所大学合作的成果,共耗时2年时间完成。另外,Ego4D数据基于室内和室外场景,来源也分布在世界多个国家,比如:自沙特..、东京、洛杉矶和哥伦比亚等等。

为何收集第一人称视频

收集了这么多第一人称视角的视频,它和第三人称视频有什么区别呢?简单来讲,就像是在过山车上看景色,和从地面看过山车之间的区别。

人的大脑可以轻易将第一人称和第三人称视角联系起来,而现有的AI技术不支持这样灵活的分析能力,因此如果让计算机视觉算法理解过山车上的景色,它可能并不能看懂,因为训练算法的数据一般是地面上拍摄的第三人称视频。

AI科研人员Kristen Grauman表示:为了让AI像人一样与周围的环境交互,它需要具备第一人称感知能力,像人眼一样感知实时运动、交互和多感官视觉。

而和许多视频数据不同,Ego4D视频通过头戴摄像头来拍摄,因此可以模拟第一人称视角,而且它们是一系列动态的活动,而不只是一张一张图片。因此,Ego4D的出现有望为第一人称计算机视觉打开新的场景,用于穿戴式摄像头、家用机器人助手等设备,这些设备将通过第一人称摄像头来理解周围的环境。

Ego4D数据收集参与者的职业

牛津大学教授Andrew Zisserman表示:在未来几年,Ego4D数据集有望成为计算机视觉发展的驱动力,它会帮助计算机视觉算法以第一人称理解事件和活动,分析时间背景等。

为AR眼镜公开采集数据

值得注意的是,利用图像、语音数据来分析用户周边环境,可能会带来严重的隐私争议,尤其是Meta推出的Stories拍照眼镜,很可能会被看作是移动的监控。

Ego4D视频数据包含的活动内容

Meta明确指出,这些数据是由合作学校的855人录制的,他们并非Meta员工,使用的设备则是GoPro和拍照眼镜。

而为了获得大家的信任,Meta多次公开视频数据采集的详细信息和进度,在Meta公布的网站中,你可以直接查看Ego4D包含的视频数据,这些信息都是公开的。

Meta还透露:Ego4D录制的视频来自于未经编排的日常活动,包括施工、购物、玩游戏、烘焙、撸猫/狗、社交等等。通过面部打码等方法,去除可识别的身份等信息后,大学才将这些视频数据提供给Meta。视频内容涉及环境、人手动作,以及和一百种不同的物品交互。除此之外,FRL科研人员也利用Vuzix Blade AR眼镜,在预先设定的实验室场景中,收集了额外400小时的第一人称视频数据。

科技创新依赖新工具

Meta表示:旧的工具无法开发未来的科技创新。因此,AR眼镜的智能AI系统也需要全新的训练数据。据Meta设想,Ego4D训练的AI算法将具备以下功能:

  1. 1)情景记忆:时间和事件;
  2. 2)预测:接下来的行为;
  3. 3)识别手势和物体交互:正在做什么;
  4. 4)音频和视觉分析:谁说了什么、什么时间、中心思想是什么;
  5. 5)社交互动:谁和谁在互动,人群中谁在和我说话。

(作为AI训练的基准,这些功能或应用场景也是Ego4D的一部分,Meta希望通过开源数据集和训练基准,将技术研发开放给世界各地的科研人员,鼓励更多人用Ego4D数据来训练AI系统)

Meta科研人员指出,Ego4D将具备情景记忆,以及视觉和听觉记录功能。其中,情景记忆指的是可以记住发生在特定时间和地点的事件,能够回答“钥匙放在哪了”等问题。此外,AR眼镜将教你学习打鼓、做菜、找钥匙,或是用全息图像来显示过去的记忆。比如指导IKEA家具安装,或是提示做饭步骤,如果已经放盐,系统会提醒你避免重复加盐。

而为了实现上述场景,Meta需要训练足够智能的AI系统,像人一样以第一人称理解世界,与世界互动,这种形式也被科研领域称为自我为中心的感知。

目前,Ego4D AI系统还不能达到理想的效果,因此它只是一个科研项目,并不是正在开发中的产品。不过,很可能会在未来的AR眼镜中应用这样的技术。Meta AI科研人员Kristen Grauman表示:Ego4D等AI算法有望通过AR眼镜,解锁更多潜在场景,甚至将AR与VR融合。

当被问及隐私安全问题时,Meta表示:Ego4D预计将进一步引入隐私保护措施,例如:AR眼镜在增强音频之前,可以先征求用户许可,或者限制音频采集的范围,仅识别用户与其他人的对话,或用户附近的声音。

参考:
http://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes

( END)


 
   推荐阅读    




 
每天五分钟,轻松了解前沿科技。    
         —— 青亭网  
标签:
qingtinwang
青亭网 微信号:qingtinwang 扫描二维码关注公众号
优质自媒体

小编推荐

  1. 1 落造句(落叶造句)

    大家好,小伟今天来为大家解答落造句以下问题,落叶造句很多人还不知道,现在让我们一起来看看吧!1、20、雨落在小草上,看,草儿轻轻地在微

  2. 2 离家出走怎么生存(离家出走该如何生存)

    大家好,小美今天来为大家解答离家出走怎么生存以下问题,离家出走该如何生存很多人还不知道,现在让我们一起来看看吧!1、问题二:离家出走

  3. 3 怎么查公积金账户余额(苏州怎么查公积金账户余额)

    大家好,小娟今天来为大家解答怎么查公积金账户余额以下问题,苏州怎么查公积金账户余额很多人还不知道,现在让我们一起来看看吧!1、查询这

  4. 4 喜鹊寓意(喜鹊寓意)

    大家好,小美今天来为大家解答喜鹊寓意以下问题,喜鹊寓意很多人还不知道,现在让我们一起来看看吧!1、喜鹊的寓意有喜事到家、吉祥如意等,

  5. 5 就在今晚!怀化这些地方有暴雨→

    湖南省景象台估计今晚至来日湖南中南部局地有暴雨、大暴雨并伴有雷暴大风、冰雹等强对流天色湖南最新天色预告今天白日到晚上,湘西、湘南有

  6. 6 莱商银行网银助手下载(莱商银行网银助手下载官网)

    大家好,小豪今天来为大家解答莱商银行网银助手下载以下问题,莱商银行网银助手下载官网很多人还不知道,现在让我们一起来看看吧!1、首先,

  7. 7 机械制图符号大全(机械制图符号大全及含义)

    大家好,小豪今天来为大家解答机械制图符号大全以下问题,机械制图符号大全及含义很多人还不知道,现在让我们一起来看看吧!1、GB/T 4459.5-

  8. 8 什么叫ka经理ka是什么意思(ka经理具体工作流程)

    大家好,小乐今天来为大家解答什么叫ka经理ka是什么意思以下问题,ka经理具体工作流程很多人还不知道,现在让我们一起来看看吧!1、冠以KA经理

Copyright 2024 优质自媒体,让大家了解更多图文资讯!