2019-10-18
汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

乾明 发自 友谊宾馆

量子位 报道 | 公众号 QbitAI

商汤AR,AI驱动,已经落地多个场景。

刚刚,在IEEE支持举办的2019国际混合与增强现实研讨会在北京召开。

商汤科技创始人、香港中文大学教授汤晓鸥对外披露商汤最新AR研究进展与布局。

而且,不仅仅只是秀肌肉。他还进一步介绍了当前AR在各大领域遇到的挑战,以及相应的解决办法和核心技术。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

在他看来,AR正当时:

今天的AI技术已经能让我们更好地理解这个现实世界,而AR技术可以将现实世界和虚拟世界无缝融合起来。

不仅仅只是他有这样的感受。

当前苹果、谷歌,都在重兵囤下AR生态开发。高通等基础算力提供方,也认为5G正在加速新计算平台的到来——且认为是AR。

商汤也已经布局多年,汤晓鸥说:

近年来将AI和AR技术深度融合到产品的研发中,有效扩展了AR应用的想象空间。

那么,作为中国估值最高的AI公司,商汤到底是如何布局的?

又有哪些核心技术与亮点?一起来看看~

汤晓鸥纵论AR

汤老师的演讲主题,是AI+AR: Magic in the AIR。

简单开场之后,就直接切入了正题——AI如何+AR?

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

在他看来,AR是一种在现实生活场景中无缝整合虚拟物体或信息的技术。

与传统的文本、图片和视频相比,能够更有效、直观地提供信息。

AI技术,能够将现实世界的信号作为输入,来实现场景感知、语音交互、图像识别、人脸检测、情感认知等任务,现在已经成熟。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

再加上大数据、云计算和5G等技术的发展落地,就形成了基础技术框架。

AR正是这一基础框架的应用,也是这些技术的直接落脚点。

现在,伴随着这些技术的成熟和落地,AR也开始进入我们的生活,从黑科技向日常应用转变。

和之前大多数汤老师发言不同,这次演讲才刚刚开始,他就祭出了自己钟爱的电影《花样年华》,直观地展示了AR+AI带来的“神奇魔法”,也引起现场一片惊呼。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

接下来,AR化妆是汤晓鸥在演讲中提到的第一个场景。

这一场景中,最核心的如何捕捉面部特征。

他说,在人脸识别、3D人脸重建和人脸编辑等许多人脸应用中,这是至关重要的一步。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

自然挑战也有不少。比如没有足够的特征点、缺乏精确的数据、在遮挡、运动模糊等情况下很难预测等等。

对于这些挑战,汤老师也都介绍了相应的解决思路:

可以通过虹膜轮廓特征点和耳朵特征点,来补充特征点。

至于缺乏数据以及遮挡、运动模糊等情况,可以用半监督框架、结构感知的去模糊网络等方式来解决。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

之后是AR导航,这也是AR落地非常难的一个场景。

汤老师说,传统的导航方案,比如GPS以及WiFi、蓝牙等虽然普及,但都存在各种各样的缺点。

比如误差大于10米、室内无法用;硬件成本贵、需要附加部署等。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

相比之下,视觉解决方案有不少优点,成本低,而且精度高,效果也比较直观等等。

但也有挑战,比如很难应对缺乏视觉特征、环境变化的情况,以及需要繁重的计算等。

不过,这并没有阻拦AR导航成为一种新风向。

在基于学习的视觉特征、云端协作、同时定位与地图构建等技术的基础上,稀疏地图重建、密集地图重建和视觉定位等相关应用愈发成熟。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

然后是AR数字人,这也是近年来最为热门的AR应用之一。

简单来说,AR数字人就是利用AI技术来驱动数字智能体说话与行动。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

当想要让它变得实用,还有不少挑战,比如音频到3D映射非常困难、如何保持连贯性等等。

汤老师同样也给出了相应的思路,采用跨模态机器学习、连续的时间序列建模等方法,能够比较好的解决这些问题。

商汤也已经交付了相应的解决方案——SenseAR Avatar。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

汤老师说,借助弱监督学习、基于视图合成的几何感知表示、基于图像的排序预测等技术,可以有效地完成的动作捕捉、3D动作恢复以及的动作传递。

接下来是AR游戏,背后的关键技术也是同时定位与地图构建。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

与当前大多数AR游戏不同,商汤发力的是移动端上的多人AR游戏,这也带来了新的挑战——怎么让多个用户都能参与进来。

汤老师说,想要实现这一点并不容易。不仅要在充满挑战性的环境中保持稳定,还要考虑到大规模场景中移动设备的性能。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

作为AR中的关键技术,商汤在SLAM上也投入了大量的资源,而且与当前的传统方案相比,不仅效率更高,而且也更加稳定。

他也给出了相应的数据,在支撑多人AR游戏的时候,定位时间少于1秒。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

汤老师谈到的最后一个场景,是AR尺子 AR家居

这也是SLAM技术应用落地的重要方向,但这个方向对精度的要求极高。

汤老师说,商汤的RGBD-SLAM技术能够在计算资源有限的情况下,支持长距离测量,而且平均测量误差为2.60%。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

在AR家居场景中,借助RGB摄像头与IMU的紧密耦合,将分级误差控制在3%,并且能够进行稳定追踪。

虽然这些场景,已经覆盖了大家生活中的许多方面。

但这些并不是仅仅只是“Magic in the AIR”的开端,在他看来,AI+AR还要更多的可能性。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

可以设想一下,物理世界大规模3D数字化、人类行为数字化之后,会发生什么?

商汤发力AR已三年,边界正扩张

汤老师今天所展现的,并不仅仅只是学术研究,而是商汤实践多年的经验总结。

2016年,AR游戏Pokemon GO风靡全球,进一步引爆AR应用潮流。

在这一年,商汤就已经开始发力AR,将AI技术应用到AR产品的研究和开发之中,打造出了SenseAR特效引擎。具体的发展思路和当初发力AI技术一样,也是“产学研”相结合。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

一方面,与浙江大学共建“浙江大学-商汤三维视觉联合实验室”,重点研究SLAM和三维重建等方向,另一方面推动学术和产业界共同成立了“中国增强现实核心技术产业联盟”。

与此同时,相应AR产品也陆续问世。2018年,商汤AI峰会上SenseAR特效引擎和SenseAR开发者平台率先登场,迎来新一轮能力升级。

之后,商汤众多AR应用也相继落地,比如AR美颜、AR贴纸特效等等,开始被业内各大公司采用,比如OPPO等。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

今年5月15日,2019年商汤AI峰会举办。AR领域压轴出场,对SenseAR 特效引擎和SenseAR平台都进行了大幅度升级。

尤其是后者,增加了SenseAR Glass眼镜平台、SenseAR Cloud云平台等功能。在打破云端界限、结合虚拟与现实世界、完成空间内的多人共享、 虚拟信息持久化等方面向前迈出了一大步。

此外,还有SenseAR Avatar。商汤介绍称,这是当前市场上首个可以实现照片生成和真人驱动的AR产品,能够利用3D渲染对用户面部进行重建,从而建立一个实时的虚拟形象。

从技术、应用、平台等各个方面来看,商汤的AR已然形成相应规模,已经与谷歌和苹果一起,成为市场上主要的AR平台供应商之一。

而在本次ISMAR 2019大会上,商汤方面并不只是仅仅有汤老师演讲,还展示了一系列创新的AR应用。

汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

活动中,商汤带来了可实现室内外定位和AR导航的“SenseAR高精定位和内容增强解决方案”。

并赞助了专为AR应用设计的SLAM竞赛,基于商汤科技与浙江大学联合发布的测试数据集,来全面地评估SLAM系统在AR应用下的性能。

从整体上来看,这不仅仅是商汤AR的进一步展示,也是其加码AR领域的决心显现。

在汤老师演讲的最后,他也给出了对AR未来的展望。

AI+AR的未来,就是要实现数字世界和物理世界的无缝融合,能够更聪明、更深入地了解人们生活和工作的方方面面。

这个时候,Magic in the AIR也必然到来。

但到了这个时候,这也就不是Magic in the AIR,而是Oxygen in the AIR了。

你觉得呢?