悉见刘洋:三维理解与重建是智能交互时代的基石

没有物理办公室,全息会议可以通过增强现实技术实现。

不需要是低头、超轻的增强现实眼镜,呈现所有的虚拟界面。

无需想象历史,雅典卫城受损的神庙可以修复。

……

这些科幻电影频繁出现的画面描绘了一幅完整的现实生活画面。

随着第三波人工智能的发展,尖端技术继续落地。过去难以解决的许多难题现在都解决了。科幻电影中的各种场景正逐渐成为现实。

我知道技术是这样一个关注混合现实的人工智能公司。就在八月,我得知科技刚刚发布了它的混合现实大脑,完成了它的“云、软件和硬件”产品架构。基于这种架构,众所周知,科学技术将通过空间智能引擎和室内外高精度地图实现物理世界的数字复制和混合现实交互。

最近,我得知科技创始人兼首席执行官刘洋受邀出席由中国计算机联合会、中国图像与图形研究所、IEEE计算机学会等组织的“第八届国际虚拟现实与可视化会议”和“中国虚拟现实会议”并发表演讲。刘洋在讲话中对人工智能的未来做出了判断和预测,并首次全面阐述了科学技术的混合现实大脑xarc.ai的系统架构和商业价值。

以下是核心要点。

[三波人工智能]

人工智能是人类最终愿望和基本需求的阶段性产物,共经历了三波。

第一波:从20世纪50年代到70年代,逻辑主义(象征主义、逻辑推理、定理证明)是核心;

第二波:从20世纪80年代到20世纪末,联结主义(知识工程、专家系统、神经系统)是核心。

Third Wave:Third Wave以韩丁2006年提出的深度学习技术和2012年ImageNet竞争带来的图像识别领域的突破为象征性起点,不仅在技术上取得了重大突破,而且因为能够解决具体问题,在商业领域也呈现出欣欣向荣的发展趋势。

[第三次浪潮中的三个发展]

如果你继续学习更多关于第三次浪潮的人工智能,你会发现随着算法和计算能力的快速发展以及数据的指数积累,从2005年左右开始:

首先出现了以文本和语音为数据的一维智能公司,如谷歌、百度、HKUST迅飞等。

然后基于图片和视频的二维智能公司也出现了,如师旷、汤和从云。

生活在三维空间中,我们自然期待更多优秀的三维智能企业出现。在自动驾驶和机器人行业,已经有很多优秀的玩家,如Waymo、drive.ai、weilai car等。使用三维视觉和高精度地图服务来增强汽车和机器人的能力,解放通勤和工程操作中的劳动力。

然而,我们工作和生活中的广阔场景,如办公室、商场、景点、展厅等。不能解决昂贵笨重的毫米波雷达等设备的空间计算问题。这需要消费级三维智能技术,这也是我们创作的初衷。目前,我们正走向三维智能时代。

三维智能时代的[技术基金会]

上述三维智能时代的技术核心不是凭空产生的,而是跨学科整合产生的化学反应,包括计算机视觉领域的几何算法、计算机图形学、人工智能的深度学习、神经网络的发展,以及芯片技术、云计算、异构计算等其他发展。

如果用一个词来概括发展趋势,那就是“集成”,包括传统几何算法和深度学习方法的集成、多传感器集成、软件云服务和硬件集成(包括算法的硬件/芯片),以及与特定应用的结合,如自动驾驶、自动驾驶、机器人等。

[三维智能时代的三大特征]

在三维视觉和空间计算驱动的三维智能时代,

智能家居是一个非常典型的场景。人们通过各种传感器收集和数字化物理场景,并通过智能台灯、智能开关、智能音箱、智能监控、智能电视、智能路由器、智能空调和智能窗帘将其与云同步。

不仅如此,我们也在量化和数字化我们自己。智能手镯、智能手表、智能眼镜、智能戒指、智能衣服、跑步、走路、心跳、睡眠、体重等等都在产生大量数据。我们用这些数字来炫耀或优化我们的身体。

物理世界还有一种非常重要的数字方法,逐渐从工业渗透到生活中,统称为三维建模:包括专业设备的超大规模三维重建、中小规模三维重建,以及游戏、动画、影视行业中的CG建模,已经到了真相与真相混淆的地步。有人称之为电影现实,电影和电视层面的现实。

,数字世界的物理化

通过物理世界的数字化,我们获得了一个非常大的数字世界。从网页、谷歌和百度的索引数据库到每个企业的业务数据。

我们用什么方式处理数字世界,我们如何感知和反馈数字世界?这就是数字世界物理化的意义。

人们有视觉、听觉、触觉、嗅觉和味觉。人们感知世界的方式是通过感官和大脑对生物信号的主观解读。当身体刺激同时刺激不同的感官时,人们会相信。因此,传感器的协同反馈对于人们感知数字世界非常重要。

例如,在电影《头号玩家》中,电影中的角色在玩游戏时有强烈的替代感,因为电影中描绘的未来游戏体验给出了超过三种甚至四五种合作反馈的综合反馈。未来的游戏不仅能通过特殊的服装获得视觉和听觉的反馈,还能感受到触觉,当玩家受到攻击时,会有疼痛的刺激。但是这些仍然留在科幻电影的想象中。

在现实世界中,我们与数字世界互动并建立物理和数字链接的方式非常简单,以个人电脑和手机为主体。清扫幸运字符和红包是一种典型的经历。通过扫描图片和平面,数字世界的相关信息被激活并显示在手机屏幕上。

由于技术限制,我们通过一个五英寸的小屏幕来处理数字世界,从微信、微博、头条、美团、滴滴,到颤音、拍板和iQiyi。我们,从数字世界得到反馈的人,也变成了“低着头”的人。相反,我们大大减少了与物质世界的接触,忽视了周围的人和事。

从行业发展的角度来看,智能手机行业经过十年的发展,已经达到了一个平台期和一个成熟期。在微创新和同质化的环境中,基于触摸屏的手机交互没有太大的创新空间。在“整齐划一”的统一设计下,它实际上是物理世界和数字之间牢不可破的屏障。

,混合现实智能

突破了物理世界和数字世界之间的障碍,能够为视觉和听觉提供沉浸式反馈,这就是混合现实智能,即三维视觉和空间计算要解决的问题。

在技术方面,需要解决以下四个问题。

第一个是三维感知。当一个人到达一个全新的地方,首先要做的是感知三维空间。机器学习也需要这样做。需要对三维场景中物体的表面纹理和形状进行数字采样和深度估计。这包括多传感器的快速校准、多视觉和惯性导航的融合、雷达、全景相机和基于事件相机的SLAM等多传感器的融合。

第二,当我们感知周围的空间时,我们需要确定与环境的实时动态关系,这就是姿态感知。三维空间中摄像机或物体位置和方向的计算和实时跟踪,即六自由度重定位、VIO、SLAM、语义SLAM等。

第三件事是上面提到的三维重建,它模拟了形状

第四,进一步的目标,是三维理解。你需要知道桌子、椅子和人在这个场景中的位置,所以你需要做平面语义分割、3D语义分割、动态目标分割和跟踪、实时语义内容检索和姿态感知的反馈优化。

[看到混合现实大脑xarc.ai]

看到在探索3D智能的过程中,相应的混合现实大脑平台xarc。大赦国际也已获释。

在这个过程中,我们总结了一套系统架构,能够有效地解决各行业对三维视觉和空间计算的需求。它自下而上分为五层,即物理层、数字层、引擎层、设备层和应用层。

物理层是我们的真实世界。

数字层是真实世界的数字收集和重建。

引擎层是3D混合现实数据存储、检索、渲染和交互的驱动平台。

终端层是用户与数字层交互的门户设备和计算平台。

应用层是运行在混合现实系统上的所有应用程序,就像安装在手机上的各种应用程序一样。

在数字层,我们提供高精度的地图采集专业设备,可以实现厘米到毫米的精度和每天10万平方米的高效率,支持端到端定位网络生成和数千个物体的智能识别。

在引擎层面,我们提供一整套适用于各种设备的自动映射工具、混合现实场景编辑工具和终端软件开发工具包。

在终端层面,我们开发并批量生产了多种ar和人工智能眼镜,包括今年批量生产的第一批45°视场角、166g最轻明亮双目AR眼镜一体机X1系列、第二代高性能人工智能眼镜XMAN系列,使用NPU进行人脸识别、车牌识别、空间定位,以及即将推出的代码M消费类人工智能眼镜。同时,值得注意的是,视觉加速芯片XVPU的自主研发也对我们各代硬件设备的智能化和小型化起到了关键作用。

[结论]

随着摩尔定律和库兹纳定律下计算能力和数据的指数增长,传统计算机视觉算法和深度学习的结合加速了奇异性的逼近。

目前,我们已经从许多行业收到了数万亿的三维视觉需求的快速增长。我们相信,就像个人电脑时代和智能手机时代一样,随着基础技术平台和工具的改进,各个行业的应用生态和消费者水平将会迅速得到丰富。我们知道,我们将与更多的合作伙伴一起欢迎三维智能时代的到来。

这篇文章是网站管理员的家庭用户提交的。未经网站管理员同意,严禁复制。例如,如果大多数用户在稿件中发现虚假报告,欢迎读者反馈、纠正和报告问题(反馈入口)。

免责声明:这篇文章是对用户的贡献。网站管理员之家发表这篇文章只是为了传递信息。这并不意味着站长之家同意其观点,不对内容的真实性负责,仅供用户参考,不构成任何投资或使用建议。读者被要求核实真实性和可能的风险,任何后果将由读者自己承担。