我们之前文章《特斯拉 FSD V14 上车!10倍参数模型,真实现“车位到车位”》中分享到特斯拉FSD V14的泊车聪明到有人评价为“Game Changer”。Jack也指出了特斯拉FSD V14的行泊车一套基于真正端到端算法的功能,国内基本没有人能做的现实,也就是说国内的车位到车位基本都是行泊割裂规则拼接的算法。
但是,谁也不知道特斯拉到底如何做到的,最近特斯拉一份关于基于视觉的高保真占有率确定和辅助泊车应用的AI建模技术的专利申请公开文本,揭秘了特斯拉如何做到的。
专利揭示了特斯拉利用人工智能模型,仅通过摄像头捕获的 2D 图像数据,来高精度(精确到10cm)重建自动驾驶车辆或机器人(下文统称为Ego)周围的 3D 空间结构和障碍物细节,并应用于自主导航、辅助泊车、环境交互界面渲染。
本文基于专利和相关信息,来解读揭秘:
- 他是什么?能干什么?—高保真3D空间Occ占用算法概述与优势
- 他怎么做到的?—高保真3D空间Occ占用算法解析
- 他有什么用?—高保真3D空间Occ占用算法应用案例
希望给AI自动驾驶、机器人产品技术爱好者一些科普和启发。
他是什么?能干什么?高保真3D空间Occ占用算法概述与优势
高保真3D空间Occ占用算法可以仅仅利用视觉和AI算法解决自动驾驶系统在复杂动态环境中对周围物体进行精确感知和决策的需求,其主要核心算法包括:
Occ占用网格算法:预测 Ego 周围空间中体素(Voxel,即 3D 像素)的占有率属性(是否被有质量的物体占据)。
符号距离函数 Signed Distance Function (SDF)预测:预测被占据体素的符号距离值 (Signed Distance Value),该值指示了该体素与最近的占据体素(即物体表面)之间的距离。这使得系统能够实现更精细的形状细化和改进的空间感知。
预测 Ego 周围环境的 3D 表面属性:从而可以了解占用物体的属性,例如是车位、是车还是墙、车位线等。这种算法可以支持:
- 高保真渲染环境:利用 SDF 值将 3D 空间重建结果以高保真图像的形式显示出来。
- 辅助泊车:利用高精度达10cm的占有率和 SDF 数据预测碰撞距离,实现先进的辅助泊车应用。
这也就是为什么我们之前文章《特斯拉 FSD V14 上车!10倍参数模型,真实现“车位到车位”》中分享到特斯拉的泊车有人评价“game changer”。要知道当前所有的泊车算法都是用基于规则的Hybrid A* 和 NMPC算法。该算法的关键创新点是,仅依赖摄像头 2D 视觉,在没有深度摄像头、激光雷达、ToF 传感器(当前主流的补盲激光雷达)、雷达等专用深度传感技术的情况下运行。
通过人工智能深度学习技术,模型仅凭 2D 图像即可推断出空间关系和场景结构。
他怎么做到的?高保真3D空间Occ占用算法解析
首先他的基础依然是经典的Occ占用算法 (Method 200)。从图像输入中生成可查询的 3D 占有率输出。
图像输入和特征化 (210/220):接收来自多个摄像头(如八个摄像头)的图像数据,并使用卷积神经网络 (CNN) 或 RegNet/BiFPN 等算法提取有意义的特征。
空间注意力与 3D 转换 (230):使用 Transformer 模型将 2D 图像特征转换为 3D 空间特征。该模块通过 3D 查询分析 2D 特征,将多摄像头图像数据聚合和转换成 Ego 周围的单个 3D 向量空间表示(如俯视空间)。
时间对齐/融合 (240):将当前时间戳的 3D 空间表示与先前时间戳(如 t-1, t-2, t-3)的 3D 空间表示进行融合,以纳入时空信息。反卷积与体积输出 (250/260):通过反卷积操作将融合后的时空特征转换回不同的体素表示,生成体积输出。
- 体积输出内容:包括体素的二进制占有率(0 或 1),占有率流数据(指示体素的移动速度),以及 3D 语义数据(指示体素所属物体类型,如车辆、路缘、静态/移动质量)。
- 体素粒度:默认体素尺寸可以是 33 厘米。系统可以动态调整靠近 Ego 的被占据体素的粒度(例如缩小到 10 厘米),以识别物体更精细的形状信息。
- 可查询输出 (270):生成一个可查询数据集,允许其他下游软件模块(如自主驾驶系统)通过坐标值 (X, Y, Z) 来检索特定体素的占有率状态。
进一步的表面属性分析方法 (Method 201/500),该方法专注于预测 Ego 周围环境的 3D 表面属性,而不是仅仅是体素占有率。
预测表面属性:AI 模型预测 Ego 周围一个或多个表面的属性,包括 Z 轴坐标(高程),表面材质(如草地、沥青、混凝土),是否可导航,以及车道和车位线信息。
生成网格表示 (Mesh):模型生成 Ego 周围环境的网格表示,其中每个节点包含 X、Y、Z 轴坐标及属性类别。
坐标校准:为了消除 Ego 自身垂直运动(如经过坑洼或减速带)带来的噪声,系统会将坐标值与表面本身对齐,而不是与 Ego 的坐标相对对齐。
高程扩展感知:该方法可与占有率检测 (方法 200) 结合,以识别位于 Ego 垂直占有率检测范围之外(例如,陡峭山坡上)的物体。通过先确定表面的高程,然后将物体体素的高程信息进行调整,从而有效扩展了 Ego 的感知范围。
最后,高保真感知核心算法:符号距离函数 (SDF),这也不是什么新鲜算法,GPU游戏常用。引入了符号距离函数(SDF) 技术来提高 Ego 对周围物体形状和距离的感知精度,这对于辅助泊车等精细操作至关重要。
SDF 符号距离值指示一个被占据体素与最近的物体表面(最近的被占据体素)之间的距离。原来的Occ表示的是该体素与 Ego 之间的距离,这样算法更精准来预测碰撞距离。
符号约定:SDF 场网格 (700) 中,正值表示体素位于物体外部,负值表示体素位于物体内部,零值表示体素位于物体表面。
训练过程:AI 模型通过使用包含摄像头图像和相应地面真值深度图/签名距离图的大型数据集进行训练。模型学习根据视觉线索(如物体边缘、纹理、透视)推断符号距离值,这就是端到端的范式。基于 SDF 的高保真渲染,AI 模型使用 SDF 值执行渲染协议,以实现平滑且逼真的 3D。
渲染:生成 2D 渲染层:处理器根据 SDF 值生成一系列 2D 渲染层。
体素属性:如果体素的 SDF 值是负值(内部),则该体素被渲染为不透明(有颜色);如果是正值(外部),则被渲染为透明。
堆叠重建:通过迭代生成并堆叠这些 2D 层(例如,从路面 0 垂直向上以英寸为单位生成),可以实现 Ego 周围物体的高保真 3D 渲染。
优势:这种基于 SDF 的渲染(如图 9C 所示)比传统的原始点云或简单的二进制体素占有率渲染(如图 9A、9B 所示)细节更丰富,视觉上更连贯和平滑。
油漆线识别:AI 模型还可以基于体素识别驾驶表面上的油漆,并且这种识别不限于连续的线形,可以识别任意形状的油漆(如残疾人停车标志或人行横道)。
他有什么用?高保真3D空间Occ占用算法应用案例
由于高保真Occ占用网络能够识别物体,同时能够精准识别障碍物的距离,所以这套算法能够用于自动驾驶停车场的泊车,室内或者狭窄空间的机器人自动控制。停车场等近场辅助泊车应用 该高保真占有率网络可用于开发和实现先进的辅助泊车功能(方法 1100)。
泊车流程确定泊车资格区域 (1110):处理器确定 Ego 是否进入了泊车区域(例如停车场、路边停车区)。判断依据包括 Ego 的位置、速度(如低速行驶)、以及是否识别到停车标志或周围车辆的朝向。
空间重建与 SDF 预测 (1120/1130):Ego 利用摄像头数据执行 AI 模型,预测周围空间的占有率和 SDF 值,重建高保真的 3D 环境。
识别泊车位 (1140):处理器利用重建的空间信息和 AI 模型识别一个或多个可用泊车位。非静态阈值识别:与依赖静态阈值的传统方法不同,该 AI 模型通过训练(例如,识别被标记的体素集合)来区分停车位和其他空闲空间。
综合考量因素:识别不仅基于空间是否被占据,还考虑地面油漆线(例如,是否为残疾人车位)、交通标志(例如,“禁止停车”标志)和路缘颜色(例如,红色路缘)。
泊车位评分与选择:系统会为识别出的泊车位生成适用性评分。评分基于多个因素,如泊车位与 Ego 的距离,以及到达该泊车位所需的路径属性(例如,机动次数和路径平滑度)。
用户交互与导航 (1150/1160):在 Ego 界面上显示识别出的泊车位及指示器(例如“P”标记)。接收用户选择后,系统将选定的泊车位数据传输给自主导航引擎,指示 Ego 自主泊车(包括平行泊车)。
机器人应用这些方法同样适用于自主机器人(如送货或清洁机器人)在室内环境中的导航和定位(“泊车”)。
室内感知:机器人摄像头捕获办公室环境的图像数据,AI 模型预测体素占有率和 SDF,从而区分障碍物(桌椅、员工)和可导航区域(走廊)。
自主对接/停放:模型可以识别指定的对接区域或充电站(即机器人的“泊车位”),评估距离和空间限制,并指示机器人自主移动和精确对接。
写在最后
本文分享的高保真3D空间Occ占用算法,在经历了各种包含标注的图像和相应地面真值深度图/距离图的大型数据集进行训练,其实就是一个对3D世界理解的模型,再配合简单驾驶碰撞信息的理解强化训练RLHF你就可以把他称为世界模型。
本文是进入算法层面的文章,不是各种宏观叙事例如VLA/世界模型等概念文章,如果你看懂了,那么会理解我们习以为常的宏观叙事的热词不过是概念或者含糊的抽象瓶子。
最后,这套算法应该会引发自动驾驶以及机器人业内的跟进和研究学习,再一次推升算法以及物理AI行业的发展。
参考文章以及图片
*未经准许严禁转载和摘录-获取本文参考资料方式:
- 基于视觉的高保真占有率确定和辅助泊车应用的AI建模技术的专利 - 特斯拉
加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。
905