登录注册
自动驾驶之特拉斯FSD解析
又弱又不努力
自学成才的半棵韭菜
2024-04-28 20:36:08

与激光雷达对应的,特斯拉不用高精地图,不用激光雷达的纯视觉自驾方案FSD,发展迅猛,累积训练里程已经突破10亿英里。今天来聊聊特斯拉纯视觉方案FSD。

一、事件驱动

1、2015年特斯拉开始完全自动驾驶FSD功能的研发,2020年10月向小规模测试用户推送。

2、2023年8月,马斯克直播了FSD V12全新一代端到端自动驾驶算法的能力,其从特斯拉总部出发,沿途标记多个路径点,一定程度实现了城市中点对点自动驾驶,四十五分钟中仅出现一次接管。

3、2024年3月,马斯克表示,特斯拉“全自动驾驶(FSD)”系统的三项重大改进将大致每两周发布一次,到4月底或5月初“应该会真正大放异彩”。特斯拉车主陆续接收到FSD(全自动驾驶)V12.3版本的更新推送,引入了“端到端神经网络”技术。

4、2024年国内清明假期期间,特斯拉宣布将于2024年8月8日发布无人驾驶出租车Robotaxi。随后,特斯拉AI发布特斯拉已经实现了全自动驾驶累计行驶10亿英里(约16万公里)的成绩。

2023Q2特斯拉引入Dojo实现高效率、低成本的神经网络训练,累计里程由2023Q1不到1.5亿英里,到23Q2突破3亿英里;2023Q4引入“端到端”V12版本后,2023Q4突破7亿英里,2024年4月初突破10亿英里。

马斯克在2016年曾估计,自动驾驶系统要获得全球监管机构批准,可能需要行驶60亿英里左右。

5、国内车企端到端布局情况:

小鹏汽车在2024年1月宣布,致力于实现核心区域每千公里被动接管次数<1次的目标,端到端模型下一步将会全面上车;蔚来计划在2024年上半年上线基于端到端的主动安全功能;理想基于端到端的智能驾驶模型也将在今年上线。

二、特斯拉自动驾驶方案

(一)特斯拉自动驾驶方案Autopilot

特斯拉自动驾驶方案Autopilot包括:基础版自动辅助驾驶(Basic,BAP)、增强版自动辅助驾驶(Enhanced,EAP)以及完全自动驾驶Full Self-Driving,FSD

根据特斯拉官网车主手册,BAP可免费使用,但功能仅限于主动巡航控制、自动辅助转向,EAP和FSD为收费模式。

 

EAP:在BAP基础上,增加功能见下图:

  

FSD:在EAP基础上,增加了交通信号灯和停车标志控制:


 (二)什么是FSD?

FSD特斯拉自动驾驶方案Autopilot中的最高级别,旨在实现车辆在特定条件下完全自动驾驶的能力。目前只在北美地区推出,国内尚未引入,具体落地障碍下文最后一部分会谈到。

FSD通过使用先进的传感器、计算机视觉、机器学习和人工智能等技术,使车辆能自主识别、理解、与交通环境进行交互,并在没有人工干预的情况下完成各种驾驶操作。

与目前国内新势力自动驾驶方案比,特斯拉没有配备激光雷达,没有高精地图,属于“纯视觉”方案。

简单地说,FSD是一套包含感知、规划、执行的全链路自动驾驶软硬件架构。

 

FSD的最终目标,是实现车辆可以在没有人类干预的情况下,自己识别路况、规划路线、控制速度和方向,完成从起点到终点的行驶。FSD V12 ,是目前最高水平的自动驾驶系统。

FSD由三大模块组成:环境感知模块、思考决策模块、运动控制模块。环境感知模块对外部环境信息进行感知与预测,提供思考决策所需关键环境信息;思考决策模块对路径与运动进行规划,主要用于生成决策路径→生成路径下的驾驶行为→生成车辆控制信息;最终车辆控制信息传递给运动控制模块,形成对车辆的控制。

特斯拉Autopilot硬件从2014年采用Mobileye单芯片单摄像头HW1.0开始。从HW2.0起,特斯拉开始采用自研智驾域控制器,由多颗英伟芯片构成的算力平台,8颗1.2MP的摄像头接入到域控当中,并与毫米波雷达信息进行融合。当前大规模部署的HW3.0又称FSD Computer,对域控算力进行大升级,从英伟达算力平台改为自研FSD芯片和NPU,GPU算力提升12倍,每秒可以处理的视频帧数也提升了将近21倍。

根据媒体报道,更高规格的HW4.0公布在即。HW4.0或在传感器和域控制器上都有较大程度的升级:摄像头数量预计从原先的8颗提升到11颗;新增“Phoenix”4D毫米波雷达;芯片升级到第二代FSD芯片,预计算力可达500Tops左右;内存从8颗LPDDR4升级到16颗GDDR6内存,同时传输速率大幅提升,进一步释放数据传输带到来的性能瓶颈。

三、FSD核心技术

FSD的实现依托基于BEV+Transformer的软件算法和基于Dojo的高效数据闭环BEV+Transformer,为FSD提供了不依赖高精地图的感知和定位能力Dojo则是支持算法快速迭代响应用户反馈,实现高效数据闭环。

(一)端到端大模型

2323年,FSD Beta V12 的端到端大模型代替了自动驾驶软件,将原先 30 万行代码缩减到 3000 行。传统自动驾驶软件是划分清晰的三模块——感知定位+规划决策+执行控制;而端到端大模型模糊了感知层和决策层、决策层和执行层之间的界限,由神经网络自动完成感知-规控-执行,可以简单理解为端到端大模型的自动驾驶没有在软件代码的层面生成指令,下发到各个软件模块,让软件根据各种场景进行决策。

端到端大模型能够大幅提升模型训练效率和性能上限。传统的自动驾驶模型需海量代码编写和高成本维护,而端到端大模型的规划和决策能力可通过“投喂”驾驶视频+训练中心训练,不断调整优化模型参数。

(二)感知算法架构:BEV+Transformer

Transformer,是大模型的基石。利用注意力机制来判断上下文或是不同图片之间关联程度的算力模型。

特斯拉在2021年Tech Day提出使用BEV(Bird Eye’s View,鸟瞰图)进行特征级融合,将传统2D图像视角转换为鸟瞰图视角下的3D感知,从而将车四周摄像头所拍摄到的画面,通过Transformer提取共同特征进行三维构建。在不依赖高精地图的情况下,实现对车辆周边实时构图,并基本准确地判断车辆周围物体的位置和轮廓,以及车道线、路墩、信号灯等交通设施。

国内小鹏等车企也陆续跟进BEV + Transformer路线。2022年特斯拉进一步引入占用网络以增强3D空间感知。

为充分发挥BEV+Transformer感知算法和积攒的大量行车数据,特斯拉研发超算系统Dojo。

(三)超算系统:Dojo

Dojo,是特斯拉内部设计的超级计算平台,用于自动驾驶AI学习和视觉训练,于 2021年AI Day发布,2023年7月正式生产。在Dojo之前,特斯拉采用英伟达A100搭建超算平台用于FSD训练;但因为无法从英伟达采购到足够数量芯片,且价格过高,特斯拉开始自研AI芯片。

Dojo采用特斯拉自研的AI芯片D1,采用台积电7nm工艺。每25个D1芯片构成一个训练模组(tiles),每6个训练模组构成一层托盘(Tray),两层托盘构成一个机柜(Cabinets),10个机柜构成训练集群Dojo ExaPOD,整个训练集群提供1.1EFlops(每秒千万亿次浮点运算)的算力。

D1的参数与A100相近,但A100是通用AI芯片,D1则是定制化专用芯片,“专芯专用”,针对视觉神经网络做了专门架构设计,可以节省成本、提升效率。根据特斯拉2022AI Day上发布的数据,原先需要一个月训练时长的数据,Dojo可缩短至一周以内。马斯克已经明确不会对外销售 Dojo,但可能通过Dojo对外提供运算服务,例如对外提供机器视觉训练服务,类似服务器的算力租赁。

特斯拉可以利用Dojo的高稳定性、高拓展性、高并行算力特性,构建更高效的数据标注、算法迭代、模拟验证能力,扩大FSD算法领先优势。

(四)数据闭环

FSD,大强度深度学习的原理,就是通过收集海量相关数据给计算机,进行特征分析、训练、验证,终“训练”出一个高度精准的AI算法,用于实时感知不断变化的路况,通过推理计算给出可靠的驾驶指令。

在特斯拉自动驾驶方案中,核心算法基本都是由数据驱动的,数据的数量和质量决定了算法的性能,因此构建一套高效获取、标注及仿真训练数据的闭环至关重要。特斯拉数据闭环体系为:数据采集——搭建数据集——自动+人工标注——送入模型训练——部署到车端。其中数据标注、仿真、数据引擎采集为数据闭环体系中的重要环节。

1、数据脱敏:中汽协在2022年8月对汽车数据脱敏提出明确要求,涵盖了车内(人脸)和车外(人脸+车牌)的图像数据。由于汽车数据多为动态视频,因此需利用AI技术对敏感数据进行追踪,并执行擦除、涂抹等脱敏操作。

2、数据标注:普通驾驶数据可归类后让计算机自主学习,但特别有价值的数据,如特殊天气下的道路标志识别、特殊红绿灯识别以及不寻常的障碍物等,需工程师进行重点标注后进行针对性训练。

2021年开始,特斯拉开始采用自动标注系统,主要流程为:高精度轨迹提取——多路径联合重建——新路径自动标注,通过融合多条路径,重建3D语义地图,并将其应用到新轨迹的自动标注上。自动标注算法对一万个驾驶旅程的12小时自动标注相当于500万小时的人工标注。

(1)高精度轨迹提取:通过所有开通FSD的车辆,每天可获取到50万个旅程,采集车辆视频、车辆IMU、速度等原始信号,输出车辆运动轨迹、3D结构路况细节等;(2)多路径联合重建:基于高精轨迹信息,进行道路信息匹配、重构、接缝优化等,最后由人工分析师审核,形成多重旅程的轨迹信息;(3)新路径自动标注一次标注生成的真值可以跨越时间,给在同一地点、不同时间采集的数据提供真值。通过真值自动迁移,训练模型能够拥有更好的适应遮挡或低可见度(夜晚,雨,雾)等条件的能力。

目前常用的两种数据标注方法包括:基于NeRF(Neural Radiance Fields)方案的数据标注和基于点云(Point Cloud)方案的数据标注。(1)点云:直接反映物体和环境的3D结构,便于进行空间关系和尺寸的精确标注;但密度依赖于扫描设备和物体的距离,远处的物体点云可能稀疏,影响标注质量;(2)NeRF:是一种用于合成高度逼真3D场景的技术,通过深度学习模型学习场景的连续体积表示。一旦场景被NeRF建模,标注过程可部分自动化,减少人工工作量。但是NeRF模型的训练和渲染成本高,需要强大的计算资源。

3、场景仿真:自动驾驶仿真是动驾驶车辆上路的最后一公里,搭建逼真的场景和障碍物来模拟真实场景,在不进行实车测试的情况下,进行算法与功能验证。特斯拉的仿真把一般基于高精地图的场景自动重建变成了基于4D标注的场景重建。

四、特斯拉FSD在国内落地的障是什么?

FSD进入国内,需考量BEV感知方案能否得到本地化适配。这个问题可以从地图采集、数据闭环两方面讨论:

(一)地图采集

BEV生成涉及地图测绘行为。根据《测绘法》规定,特斯拉BEV算法如果被判定为涉及到测绘工序,需要与国内具备甲级制图资质的图商合作。

地图编制环节:特斯拉BEV完全在车端生成,且为实时的局部地图。如果不涉及上传至云端进行全局拼接,FSD的BEV国内落地就可以不受《关于导航电子地图管理有关规定的通知》的限制。

(二)数据闭环

1、数据存储:特斯拉的传感器采集大量社会层面、个人层面敏感信息,因此特斯拉21年在上海超级工厂搭建数据中心来保护这类信息的安全;所有国内业务产生的所有数据,包括不限于生产数据、销售数据、服务数据和充电数据等,完全存储在中国境内,同时通过数据加密、鉴权、访问控制等技术手段确保存储安全。因此,特斯拉需要在中国境内对模型进行训练。

2、算力中心:FSD之所快速迭代升级,取决于高效算法+强大算力。算法不受国界约束,算力受到地理位置约束,建立在上海的数据中心无法连通在美国的超级计算机。因此,特斯拉要在国内搭建算力中心,引入Dojo超算平台或者外采英伟达服务器。

3、数据团队:特斯拉需组建本地数据闭环团队,以支持算法适配,和后续对长尾场景的不断优化。

与国内相比,因为美国与欧洲签署Privacy Shield 2.0协议,允许欧美科技公司跨国境传输用户数据,所以欧洲的特斯拉数据可以传回美国进行模型训练,使得特斯拉在欧洲没有数据本地存储,异地模型训练的难题。因此,北美以外,欧洲FSD落地的确定性相对较高。



本文主要参考:

1、德邦证券2023年11月研究报告《特斯拉FSD自动驾驶方案深度解析》;

2、特斯拉车主手册、官方社交账号等。

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
经纬恒润
S
万集科技
工分
8.46
转发
收藏
投诉
复制链接
分享到微信
有用 9
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(11)
只看楼主
热度排序
最新发布
最新互动
  • 1
  • 2
前往