特斯拉机器人市场分析.docx

资源描述

《特斯拉机器人市场分析.docx》由会员分享，可在线阅读，更多相关《特斯拉机器人市场分析.docx（23页珍藏版）》请在第一文库网上搜索。

1、特斯拉机器人市场分析1、人形机器人远期空间大于汽车，特斯拉强势入局抢占先机特斯拉于北美时间2023年9月30日推出OPtimUS（擎天柱）原型机，目标价低于2万美元。大脑使用全球最强大的超算集群Dojo和特斯拉汽车同款的FSD（完全自主驾驶能力）芯片和算法网络。眼睛基于特斯拉FSD的计算机模组和方案,配备8个汽车同款Autopi1ot摄像头，最远监测距离可达250米。身体+灵巧手共40个自由度，2大类6种类型的执行器，负载设计更灵活；脚掌可以上下翻和调整掌面。动力系统中2.3kWh、52V电池包，充电管理、传感器和冷却系统都借鉴于特斯拉汽车。特斯拉进军人形机器人原因之一是实现人车协同，以更低的

2、生产成本制造出几乎完全实现自动驾驶的电车。第一，OPtimUS人形机器人量产后将发挥使用场景和视野高度等优势，为特斯拉神经网络算法提供海量长尾场景数据支持，帮助特斯拉实现15级别的FSD算法迭代。第二，由于OPtimUS的部分传动部件以及电池热管理系统等复用特斯拉汽车，人形机器人量产后将进一步扩大硬件需求规模，从而进一步降低生产成本。进军人形机器人更重要的原因是在广阔蓝海市场抢占先机。相比工业机器人，人形机器人有以下四点优势：（1）仿生步态下运动能力较传统履带/四轮/双轮机器人大幅提升；（2）灵巧手可实现双手配合和工具替换，较工业机器人技能更广；（3）依靠算法能力实现复杂环境识别并实施决策。（

3、4）不再有传统“工业机器人”、“服务机器人”这样明确的功能属性，人形机器人具备通用性，一款成熟的产品即可适用于广泛的需求场景。从人形机器人相比传统工业机器人的优势来看，未来人形机器人将拥有比汽车更大的市场空间，因为人形机器人理论上几乎能完成所有人类进行的非标任务。马斯克曾称特斯拉汽车是放在轮子上的机器人，那么特斯拉将利用这个天然优势抢占人形机器人广阔市场的先机。举：FSD视觉感知神经冏络架构OtctDonTMkTraffic1*gBTMk1anPredictionC1srgttrCHrgttrrgHeadDcodrTrunkDcodfTrunkFu11yConnectedraw2、手握FSD系

4、统，A1是TeSIa投入人形机器人的最强竞争力2.1、 OPtimUS问世前：成本高、不智能是人形机器人无法量产的原因在特斯拉机器人问世以前，以波士顿动力At1as为代表的液压驱动人形机器人和以日本本田ASIMO为代表的的电驱动人形机器人均存在成本高、不智能、控制能力差的缺陷，没有合适的应用场景，更无法实现量产。成本高，一是由于使用了很多特殊和高成本零部件，液压驱动的机器人还需要考虑高昂的维护成本和耗电成本。二是软件端数据采集/数据购买、数据标注和模型训练带来的高成本。“不智能”指的是人形机器人的核心算法尚未突破，包括“感知认知决策-执行”的算法以及如何让机器人具备人类的逻辑思维能力，同时可以

5、模拟出人类的情感和情绪，达到与人类共情。2.2、最强大脑：OPtim1IS复用完全自动驾驶解决方案FSD马斯克认为，想要解决自动驾驶，就必须解决现实世界中的人工智能,因此特斯拉一直在向人工智能技术公司转型。特斯拉研发人形机器人的初衷便是最大程度上利用特斯拉在造车和自动驾驶方面的优势，特别是自动驾驶研发过程中积累的算法经验、数据驱动能力、A1芯片能力、模型训练能力等，智能是特斯拉投入机器人领域最核心的竞争力。FSD是特斯拉的自动驾驶解决方案，也是特斯拉机器人的“大脑”。FSD系统由数据、算法、硬件构成整体架构，其迭代路径则是通过不断升级算力的硬件来支撑不断升级的算法从而处理不断增加的海量数据。

6、由图2所示，左边的训练基础设施(TrainingInfra)和右边的A1编译器&推理引擎(A1ComPiIerinference),以及下方的训练数据(TrainingData),共同输入信息进入神经网络(Neutra1Networks)中，对占用网络(OCCUPanCy)和一些几何形状(1anesandObjects)进行分析，最后整体输出结果，生成自动驾驶车辆/人形机器人的路径规划。图13:ChatGPT控制机械臂拼出一个微软的1ogO2.2.1. 海量数据储备节省开发人形机器人的前期费用特斯拉FSD系统已有海量数据储备，开发人形机器人可节省大量前期费用。车队传回的数据与场景仿真生成的数据

7、共同构成特斯拉FSD系统的数据收集。2023年FSDbeta软件（完全自动驾驶测试版）使用量由2000辆车提升到16万辆车，累计拥有30PB容量的视频数据。特斯拉计划于2023年年底向全部地区推出FSDbeta,收集的数据量进一步提升。现实世界收集到的数据不足以覆盖所有场景,要完善FSD的功能，还需要做仿真模拟。根据2023年特斯拉A1Day上AutoPiIot团队成员介绍，目前特斯拉仅用5分钟时间，就可以生成与现实世界非常接近的虚拟场景，帮助特斯拉快速覆盖长尾场景。TeSIa数据引擎自成闭环，驱动迭代开发。Cornercase（极端情况）可以帮助由数据驱动的算法模型进行升级。影子模式是指，人

8、在进行驾驶的同时特斯拉自动驾驶系统同样也在计算自己会怎么做，然后和人的选择进行对比。在特斯拉的数据引擎中，车队传回的数据从影子模式中挖掘模型误判（即，自动驾驶选择的操作方式是错误的）的数据，将之召回并采用自动标注工具进行标签修正，然后加入到训练和测试集中，可以不断优化云端和车端的网络。这个过程是数据闭环的关键节点，会持续生成cornercase样本数据。2.2.2. 不断升级的感知、规控算法由于人形机器人和特斯拉自动驾驶汽车都遵循“感知认知决策执行”的运行逻辑，下文将重点分析FSD的感知、规划决策算法的迭代是如何让特斯拉机器人更智能的。感知：特斯拉FSD系统拥有非常强大的纯视觉感知方案。特斯拉

9、纯视觉感知的重要工作是目标检测，包括对周围车辆、交通灯、限速标志的识别与检测，车道线预测，判断物体是否移动等各种任务。在Tes1aFSD视觉感知神经网络架构中，有一个共享的BaCkbone（RegNet+ResNe）,Neck:是BiFPN,这三种网络都是目前SoTA（行业当前最佳）的网络，以后有更好的网络可以直接更换。Head是若干个头部，即TeSIa的软件架构HydarNeto这样的架构符合人类视觉的流程。视觉感知的整体软件流程是：首先8个摄像头的单帧数据经过imageextractors进行特征提取，这里采用类似ResNets的网络。然后将8个摄像头获得的不同视频数据直接进行融合，利用T

10、ranSfOrmer神经网络（一种基于注意力机制的深度学习模型）进行训练，实现特征从二维图像空间到三维向量空间的变换。由于速度、目标的遮挡与重现等状态无法在单帧下识别，因此第三步是时间融合，给上一步的每个图赋予时间信息。最后，将上一步的结果分发到不同的HeadS中,每个HeadS负责特定的功能，后面接着自己的单独网络。图14:SAM能很好得对图像中的所有内容进行自动分割OccupancyNetwork是2023年特斯拉对HydraNets的重要改进，也是纯视觉自动驾驶领域的重要里程碑。此前，纯视觉一直被人诟病的对于未知障碍物的识别能力。引入OCeUPanCyNetWork后，不再进行目标识别，

11、而是通过得到空间是否被占用的信息判断是否存在障碍物，解决了目标检测系统失效的问题。OccupancyNetwork-般障碍物几何感知的基础上还附加了语义和速度、加速度输出，因此和激光雷达相比，其视觉的语义感知的能力更强，可以更好地将感知到的3D几何信息与语义信息融合。OccupancyNetwork的运算效率很高,可以在10毫秒中计算完毕,输出可以达到跟相机同样的36Hz,超过目前绝大多数雷达仅WHz的采集频率。因此在高速环境或者对快速移动的物体感知方面，纯视觉的OeeUPanCyNetwork甚至可能做到比雷达更强。对于成本控制更加严格的人形机器人来讲,类似OCCUPanCyNetwork的

12、方式优于激光雷达解决方案。在机器人上视觉传感器的成本很低,相对于单线激光雷达来讲，所包含的信息则极大丰富，单目视觉可以使用很低的成本覆盖机器人周身，获取机身周围的OCCUPanCyNetwork,作为避障与路径规划的依据。而且OCCUPanCyNetWe)rk是个软件方案，后期可以使用订阅软件的方式收费，升级非常的便捷,相对于硬件的替换优势更大。规划和控制：TeS1a拥有极强的决策规划控制算法。人体在感知到周围世界的信息后，会基于对这些信息的认知做出相应的判断，来规划自己的躯体应该作何反应并下发控制指令，人形机器人和自动驾驶汽车也是一样。特斯拉的“交互搜索”规划模型进一步增强了FSD系统的规控

13、能力。由于车辆、行人的未来行为都有一定的不确定性，特斯拉采用“交互搜索”(InteraCtiOnSearCh)的规划模型，在线预测自己和其他车辆，行人等的交互，并对每一种交互带来的风险进行评估,最终决定采取何种策略。FSD系统还能够通过OCCUPanCyNetwork对可视区域进行建模来处理未知不可见场景。在2023AIDAY上，可以看到OPtimUS已经可以较好地利用起FSD中的OCCUPanCyNetwork的语义感知能力，从而与周围环境互动。另外机器人技术设计中运用了很多强化学习方面的算法，比如让机器人通过人类示教就能学会一类通用工作的执行方法，需要强大的模仿学习能力。图15:对比当前时

14、点和终局状态下BOM表拆解，线性关32023年软件硬件成本占比2.2.3. 件及结构件，2.2.4. 模型训练的最强算力基础设施：DOJO超级计算机算力是支撑算法的基础。以OCCUPanCyNetWork为例，这种监督网络需要大量标注好的数据进行训练。TeSIa使用了14亿帧图像对其进行训练，用了10万GPU时（等效于10万个GPU运行1小时），温度达到90度。Dojo的研发定位是A1训练方面最强的超算系统，目标是提高TeSIa模型训练的效率。DOj。能够处理海量的数据，用于无人监管式的标注和训练，相当于无需人工对训练数据集进行标注,系统能够自行通过样本间的统计规模对样本集进行分析，进而提高效

15、率。实际上，通过人机合作标注，Dojo已经在2023年一年内持续以每7天训练75000个神经网络模型的节奏推进研发，相当于每8分钟就训练了一个模型。如果采用人工标注，训练一个神经网络模型需要一两周甚至几个月。2023年AIDAY上，马斯克宣布将于2023年第一季度正式量产Dojoexapod0exapod具有超高算力并且降低gpu集群服务成本。EXAPOD可视为DOJo超算集群中的一组成员。一个EXAPOD将由两层计算托盘和存储系统组成，每一层托盘包括6颗D1芯片，提供1.1EF1OP的算力。72个GPU机架（4000个GPU）才能运行完的自动标注算法，现在只要4台DojoCabinet机柜就

16、能做到，大大降低GPU集群服务成本。运行神经网络模型OCCUPanCyNetworks时，相比英伟达AIo0,DOjo能实现性能的倍增。2.3、大模型发展超预期，加速提升人形机器人交互、决策、感知能力OpenA1团队领投人形机器人公司1X2350万美金进军机器人行业,代表着人工智能的发展在人形机器人领域大有可为。我们认为，大模型的发展将大大提升人形机器人的交互、决策、感知能力。第一，机器人和人类的自然语言交互迎来里程碑式进展。尽管在机器人技术中使用11M具有潜在的优势，但现有的大多数方法都受限于僵硬的范围和有限的功能集，不允许进行流畅的互动和用户反馈的行为修正。相比之下，ChatGPT作为是一个基于上千亿超大语料参数的生成式自然语言大模型，使用人类反馈进行微调，显示出了非常强的交互功能。能够让用户以更自然的方式与机器人模型互动，并能灵活地进行行为纠正。将Chatg

展开阅读全文