毫末智行自动驾驶大模型DriveGPT亮相2023北京智源大会！顾维灏：DriveGPT将重塑汽车智能化技术路线

时间：2023-06-13 19:02:03 发布：tgy 来源：毫末智行第一对焦：毫末智行

　　【ZiDongHua 之驾驶自动化收录关键词：毫末智行北京智源大会自动驾驶人工智能机器人低速无人车自动驾驶大模型 DriveGPT 传感器智能驾驶辅助驾驶行泊一体 ChatGPT 】

　　自动驾驶大模型亮相2023北京智源大会！顾维灏：DriveGPT将重塑汽车智能化技术路线

　　在“最强 AI 思想盛宴”2023北京智源大会上

　　毫末自动驾驶大模型 DriveGPT

　　又双叒叕吸引目光！

　　毫末 CEO 顾维灏现场详解

　　硬核实力一览无余……

　　好奇 DriveGPT 有哪些“独门绝技”？

　　快快下划，和小编一起一探究竟！

　　6月9日-10日，被誉为“AI 春晚”的2023北京智源大会在北京举行。在为期两天的 AI 技术盛宴上，“大模型”毫无疑问成为了最火的概念。

　　作为已经举办了四届的人工智能学术盛会，今年第五届智源大会可以用盛况空前来形容。不仅有 Hinton、LeCun 等四位图灵奖得主同台，还有 OpenAI 创始人 Sam Altman、PaLM-E 和 RoBERTa 等大模型重要工作参与者，以及张钹、张宏江等国内外 AI 最前沿领军人物齐聚一堂，围绕大模型发展现状与趋势，针对 AI 安全问题和风险防范进行数场激烈讨论。

　　随着以 ChatGPT 为代表的大模型应用的火爆，这一次面向 AI 行业的技术大会更是破圈进入大众视野。AI 大模型正在与各行各业及人们的日常生活发生着千丝万缕的联系。对于同样是人工智能前沿探索领域的自动驾驶，也在本届智源大会上设置了专门的分论坛。AI 大模型与自动驾驶能够产生怎样的“化学反应”，成为与会嘉宾高频讨论的问题。

　　作为国内自动驾驶 AI 技术公司的领先代表，毫末智行受邀出席了本届智源大会，毫末 CEO 顾维灏在现场分享了题为《DriveGPT 雪湖·海若驱动自动驾驶3.0时代加速到来》的主题演讲，详细阐释了基于 AI 大模型所实现的端到端自动驾驶方案的最新成果。

　　演讲之前，主持人特意提到，实现端到端自动驾驶正在成为国内外自动驾驶 AI 公司探索的最前沿课题，而毫末正是国内做自动驾驶的代表。顾维灏指出，自动驾驶在过去二十年的时间没有完全达成目标，除了传感器硬件、算力跟不上之外，还有一个原因有可能是方法跟不上。自动驾驶最有可能的实现方法就是以数据驱动，进行 AI 大模型的训练和部署。顾维灏表示，世界正在朝着大模型的方向发展，自动驾驶大模型是必然趋势。

　　顾维灏认为，ChatGPT 的成功，带给自动驾驶技术很大的启发。大模型的本质就是将知识压缩到模型当中，然后再延伸出来去解决很多问题。GPT（生成式预训练大模型）作为 AI 大模型中的重要方法，可以引入到自动驾驶领域。基于这些思考，毫末率先在行业推出了自动驾驶生成式大模型 DriveGPT 雪湖·海若。

　　演讲开始，顾维灏首先分享了毫末对于当前自动驾驶发展趋势的判断：2023年智能驾驶产品进入了一个全线增长的爆发期，目前正出现三个重要趋势，即城市导航辅助驾驶产品将围绕量产交付发力、行泊一体将成为自动驾驶公司深耕的重点以及低速无人车市场走向商业化落地、末端配送在商超快递等场景迎来全面爆发。以上趋势的背后是 AI 技术生态、AI 数据生态、AI 算力生态的加速升级，推动自动驾驶技术与商业发展走向成熟。

　　顾维灏认为，经过近二十年的发展，自动驾驶技术先后经历了以硬件驱动为主的1.0时代、以软件驱动为主的2.0时代，目前正在进入由数据驱动的自动驾驶3.0时代。进入自动驾驶3.0时代，至少需要一亿公里以上的数据规模，感知模型进入到多模态传感器联合输出的模式，认知模式也从人工规则方式发展到可解释、场景化、具有驾驶常识的模型中。因此自动驾驶3.0的发展模式一定是以“大数据、大算力、大模型”为核心的。而毫末正在以数据驱动的方式，实现从自动驾驶2.0向3.0时代的加速冲刺。

　　顾维灏表示，毫末从2019年底创立之初，就定下以数据驱动自动驾驶技术升级的公司技术战略，提出了“自动驾驶发展三定律”，并确立了以“数据智能”为核心，以乘用车辅助驾驶、末端物流自动配送车、智能硬件三大业务作为叶片的风车战略，形成产品、数据、技术闭环的良性循环。

　　毫末以领先的 AI 技术和量产智能驾驶作为核心优势，在2021年底，率先发布国内首个全栈自研的自动驾驶数据智能体系 MANA（雪湖），开始建立数据驱动的闭环体系。截至目前，毫末用户辅助驾驶行驶里程超过5000万公里，MANA 学习时长达到67万小时。在2022年底，毫末又建成国内自动驾驶行业最大智算中心 MANA OASIS（雪湖·绿洲），每秒浮点运算达到67亿亿次，为 AI 大模型训练建立起算力基础设施。

　　基于数据智能体系和智算基础设施，以及早在2021年就对 Transformer 大模型前沿探索的基础上，毫末在2023年1月，在行业内率先推出了视觉自监督大模型、3D 重建大模型、多模态互监督大模型、动态环境大模型、人驾无监督认知大模型等五大大模型，成为行业首个将 GPT 大模型技术引用到自动驾驶认知决策当中的自动驾驶公司。

　　2023年4月的第八届 HAOMO AI DAY 上，基于 GPT 大模型所具有的生成式预训练、人类反馈强化学习（RLHF）等技术优势，毫末发布了行业首个自动驾驶生成式大模型 DriveGPT 雪湖·海若。

　　顾维灏认为，AI 大模型成为这场自动驾驶技术升级背后的关键因素。随着 ChatGPT 火爆全球，使得 AI 大模型技术价值被全行业看到。ChatGPT 作为生成式语言大模型的代表，带给 AI 科技行业很大的启示——通过对海量多模态数据的大规模自监督学习，借助“预训练+微调”的方式，就可以完成各种复杂的自然语言任务。现在大模型正在从文本、语音、视觉等单一模态智能向跨场景、多任务的多模态方向演进，AI 大模型在跨领域内容学习和能力获取方面实现了质的飞跃。

　　顾维灏指出，以传统深度学习的小模型以及人工规则的方式难以突破完全自动驾驶所要求的能力瓶颈，而基于大模型的方式对自动驾驶感知、认知算法进行训练和部署，将使得端到端自动驾驶的实现成为可能，并且会逐步达到超过人类老司机水平的驾驶能力，最终成为自动驾驶机器人，实现无处不在的机器智能移动。

　　据顾维灏介绍，DriveGPT 的底层模型与 ChatGPT 一样，都采用了生成式预训练模型架构，使用了大规模无监督的数据进行初始模型的生成，也都采用了 Prompt 微调方式和 RLHF 方式进行模型效果的优化；二者的不同之处在于，ChatGPT 输入输出的是自然语言文本，而 DriveGPT 输入输出的分别是融合感知场景序列和生成的预测场景序列，双方应用场景不同，ChatGPT 主要用于自然语言处理领域，而 DriveGPT 主要用于自动驾驶领域。

　　具体来讲， GPT 的本质是不断求解下一个词（Token）出现的概率，DriveGPT 就是求解驾驶场景 Token 出现的概率，不断循环来生成自动驾驶场景未来 Token 序列。DriveGPT 的输入是感知融合后的 Token 序列，输出是自动驾驶场景 Token 序列，即将自动驾驶场景 Token 化，形成“Drive Language”，用于描述包括障碍物的状态、自车状态、车道线情况等某时刻的场景状态，最终完成自车的障碍物预测、决策规控以及决策逻辑链的输出等任务。

　　毫末 DriveGPT 底层模型同样是采用 GPT 这种生成式预训练大模型技术，首先会通过引入大规模驾驶数据进行预训练，再通过使用奖励模型（Reward Model）与RLHF（人类反馈强化学习）技术对人驾数据进行强化学习，对自动驾驶认知决策模型进行持续优化。

　　其中，顾维灏对于大模型的可解释性难题做了专门解释，DriveGPT 在接受人类反馈的强化学习之后，还可以输出决策逻辑链（Chain of Thought，简称CoT），即在输入端提供提示语（Prompt），根据提示输出含有决策逻辑链的未来序列。毫末 CSS 自动驾驶场景库拥有超过几十万个细颗粒度场景，可以作为 CoT 的重要输入，将 Prompt 和完整决策过程的样本交给模型去学习，学到推理关系，从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程，完成可理解、可解释的推理逻辑链生成。

　　目前，毫末 DriveGPT 采用了 Decoder-only 模型架构，参数规模达到1200亿，预训练阶段引入4700多万公里量产车驾驶数据，RLHF 阶段引入5万段人工精选的困难场景接管 Clips。同时，毫末正在将感知能力融入到 DriveGPT 大模型训练当中，形成一整套的端到端自动驾驶能力模型。DriveGPT 也将具备道路驾驶场景的理解和识别、道路驾驶场景的重建与生成，以及智能驾驶辅助、驾驶能力测评等能力。

　　在场景理解能力上， DriveGPT 可基于多模态理解能力，具备对话式文搜图能力。在场景识别能力上，可实现对单帧图片、环视 Bundle、4D Clips 自动化标注。基于毫末 DriveGPT 所建立的 4D Clips 驾驶场景识别方案，可以使得单张图片的标注成本降到0.5元，是目前行业平均成本的1/10。在场景重建能力上，可实现对单趟或多趟视频的纯视觉 NeRF 三维重建。DriveGPT 在感知数据生成方面，可实现不同场景的感知数据生成和障碍物、交通元素编辑，同时在认知数据生成上，可以生成各类接管场景的驾驶决策真值。

　　基于 DriveGPT 实现的驾驶辅助能力，可包含通用感知能力和驾驶决策能力，以提升驾驶效果。DriveGPT 颠覆传统的感知逻辑，通过构建统一的空间计算 Backbone 实现通用视觉感知能力，在一个大模型中同时完成图片纹理、三维结构深度信息、实体语义信息、实体跟踪的学习，试图与人脑对物理世界的感知一样，实现通用的视觉感知能力。在认知阶段，将空间计算 Backbone 对接驾驶决策，采用更丰富、更全面的感知信息来训练驾驶决策模型，结合海量的真实驾驶数据训练，最终实现端到端自动驾驶甚至达到无人驾驶。

　　在云端驾驶决策测评上，DriveGPT 本身的驾驶水平非常高，可以在云端通过大模型输出驾驶决策真值，来对比车端小模型的驾驶效果，实现大规模云端自动化测评，形成一种“Teacher-Student”模式。在多智能体仿真能力上，由于 DriveGPT 具备很强的自主化能力，相当于一个独立智能体，通过在驾驶仿真场景中布置多个智能体，可以模拟非常复杂的真实交通场景，针对复杂场景的多车交互与博弈，能给出更真实、更有效的测评结论。

　　在毫末看来，毫末 DriveGPT 大模型技术将使得自动驾驶技术产生质的飞跃，成为实现真正无人驾驶的全新技术路线。顾维灏表示，DriveGPT 的训练成果距离最终的产品体验还有差距，但是进步飞快，自动驾驶大模型最终在终端的落地也会加速到来。

　　毫末 DriveGPT 雪湖·海若大模型的相关技术成果将逐步落地在搭载毫末 HPilot3.0 的新摩卡 DHT-PHEV、魏牌蓝山 DHT-PHEV 以及末端物流自动配送车小魔驼3.0上。同时，毫末也正在与多个行业生态伙伴共同探索 DriveGPT 的四大应用能力，包括智能驾驶、驾驶场景识别、驾驶行为验证和困难场景脱困。DriveGPT 大模型也正在将云端的能力对外开放，包括大规模数据的自动化标注，自动驾驶场景仿真测试等能力。

　　最后，顾维灏希望毫末在自动驾驶大模型的实践能够促进中国自动驾驶更快地发展。毫末 DriveGPT 大模型必将重塑汽车智能化技术路线，驱动自动驾驶3.0时代加速到来。

　　用 AI 照亮未来

　　以科技指引前路

　　毫末始终与时代共振

　　以技术信仰，构筑美好生活