- HAOMO发布自动驾驶生成式大模型DriveGPT
- 毫末 AI DAY干货满满 以数据驱动的自动驾驶3.0时代已经到来
- 毫末智行COO侯军:自动驾驶未来已来 技术创新激活产业新动能
- 当GPT遇到自动驾驶,毫末首发DriveGPT
毫末自动驾驶(毫末自动驾驶三定律)
大家好!今天让创意岭的小编来大家介绍下关于毫末自动驾驶的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,有小程序、在线网页版、PC客户端和批量生成器
本文目录:
HAOMO发布自动驾驶生成式大模型DriveGPT
【TechWeb汽车】4月12日消息,在HAOMO AI DAY上,HAOMO发布业内首个自动驾驶生成式大模型DriveGPT,中文名“雪湖•海若”,毫末智行CEO顾维灏表示,DriveGPT将重塑汽车智能化技术路线。据介绍,DriveGPT雪湖•海若首发车型是新摩卡DHT-PHEV,即将量产上市。
毫末智行董事长张凯表示:“2023年智驾产品进入全线爆发期,大模型开启在车端的落地应用,车主的使用频率和满意度成为产品竞争力的重要衡量标准。”
顾维灏介绍,DriveGPT通过引入驾驶数据建立RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,现阶段主要用于解决自动驾驶的认知决策问题,终极目标是实现端到端自动驾驶。
目前,毫末DriveGPT雪湖•海若实现了模型架构与参数规模的升级,参数规模达到1200亿,预训练阶段引入4000万公里量产车驾驶数据,RLHF阶段引入 5万段人工精选的困难场景接管Clips。
DriveGPT雪湖•海若的底层模型采用GPT(Generative Pre-trained Transformer)生成式预训练大模型,与ChatGPT使用自然语言进行输入与输出不同,DriveGPT输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景Token化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。
顾维灏进一步阐释,DriveGPT雪湖•海若具有三个能力:
1. DriveGPT雪湖•海若可以按概率生成很多个场景序列,每个场景都是一个全局的场景,每个场景序列都是未来有可能发生的一种实际情况;
2.在所有场景序列都产生的情况下,DriveGPT雪湖•海若能把场景中最受关注的自车行为轨迹量化出来,也就是生成场景的同时,会产生自车未来的轨迹信息;
3. 有了自车未来的轨迹信息之后,希望这条轨迹是可解释的,而GPT模型最擅长的领域便是对话和推理,DriveGPT雪湖•海若也很好地继承了这种特性,在生成场景序列、轨迹的同时,也会把整个决策逻辑链给输出。
顾维灏介绍,毫末在2023年1月发布的中国自动驾驶行业最大的智算中心MANA OASIS(雪湖• 绿洲)此次从算力优化等层面升级了三大能力,进一步支持DriveGPT雪湖•海若的算力。
首先,毫末与火山引擎全新搭建了“全套大模型训练保障框架”,实现了异常任务分钟级捕获和恢复能力,可以保证千卡任务连续训练数个月没有任何非正常中断,有效保证了大模型训练稳定性;
其次,毫末研发出以真实数据回传为核心的增量学习技术,并将其推广到了大模型训练,构建了一个大模型持续学习系统,自主研发任务级弹性伸缩调度器,分钟级调度资源,集群计算资源利用率达到95%;
最后,MANA OASIS通过提升数据吞吐量来降本增效,满足Transformer大模型训练效率,通过引入火山引擎提供的Lego算子库实现算子融合,端到端吞吐提升84%。
谈到DriveGPT雪湖•海若的实现过程,顾维灏介绍称,首先在预训练阶段通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管Clips数据完成反馈模型(Reward Model)的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化。
DriveGPT雪湖•海若的一个关键设计,就是场景的Token化表达,顾维灏把这种方式叫做Drive Language。
同时,DriveGPT雪湖•海若还会根据Drive Language输入端的提示语以及毫末CSS自动驾驶场景库的决策样本去训练模型,让模型学习推理关系,从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程,完成可理解、可解释的推理逻辑链生成。
另外,顾维灏提到,DriveGPT雪湖•海若可以逐步应用到城市NOH、捷径推荐、智能陪练以及脱困场景中。有了DriveGPT雪湖•海若的加持,车辆行驶会更安全;动作更人性、更丝滑,并有合理的逻辑告诉驾驶者,车辆为何选择这样的决策动作。对于普通用户来说,车辆越来越像老司机,用户对智能产品的信任感会更强,理解到车辆的行为都是可预期、可理解的。
当前,毫末在使用数据过程中,逐步建立起一套基于4D Clips驾驶场景识别方案,具备极高性价比。在行业上,给出正确的标注结果,一张图片需要约5元;如果使用DriveGPT雪湖•海若的场景识别服务,一张图片的价格将下降到0.5元。单帧图片整体标注成本仅相当于行业的1/10。接下来,毫末会将图像帧及4D Clips场景识别服务逐步向行业开放使用,这将大幅降低行业使用数据的成本,提高数据质量,从而加速自动驾驶技术的快速发展。
目前,毫末DriveGPT雪湖•海若已正式对外开放,开启对限量首批客户的合作,北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等已经加入。毫末DriveGPT雪湖•海若大模型的成果将首发落地在搭载毫末HPilot3.0的新摩卡DHT-PHEV上。
顾维灏表示,毫末DriveGPT雪湖•海若将携手生态伙伴率先探索四大应用能力,包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。
【本文来自易车号作者TechWeb,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
毫末 AI DAY干货满满 以数据驱动的自动驾驶3.0时代已经到来
易车原创 以往提到辅助驾驶你可能首先会联想到特斯拉、华为或者小鹏,但如今你可能需要记住一个后来居上的新玩家了,它就是毫末智行。这家公司是由长城汽车的智能驾驶前部孵化而来,在成立的1020天之后,毫末给我们奉上了一份令人惊叹的成绩单。
就在9月13日举行的第六届HAOMO AI DAY上,毫末再一次向我们展示了他们的最新成果和傲人成绩:毫末1000天,跑出了中国自动驾驶最快的1000天,稳居“中国量产自动驾驶第一名”,两年半时间稳定交付三代乘用车辅助驾驶产品,目前已搭载超过十款明星车型,中国首款搭载大规模量产城市NOH车型摩卡DHT-PHEV激光雷达版计划9月量产,年内发售。搭载毫末HPilot的魏牌摩卡PHEV和欧拉好猫,获得欧盟E-NCAP“五星安全评级”,使得毫末成为中国首个出海量产落地的自动驾驶公司。末端物流自动配送方面,占据该领域领先的市场份额,小魔驼2.0量产下线交付客户。毫末开创的中国首个数据智能体系MANA完成数十万全要素、多模态CLIPS的标注,积累300万小时中国道路驾驶认知场景库,相当于人类司机4万年,基本完成数据闭环……
以上这一系列成绩很难让人相信这是一家仅仅成立了两年半的公司。那么接下来我们就结合这次AI DAY 活动的干货分享带各位了解一下毫末是如何做到进步如此迅猛并且成绩斐然的。
01 “大模型+大数据” 毫末全力冲刺自动驾驶3.0时代
在此次活动上,毫末智行CEO顾维灏博士发表了主题为《毫末和自动驾驶的3.0时代》的演讲,在业内首次提出“自动驾驶已经进入数据驱动的3.0时代”的行业判断。
那么自动驾驶的演进过程到底是怎样的呢?1.0、2.0和3.0之间又有怎样的跨越和不同呢?
首先1.0时代还是以硬件驱动为主:感知能力主要靠激光雷达,认知方式依赖人工规则,整车成本较高,自动驾驶的里程规模也就在100万公里左右;
其次到了2.0时代则是以软件驱动为主:感知方式由激光雷达变成了多传感器的单独输出结果,融合方式还不健全。并且训练模式还是小模型和少数据的情况,认知方式仍旧是人工规则为主,自动驾驶的里程规模上升到100万到1亿公里之间;
最后以数据驱动的自动驾驶3.0时代则是毫末冲刺的方向:感知方式上实现多传感器融合输出结果,认知上进化为可解释的场景化驾驶常识,训练模式达到大模型和大数据的体量,自动驾驶里程也提升到1亿公里以上,毫末一直在为自动驾驶3.0时代做准备,在感知、认知、模式建设上,都是按照数据驱动的方式建设的。毫末所做的一切的,都是为了能够做出数据通道和计算中心,以便可以更高效地获取数据,并把数据转化为知识。目前特斯拉已领跑全球率先进入自动驾驶3.0时代,而毫末最有可能成为中国公司中第一个进入自动驾驶3.0时代的公司。
顾维灏表示,Attention大模型作为当前AI发展的新趋势,其所带来的机遇和挑战,成为自动驾驶3.0时代的重要驱动因素之一。Attention最大的特点是结构简洁,可以无限堆叠基本单元得到巨大参数量模型,随着参数量的增加和训练方法的提升,大模型的效果在很多NLP任务上已经超越了人类平均水平。不过Attention的大模型也面临一大挑战,即由于其对算力的需求远远超出了摩尔定律,这导致大模型的训练成本非常高,在终端设备上的落地非常困难。
Attention大模型带来的机遇和挑战,正驱动自动驾驶行业的技术变革。“毫末正在通过低碳超算来降低自动驾驶成本,通过改进车端模型和芯片的设计来实现大模型的车端落地,通过数据的组织让大模型发挥更大效力。”顾维灏表示,在数据层面,基于Attention大模型,自动驾驶需要大规模且多样性的训练数据,而基于大规模真实人驾数据的乘用车辅助驾驶才有能力积累到足够规模和足够多样的数据。毫末认为,辅助驾驶是通往自动驾驶的必由之路。因为只有辅助驾驶,才有能力收集到足够规模和足够多样的数据。据悉,毫末经过接近三年的发展,目前已是中国量产自动驾驶公司的第一名,目前用户辅助驾驶里程已接近1700万公里,数据规模正在持续快速增加。
低碳超算层面,毫末在此次AI DAY上正式官宣了中国自动驾驶科技公司首个超算中心。顾维灏表示:“如何提升训练效率降低训练成本,实现低碳计算,是自动驾驶走进千家万户的一个关键门槛。”毫末超算中心的目标是满足千亿参数大模型,训练数据规模100万clips,整体训练成本降低200倍。
在算法模型层面,顾维灏介绍,毫末早在2021年6月便启动了针对transformer大模型的研究和落地尝试。正是基于过去一年多在训练平台改造升级、数据规格和标注方法的切换准备、针对感知、认知具体任务的模型细节探索等方面的成功实践,为现在毫末在城市导航辅助驾驶场景中的快速发展打下了坚实基础。
02 MANA全方位升级,助力辅助驾驶走进城市
城市导航辅助驾驶场景是当前自动驾驶功能的核心突破点,也是兵家必争之地。然而从道路与交通状况单一的高速场景进入交通参与者众多、道路与交通状况极其复杂的城市场景,自动驾驶系统面临的技术难度可以说是倍数级增长。巨大的挑战也拖住了众多自动驾驶厂商“进城”的步伐,只能持续鏖战技术突破点。毫末早在2021年底就立下了打赢“辅助驾驶城市场景之战”的Flag,率先在城市辅助驾驶领域开启了技术探索之旅,如今毫末数据智能体系MANA正迎来多项里程碑式的升级迭代。
顾维灏表示,城市道路主要存在“4类场景难题、6大技术挑战”。其中场景难题主要包括“城市道路养护”“大型车辆密集”“变道空间狭窄”“城市环境多样”。解决上述场景难题,技术层面面临六大挑战:1、如何能更高效地将数据规模转化为模型效果 2、如何让数据发挥更大的价值 3、如何使用重感知技术解决现实空间理解问题 4、如何使用人类世界的交互接口 5、如何让仿真更真 6、如何让自动驾驶系统运动起来更像人。
为了应对上述挑战,MANA感知智能、认知智能等方面均迎来更新升级。
首先,MANA通过使用大规模量产车无标注数据的自监督学习方法打造模型效果,相比只用少量标注样本训练,训练效果提升3倍以上,这让毫末数据优势得以高效转化为模型效果,以更好适应自动驾驶各种感知任务需求。
其次,MANA感知能力提升,让海量数据不再被区别对待。面对巨大数据规模下的“数据效率”难题,MANA构建了增量式学习训练平台,抽取部分存量数据加上新数据组合成一个混合数据集。训练时要求新模型和旧模型的输出保持尽量一致,对新数据的拟合尽量好。相比常规做法,整体算力节省80%,响应速度提升6倍。
第三,MANA感知能力更强。通过使用时序的transformer模型在BEV空间上做了虚拟实时建图,使得感知车道线的输出更加准确和稳定,让城市导航自动驾驶告别高精地图依赖。
第四,MANA感知能力更准,让中国没有不能识别的车辆信号灯。MANA通过升级车上感知系统,对刹车灯、转向灯状态进行专门识别,让驾驶员在处理前车急刹、紧急切入等场景中更安全和舒适。
第五,MANA认知能力也再次进化。面对路口这一城市最复杂场景,MANA在仿真系统中引入了高价值的真实交通流场景,与浙江德清、阿里云合作,将路口这一城市最复杂场景引入仿真引擎,构建自动驾驶场景库,通过自动驾驶的真实仿真验证,时效性更高、微观交通流更真实,有效绿色了城市路口通过“老大难”问题。
最后,MANA认知智能迎来新阶段。通过对覆盖全国的海量人类驾驶进行深度理解,学习常识和动作拟人化,使得毫末辅助驾驶决策更像人类实际驾驶行为,可结合实际情况选择最优路线保证安全,体感更像老司机。
MANA的再次进化,为毫末城市NOH扫平了“进城”路上的最大障碍。“毫末城市NOH是更懂中国城市路况的导航辅助驾驶。”顾维灏表示,毫末城市NOH采用“重感知、轻地图、大算力”技术路线,在MANA的赋能助力下,具备智能识别交通灯、智能左右转、智能变道、智能躲避障碍物-静态、智能躲避障碍物-动态五大亮点功能,此外“智慧交通流处理”功能也将正式发布。
可以想象在今后辅助驾驶不仅能在高速场景中应用,在我们每天上下班通勤的场景也可以使用,这会极大缓解我们的出行疲劳并提升我们的驾驶舒适感。我个人真是十分期待的。
03 “重感知,轻地图”将会成为未来的行业趋势
现如今许多车企也在做城市辅助驾驶,像特斯拉、华为、小鹏等,毫末选择的路线似乎更贴近特斯拉,就是更看重第一性原理,依靠车辆本身的智能化来实现各类辅助驾驶功能。接下来咱们看看这几家公司的具体技术路线和完成效果到底如何。
先来说说特斯拉,在全球范围内,特斯拉可以说是在辅助驾驶技术上研发技术最快、并且量产速度也最快的,早在去年时,特斯拉FSD就已经支持城市域高级辅助驾驶功能,并在不断迭代后,在一位美国用户的使用下实现了从东海岸到西海岸横跨600多公里的全程零接管辅助驾驶。
不过在国内,因为涉及到数据安全等问题,特斯拉FSD的更新进度并不能和美国同步,这导致国内的特斯拉消费者在已经付费的情况下很难享受到和海外版本同样的使用体验。另一方面,FSD对国内的驾驶环境和消费者驾驶习惯的适应程度还稍显欠缺,有点水土不服的意思,因此也限制了消费者对特斯拉辅助驾驶系统的期待。
对比特斯拉在国内的近乎停滞,华为的进步速度则堪称闪电级。华为在5月初就率先推出了搭载有华为智能驾驶解决方案的极狐阿尔法S华为HI版,搭载由3颗固态激光雷达、6颗毫米波雷达、11颗高清摄像头组成的辅助驾驶硬件,主控芯片来自华为的MDC 810计算平台,算力可达400TOPS。另外最近很火的阿维塔11也同样是在华为的全栈智能汽车解决方案的支持下有着不俗表现的。极狐阿尔法S 华为HI版能够实现城市内的主动跟车、主动变道、大曲率匝道车道保持、行人避让等功能。整体表现确实还不错,但也有弊病咱稍后再说。
作为国内最早、最知名的造车新势力之一,小鹏在辅助驾驶技术方面的发力也是相当迅猛的。据悉,城市NGP版小鹏P5搭载由2颗激光雷达、5个毫米波雷达、12个超声波雷达、13个摄像头组成的辅助驾驶硬件,具备30TOPS算力,在实测中实现了城市中180度调头、红绿灯识别、变道绕行、极端天气/特殊情况应对、无保护左转、大型车辆应对检测、低速跟随判断等众多功能。
华为和小鹏虽然
毫末智行COO侯军:自动驾驶未来已来 技术创新激活产业新动能
易车讯 近日,由低速无人驾驶(LSAD)产业联盟、深圳市新战略传媒有限公司主办,新战略低速无人驾驶产业研究所、《低速无人车》杂志社承办的“2022低速无人驾驶(LSAD)产业发展年会”在杭州举办。会上,凭借着末端物流自动配送车小魔驼的常态化运营,毫末智行成功入选《2022低速无人驾驶场景落地案例TOP50》。毫末智行COO、低速无人车产业联盟副理事长侯军同时受邀参会,并通过线上连线的方式,以《可行、可靠、可商用,助力全球低速无人车生态繁荣与发展》为主题,进行了分享。
本届大会以“明势取道,韧性跃迁”为主题,旨在加强产业融合,探讨和交流关于中国低速无人驾驶行业不同细分应用场景及产业链主流技术及方向。在演讲中,侯军首先将自动驾驶的行业发展总结成了3个阶段,即“可行,可靠,可商用”。可行,指自动驾驶需要在特定的园区和特定的测试场景具备运行条件。可靠,指自动驾驶需要具备足够的安全性、车规级、全天候、全地形能力。“自动驾驶的最终是为了可商用,在可商用阶段,我们要对相应的场景进行适配,也需要控制规模成本,更需要政策法规的支持和助力。”
“我们深刻地认识到,自动驾驶不是一夜之间就能完成的”,侯军指出,自动驾驶将遵循从低速到高速、从载物到载人、从商用到民用的渐进式路线。在乘用车领域,中国在全球自动驾驶渗透率高居第一位。“我们判断,在2025年,中国辅助驾驶的渗透率将超过70%,未来已来。”
对于国内末端物流配送市场,侯军也分享了自己的看法,他首先指出,现在中国每天的物流快递已经达到了3亿件的规模,机构预测,3—5年这个数字将激增至10亿件。而人力供给显然无法匹配这样的高速增长,并且未来中国劳动力成本将不可逆上升。“面对人民对幸福生活的美好追求与供给之间的冲突,末端物流自动配送车等新一轮科技创新和技术应用是物流行业走出当前困境的关键。”侯军介绍,当前末端物流自动配送车已经在全国40多座城市实现了落地运营,且呈现出“星星之火,可以燎原”之势。
“现实环境比我们想象的更复杂。”侯军认为,自动驾驶技术发展经历了三个阶段,即由硬件驱动的自动驾驶1.0时代、由软件驱动的自动驾驶2.0时代以及即将到来、并将持续发展的由数据驱动的自动驾驶3.0时代。在侯军看来,自动驾驶的终局之战,实际上是数据之战。“我们将自己的发展模式总结为‘毫末模式’”,侯军表示,领先的数据智能体系乘以稳定量产能力,乘以安全,再叠加生态的幂次方,是毫末实现自动驾驶的制胜公式。“风车战略的核心就是数据智能。我们希望在乘用车、智能硬件、末端物流自动配送车三片扇叶的高速旋转下,围绕数据智能,实现毫末智行的自动驾驶模式。”
据了解,作为中国自动驾驶量产领导者,毫末智行以数据智能体系MANA为自动驾驶进化的核心动力,不断提升数据处理能力,截至2022年12月,MANA的学习时长超过40万小时,虚拟驾龄相当于人类司机4.8万年,辅助驾驶用户行驶里程已经突破2300万公里。末端物流自动配送车领域,自2021年2月落地运营至今,小魔驼已累计为北京顺义周边60多座社区配送超12万单。
“我们把自己的能力全部打开,以5S服务模式成为全球末端物流自动配送车的生态助力者。”侯军解释,所谓5S服务,自下而上分别是FAAS工厂服务、IAAS供应链和硬件服务、PAAS系统工具服务、VAAS车辆服务,以及MAAS运力服务。其中,不同的服务对应着不同的商业模式。
除了5S服务模式,为进一步推动自动驾驶技术迭代及产品落地,毫末智行还推出了6P合作原则,通过6P模式,毫末将提供全栈解决方案、云端服务、硬件、软件、模块、原型代码6个产品层面的合作方式。“希望大家能够在毫末智行的助力下,真正实现自己的战略互补。你的灵魂你保留,我的灵魂你带走。”
经过三年发展,毫末智行已经快速成长成为中国量产自动驾驶第一名。乘用车领域,HPilot已迭代三代产品,在魏牌、坦克、哈弗、欧拉、长城炮等多个品牌近20款车型上实现了规模化量产,并在助力长城汽车出海的过程中,凭借国内首个自研AEB算法通过欧盟五星算法验证成功进入欧盟市场,而魏牌摩卡PHEV(Coffee 01)、欧拉好猫也由此成为E-NCAP主动安全得分最高的中国自主车型;此外毫末智行还推出了中国首款大规模量产的城市NOH导航辅助驾驶,在国内首次采用重感知技术路线,预计未来落地达到100 个城市。
在末端物流自动配送领域,毫末智行已推出第二代末端物流自动配送车小魔驼2.0,不仅拥有L4自动驾驶能力、车规级硬件等多项领先能力,还面向履约场景进行了多项重要升级,可为商超、物流行业的客户提供可商用的末端配送解决方案,12.88万元的价格也让它成为全球首款10万元级末端物流自动配送车。“我们希望未来随着规模化量产,让整车的价格和成本进一步下降,助力整个生态发展”侯军表示。
毫末在末端物流领域的付出也得到了业内认可,在现场举办的“2022低速无人驾驶场景落地案例TOP50”颁奖仪式上,毫末智行凭借着在北京市顺义区的常态化运营,成功入选。“2022低速无人驾驶场景落地案例TOP50”囊括和收录了园区(物流/配送、无人零售、安防、无人接驳等)、矿区、港口、机场、市政环卫、农业等细分场景的典型应用案例。低速无人驾驶(LSAD)产业联盟表示,“2022低速无人驾驶场景落地案例TOP50”的制定,旨在为了更好地宣导和展示低速无人驾驶各细分场景典型应用案例宣导和展示低速无人驾驶各细分场景典型应用案例,树立应用标杆,打造经典案例样板形象,提振行业信心,锤炼行业影响力品牌。
整体来看,低速无人驾驶行业市场格局未定。在此阶段中,企业要明晰市场形势和国家政策,明确自身战略和方向,打造可持续性的商业化模式,用技术创新激活产业新动能,实现从量变向质变的转换。2023年,企业“去泡沫化”已是趋势,就如侯军所说“末端物流自动配送车正在经历鸿沟的跨越,无论从技术、成本、市场成熟度和政策都已经到来”,毫末智行立志成为全球低速车生态平台的助力者,希望以科技赋能中国智慧城市物流发展,串点成线,聚线成面,助力末端物流自动配送这把星星之火,真正形成燎原之势。
当GPT遇到自动驾驶,毫末首发DriveGPT
GPT之于自动驾驶意味着什么?
文丨智驾网 黄华丹
ChatGPT带火了AI,那么,当GPT遇到自动驾驶,又会发生怎样的化学反应?
GPT全称Generative Pre-trained Transformer,即生成式预训练Transformer。简单概括即是一种基于互联网可用数据训练的文本生成深度学习模型。
4月11日,在第八届毫末AI DAY上,毫末CEO顾维灏正式发布了基于GPT技术的DriveGPT,中文名雪湖·海若。
DriveGPT能做到什么?又是如何构建的?顾维灏在AI DAY上都做了详细解读。此外,AI DAY还展示了毫末自动驾驶数据体系MANA的升级情况,主要是其在视觉感知能力上的进展。
01.
什么是DriveGPT?能实现什么?
顾维灏首先讲解了GPT的原理,生成式预训练Transformer模型本质上是在求解下一个词出现的概率,每一次调用都是从概率分布中抽样并生成一个词,这样不断地循环,就能生成一连串的字符,用于各种下游任务。
以中文自然语言为例,单字或单词就是Token,中文的Token词表有5万个左右。把Token输入到模型,输出就是下一个字词的概率,这种概率分布体现的是语言中的知识和逻辑,大模型在输出下一个字词时就是根据语言知识和逻辑进行推理的结果,就像根据一部侦探小说的复杂线索来推理凶手是谁。
而作为适用于自动驾驶训练的大模型,DriveGPT雪湖·海若三个能力:
1.可以按概率生成很多个这样的场景序列,每个场景都是一个全局的场景,每个场景序列都是未来有可能发生的一种实际情况。
2.是在所有场景序列都产生的情况下,能把场景中最关注的自车行为轨迹给量化出来,也就是生成场景的同时,便会产生自车未来的轨迹信息。
3.有了这段轨迹之后,DriveGPT雪湖·海若还能在生成场景序列、轨迹的同时,输出整个决策逻辑链。
也就是说,利用DriveGPT雪湖·海若,在一个统一的生成式框架下,就能做到将规划、决策与推理等多个任务全部完成。
具体来看,DriveGPT雪湖·海若的设计是将场景Token化,毫末将其称为Drive Language。
Drive Language将驾驶空间进行离散化处理,每一个Token都表征场景的一小部分。目前毫末拥有50万个左右的Token词表空间。如果输入一连串过去已经发生的场景Token序列,模型就可以根据历史,生成未来所有可能的场景。
也就是说,DriveGPT雪湖·海若同样像是一部推理机器,告诉它过去发生了什么,它就能按概率推理出未来的多个可能。
一连串Token拼在一起就是一个完整的驾驶场景时间序列,包括了未来某个时刻整个交通环境的状态以及自车的状态。
有了Drive Language,就可以对DriveGPT进行训练了。
毫末对DriveGPT的训练过程首先是根据驾驶数据以及之前定义的驾驶尝试做一个大规模的预训练。
然后,通过在使用过程中接管或者不接管的场景,对预训练的结果进行打分和排序,训练反馈模型。也就是说利用正确的人类开法来替代错误的自动驾驶开法。
后续就是用强化学习的思路不断优化迭代模型。
在预训练模型上,毫末采用Decode-only结构的GPT模型,每一个Token用于描述某时刻的场景状态,包括障碍物的状态、自车状态、车道线情况等等。
目前,毫末的预训练模型拥有1200亿个参数,使用4000万量产车的驾驶数据,本身就能够对各种场景做生成式任务。
这些生成结果会按照人类偏好进行调优,在安全、高效、舒适等维度上做出取舍。同时,毫末会用部分经过筛选的人类接管数据,大概5万个Clips去做反馈模型的训练,不断优化预训练模型。
在输出决策逻辑链时,DriveGPT雪湖·海若利用了prompt提示语技术。输入端给到模型一个提示,告诉它“要去哪、慢一点还是快一点、并且让它一步步推理”,经过这种提示后,它就会朝着期望的方向去生成结果,并且每个结果都带有决策逻辑链。每个结果也会有未来出现的可能性。这样我们就可以选择未来出现可能性最大,最有逻辑的链条驾驶策略。
可以用一个形象的示例来解释DriveGPT雪湖·海若的推理能力。假设提示模型要“抵达某个目标点”,DriveGPT雪湖·海若会生成很多个可能的开法,有的激进,会连续变道超车,快速抵达目标点,有的稳重,跟车行驶到终点。这时如果提示语里没有其他额外指示,DriveGPT雪湖·海若就会按照反馈训练时的调优效果,最终给到一个更符合大部分人驾驶偏好的效果。
02.
实现DriveGPT毫末做了什么?
首先,DriveGPT雪湖·海若的训练和落地,离不开算力的支持。
今年1月,毫末就和火山引擎共同发布了其自建智算中心,毫末雪湖·绿洲MANA OASIS。OASIS的算力高达67亿亿次/秒,存储带宽2T/秒,通信带宽达到800G/秒。
当然,光有算力还不够,还需要训练和推理框架的支持。因此,毫末也做了以下三方面的升级。
一是训练稳定性的保障和升级。
大模型训练是一个十分艰巨的任务,随着数据规模、集群规模、训练时间的数量级增长,系统稳定性方面微小的问题也会被无限放大,如果不加处理,训练任务就会经常出错导致非正常中断,浪费前期投入的大量资源。
毫末在大模型训练框架的基础上,与火山引擎共同建立了全套训练保障框架,通过训练保障框架,毫末实现了异常任务分钟级捕获和恢复能力,可以保证千卡任务连续训练数月没有任何非正常中断,有效地保障了DriveGPT雪湖·海若大模型训练的稳定性。
二是弹性调度资源的升级。
毫末拥有量产车带来的海量真实数据,可自动化的利用回传数据不断的学习真实世界。由于每天不同时段回传的数据量差异巨大,需要训练平台具备弹性调度能力,自适应数据规模大小。
毫末将增量学习技术推广到大模型训练,构建了一个大模型持续学习系统,研发了任务级弹性伸缩调度器,分钟级调度资源,集群计算资源利用率达到95%。
三是吞吐效率的升级。
在训练效率上,毫末在Transformer的大矩阵计算上,通过对内外循环的数据拆分、尽量保持数据在SRAM中来提升计算的效率。在传统的训练框架中,算子流程很长,毫末通过引入火山引擎提供的Lego算之库实现算子融合,使端到端吞吐提升84%。
有了算力和这三方面的升级,毫末可对DriveGPT雪湖·海若进行更好的训练迭代升级。
03.
MANA大升级,摄像头代替超声波雷达
毫末在2021年12月的第四届AI DAY上发布自动驾驶数据智能体系MANA,经过一年多时间的应用迭代,现在MANA迎来了全面的升级。
据顾维灏介绍,本次升级主要包括:
1.感知和认知相关大模型能力统一整合到DriveGPT。
2.计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到OASIS当中。
3.增加了使用NeRF技术的数据合成服务,降低Corner Case数据的获取成本。
4.针对多种芯片和多种车型的快速交付难题,优化了异构部署工具和车型适配工具。
前文我们已经详细介绍了DriveGPT相关的内容,以下主要来看MANA在视觉感知上的进展。
顾维灏表示,视觉感知任务的核心目的都是恢复真实世界的动静态信息和纹理分布。因此毫末对视觉自监督大模型做了一次架构升级,将预测环境的三维结构,速度场和纹理分布融合到一个训练目标里面,使其能从容应对各种具体任务。目前毫末视觉自监督大模型的数据集超过400万Clips,感知性能提升20%。
在泊车场景下,毫末做到了用鱼眼相机纯视觉测距达到泊车要求,可做到在15米范围内达测量精度30cm,2米内精度高于10cm。用纯视觉代替超声波雷达,进一步降低整体方案的成本。
此外,在纯视觉三维重建方面,通过视觉自监督大模型技术,毫末不依赖激光雷达,就能将收集的大量量产回传视频转化为可用于BEV模型训练的带3D标注的真值数据。
通过对NeRF的升级,毫末表示可以做到重建误差小于10
【本文来自易车号作者智驾网,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
以上就是关于毫末自动驾驶相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读:
中华护理杂志审稿流程大概多久(中华护理杂志审稿流程大概多久出结果)