导读
本文整理自 2023 年 9 月 5 日百度云智大会 - 智能汽车分论坛,百度智能云自动驾驶云研发高级经理徐鹏的主题演讲《从研发域到量产域的自动驾驶工具链探索与实践》。
全文中部段落附有演讲中 2 个产品演示视频的完整版,精彩不容错过。
(视频观看:https://mp.weixin.qq.com/s/qsgrgirWa_UiSPkF_P7NYQ)
全文3580,预计阅读时间9分钟。
百度作为国内最早布局自动驾驶的企业,一直积极向行业输出自动驾驶相关的产品、技术和服务。很荣幸今天有这样一个机会向大家去分享百度在自动驾驶工具链领域的实践经验,也希望把我们对自动驾驶工具链的理解同大家做一些共同的探讨。
自动驾驶是一门融合多项能力的复杂学科,如果没有扎实的技术沉淀和产业布局,很难破解自动驾驶快速落地的难题。百度从 2013 年便开始布局自动驾驶核心研发技术,2021 年我们向产业开放了在多年自动驾驶领域积累的经验形成系统化工具链产品。两年内,我们获得了国内外很多主机厂和 Tier1 的广泛认可。
这里也给大家分享几个案例:
第一个案例是云仿真平台。我们跟客户一起积累了 50w+ 的定制化场景,在不到一年的时间内帮助车企客户完成了 700 多版自动驾驶算法的迭代,实现了近千万公里的测试验证,让车企的量产智能驾驶落地时间大大提前。
第二个案例是数据闭环。我们在一年内帮助客户累计托管了 50 PB 数据,并且在平台中嵌入了 500 多个自动驾驶数据挖掘模型,完成上亿帧数据的高效处理,实现数据的价值提升和转化。
第三个是数据标注。对自动驾驶的研发训练而言,高质量和大数量的数据集获取,在传统条件下一般是人工逐帧标注。百度自主研发的 AI 智能标注模型,帮助客户累计标注了千万帧的数据,省去了上千万的人力成本。
这三个案例从左往右分别对应着数据应用、数据管理和数据生产过程。在和车企落地实践的过程中,我们认为,自驾的研发新模式就是能够让海量自驾数据在数据的应用、生产、管理上更高效的模式。这也是我们在逐步跟客户沟通过程中,逐步找到的工具链价值,也得到了客户们的认可。
刚才我们分享了早期基于研发域的工具链需求,以及和客户做探索和落地的一些思考。而随着智能化汽车逐步发展,尤其是以智能化为核心的下半场已经到来,智能汽车即将跨过发展临界点,迎来真正的大爆发。
因此如果要决胜智能驾驶市场,必须提前进行量产研发布局。
然而,目前行业大部分自动驾驶云产品,主要提供的是自动驾驶功能从无到有的研发能力。但在量产阶段,车企更关注自家算法从有到优,其中核心要解决的就是长尾问题。虽然长尾问题的比例可能只有 10%,但是解决长尾问题的成本和代价是非常高的,这也给车企带来了四大挑战:
-
首先是数据合规。根据自然资源部去年发布的 1 号文的要求,智能网联汽车在路上跑,已经明确为测绘行为,需要委托资质图商管控,保障地理信息数据安全,满足合规要求。所以对车企来说,量产回传的数据如何在符合监管政策的前提下回传到云端,帮助后端做研发就成了第一大挑战。
-
其次是效率问题。对量产车来说,每天需要回传百万台车的海量数据,这就对平台的处理效率提出了极高的要求。那么,如何从海量混杂的业务数据中挖掘出高质量数据,解决长尾问题,就成了车企面临的巨大挑战。
-
第三是服务问题。我们需要根据不同用户反馈,持续提升智能驾驶效果和乘车体验,实现千人千面的个性化服务能力。
-
最后是成本问题。城市道路场景复杂,测试尤为困难。汽车量产需要以低成本的方式拓展至全国各地,如何快速适应不同城市场景,也需要要有对应的处理方案。
所以,量产时代自动驾驶需要新的工具、新的服务。
百度作为国内最早布局自动驾驶的企业,率先完成了从研发域工具链到量产域服务的产品升级,致力于服务智驾量产,攻坚长尾难题,为车企赢得新的市场增长点。
百度作为最早进入自动驾驶的企业之一,目前已经率先完成了自动驾驶工具链从研发域到量产域的全面升级。
下图是百度智能云面向量产车全面升级的自动驾驶工具链的全套解决方案。
百度升级的自动驾驶工具链解决方案,为车企搭建了一条用于车辆智能化开发的智能驾驶产线,构建了面向自动驾驶全生命周期的云服务。这套方案为车企提供在智驾研发过程中的模型开发、模型训练、数据采集、数据标注、仿真测试、运营与监管等全栈工具平台,让自动驾驶开发变得更智能、更高效、更简单,助力车企快速开发和使用自动驾驶,实现数据闭环、问题闭环和场景闭环。
百度自动驾驶工具链经过了充分的实践验证。通过大量的自动驾驶道路测试数据,目前已经形成了千万量级的场景库;基于领先的 AI 大底座,已实现日行千万公里的自动驾驶仿真测试;同时,也已经支持百度 6000w+ 公里的自动驾驶实测里程,为百度自动驾驶技术的快速迭代、效果验证提供了有效支撑。
百度智能云提供的这一套解决方案,在工具链的基础之上,还为客户输出了百度在自驾研发过程中的一些实践和经验,将我们实践中积累的产品 Know-How 一并和用户分享,帮助车企始终走在智驾前沿,抢占智驾服务新市场。
下面我会从三个方面分别讲讲自动驾驶工具链在实践过程中的主要的一些思考。
第一点是工具链 + 合规服务。我们知道,合规是底线,只有数据安全,智驾行业才能健康快速发展。百度作为行业内唯一支既懂合规,又懂能提供完善的基础设施,同时还精通自动驾驶业务的公司,在打造自动驾驶工具链时,精准理解数据合规要求,同时满足客户业务创新需要,实现「原始数据不出车、测绘数据不出云、测绘成果不关联、资质图商全管控」的效果,帮助车企实现全流程的合规升级改造。
在「精准的合规」背后,百度设立了专业的合规保障团队,能够提供全生命周期的安全服务与多部门的「会诊」服务,解决各类疑难场景,为车企的智驾安全可持续发展保驾护航。
第二点是数据服务。在过去的几年的快速发展中,车企逐步积累了大量数据。如何在海量数据中快速、准确地挖掘出有价值的信息,是影响智驾迭代速度的关键。
传统的数据挖掘过程,更多的还是通过人工标注或者算法打标的方式进行流程式的挖掘,已无法满足客户对海量长尾数据的需求。
我们基于百度多年在搜索领域的积累,结合文心大模型实现了自动驾驶「数据智能搜索引擎」。数据服务从「流程式」向「检索式」升级,实现数据挖掘的“大海捞针”。
在检索式数据挖掘能力的帮助下,标签的能力更丰富。同时通过对数据场景的精准定义,可以基于图片、文字做一些更加精准的需求定义和检索能力,让数据资产快速从无到有,从有到优。传统特殊场景的挖掘,大概需要一周时间才可以开发完毕,而通过检索式的服务,基本可以实现场景的一键获取。
自动驾驶研发过程中,经常需要一些定制化的场景进行问题的复现。传统的解决防范是根据需要的场景来让研发人员写一些挖掘算法,然后再布置对应的任务工作流才能跑出来。而现在可以如视频中的所展示的,通过以图搜图、以文搜图或者场景检索等功能,直接从海量数据中把所需数据搜索出来,将无序的数据变成宝贵的数据资源。
第三点是仿真服务。我们观察到,行业中很多伙伴其实是缺乏数据积累的。我们也一直在思考,如何让缺乏数据积累的行业伙伴以低成本的方式快速进行自动驾驶的研发、测试和运营。此时,高精度和多场景的城市级仿真就是解决该问题的关键。
百度多年来已积累了海量的自动驾驶数据,一方面,我们基于百度地图大规模路网自动构建孪生城市,在孪生城市中实现高精度仿真还原,全面覆盖百城差异化场景;另一方面,百度目前已经积累了超过 6000w+ 公里的自动驾驶测试里程数据,并积累了千万级场景库。
百度智能云的仿真服务将为车企提供超过百城的真实路网、千万公里的场景数据,支持日行千万公里的大规模仿真测试。车企在云端就可轻松验证不同城市场景下的自动驾驶能力,解决因地理环境、路况差异带来的「智车出城难」问题,释放百亿价值数据,助力车企快速积累测试里程,大幅降低研发成本,研发效率提升 10 倍以上。
百度智能云的仿真平台自 2021 年正式对外发布以来,已经经过了多个版本的迭代。在这个过程中,非常感谢行业各位合作伙伴的信任。同时基于大模型技术的发展趋势,我们的仿真平台也新增了仿真场景的自动生成在内的很多新功能,后面也会逐步发布,并分享给更多的行业伙伴。
智能汽车的发展也即将跨越临界点,迎来真正的大爆发。百度智能云自动驾驶工具链通过提供「管家式」的云服务,切实解决智驾量产面临的诸多挑战。百度期待和行业伙伴一起,共同攻克自动驾驶技术难关,抓住增长机遇,共赴智驾量产新时代。
— END —
推荐阅读
大模型在代码缺陷检测领域的应用实践
通过Python脚本支持OC代码重构实践(二):数据项提供模块接入数据通路的代码生成
对话InfoQ,聊聊百度开源高性能检索引擎 Puck
浅谈搜索展现层场景化技术-tanGo实践
初识搜索:百度搜索产品经理的第一课