目前,各大自动驾驶汽车制造商都在通过获取高质量的训练数据最大化其数据资产的投入产出比。在海量的智能驾驶数据面前,如何让每个数据都有存在意义?从《数字商业时代》对澳鹏Appen(中国)高级产品总监张童皓的采访中,你或许能找到一些启发。 以下文章来源于数字商业时代DigitalTimes ,作者王宇。 数据无法解决所有问题,但在自动驾驶领域,数据却可以解决大部分问题。 在数字化时代,伴随高端传感器、高端芯片、5G通讯等新一代技术迅猛发展,自动驾驶网约车、无人配送车、无人清洁车、无人物流车等产品正在从概念走向现实,以智能驾驶技术为核心的科技手段正在重塑我们的城市生活。对于智能驾驶产业而言,数据的重要性堪比燃油车加油、新能源车充电。对各类传感器、激光雷达等设备采集到的数据进行有效训练、分析和处理,是智能驾驶技术平台的核心竞争力,也是智能驾驶技术革新与产品迭代的基础。 在海量的智能驾驶数据面前,如何让每个数据都有存在意义?训练数据就显得尤为重要。在智能驾驶AI训练数据方面,全球AI训练数据服务商澳鹏(Appen)正在打造出自己的理想版图。
智能驾驶背后的训练数据
在智能驾驶领域,安全行驶是绝对的首要条件,这其中,感知是最重要的功能之一,车辆对行驶环境没有三维定量感知,就如同人失去双眼,智能驾驶的决策系统就无法正常工作,与其他智能应用场景相比,智能驾驶的落地场景更为复杂,尤其面对复杂多变的实时路况环境,必须有海量的、多维度的数据做支撑。但在数据采集过程中,并非所有数据均是高质量数据,那究竟哪些数据才能满足智能驾驶的真正需要? 在澳鹏(中国)高级产品总监张童皓看来,智能驾驶数据可以分为智能座舱和自动驾驶两部分,可以形象的理解为对车内驾驶者的智能识别与交互,和对车外路况的智能识别与交互。目前从智能座舱角度来看,除了车联网所产生的线上数据还在继续发挥其价值以外,车内智能设备相关的语音、手势等数据需求正在扩大。从自动驾驶角度看,车载视觉相机、激光雷达以及毫米波雷达传感器产生的数据是智能驾驶训练模型的核心要素。 在明晰智能驾驶所需数据定位后,对其而言,这些数据需要标注后才有意义,才能应用于算法的学习和训练。例如智能座舱的语音识别、手势动作识别、特种车辆驾驶员疲劳监测等技术能力,它们大多构建在深度神经网络模型基础上,这些深度神经网络均是在海量标注数据基础上训练的。 对于澳鹏而言,这家企业虽不直接参与自动驾驶相关的模型训练,但其技术团队会充分标注客户交予的不同场景下采集的语音、不同路况下采集的图像和3D激光点云等数据。并且,为了提高数据标注效率,澳鹏正在针对重点高频场景构建基线级别的算法能力,例如建构的3D点云车道线语义分割自动识别能力,该项技术能以高于人工标注几十倍的效率完成车道线点的分类。 毫无疑问,好的AI训练数据平台,不仅需要在数据标注上具备技术优势,在处理多维度数据时,也必须做到对视觉、语音、文本、点云等全品类的支撑。据了解,澳鹏的智能驾驶训练数据解决方案,就支持市场上语音、文本、图像、3D等所有的标注类型,包括分类、画框、分割、属性标记、跟踪等。 张童皓谈到,澳鹏近期对其自研的自动驾驶训练数据解决方案进行了大幅能力升级。该方案专为智能驾驶场景打造出包括像素级语义分割工具、2D图像复合标注工具、超高性能3D点云拉框、语义分割标注等工具在内的工具包,这些工具可以使原始数据在更短时间内变成高质量可用数据。 例如,其研发的3D点云拉框及语义分割工具,就能实现自动贴合,连续帧映射,3d2d融合标注,具备目标预识别等功能,能灵活配置数据有效性验证规则,可以直接在线上让客户做最低交付粒度的验收且可无缝打回。在实际应用中,该工具能够做到99.9%准确率,1秒/帧的质检速度。 据了解,澳鹏的技术平台可提供精度高达99%的复杂3D点云目标跟踪标注。借助该平台,智能驾驶整体方案服务商可以在标注2D图像数据时将其绑定到3D点云数据上,进行跨多个维度的映射,可以在单个任务单元内满足50多帧图像中保持目标ID一致性的要求。 据悉,澳鹏基于智能驾驶领域的经验,正在为亿咖通科技(Ecarx)构建多车型的智能化座舱及整车智能化人工智能解决方案提供AI训练数据服务。且澳鹏也已与全球十大汽车企业中的七家及多个一级供应商建立了深入合作。
保障数据安全
不过在训练数据为智能驾驶提供更多落地机遇的背后,不容忽视的是数据安全。如今,大数据的确为公众生活带来了诸多便利性,但数据泄露、滥用等问题也同样为社会带来了安全隐患。保障数据安全,是各类AI训练数据服务商的立身之本,训练更多高质量数据的澳鹏更甚如此。 对于数据安全问题,张童皓表示,虽然澳鹏不是自动驾驶数据的直接收集者,但作为参与者,企业对其数据标注项目中的数据合规管理异常重视。在澳鹏内部,对人工智能模型所使用的数据给予的是最大限度的关注和保护。据悉,澳鹏已在全球获得ISO 27001安全认证,包括在上海的商务和研发总部、以及无锡和大连的数据服务交付中心。全球范围内,亦通过了GDPR,SOC 2 Type II,HIPAA等全球不同国家和地区的数据安全合规认证。 此外据张童皓介绍,澳鹏的智能驾驶训练数据平台也有权限管控,数据加密传输,PII信息加密存储等严格的数据安全管控策略。其每天会进行漏洞扫描,最大限度地保证客户数据资产安全。 对于智能驾驶数据安全,此前澳鹏全球副总裁、大中华区总经理田小鹏博士就曾表示,澳鹏在采集任何一个数据的时候,都是完全符合当地法规、制度要求的,而且都会征求数据被采集人员的同意,获得每一个人的承诺书。澳鹏会告知对方,所采集的数据会被哪个客户应用?应用在什么地方?对方本人是否同意?只有在取得对方的同意时才会应用这些数据,否则是绝对不会用的,这是一种基本的个人隐私和数据保护。 毫无疑问,在确保数据安全的前提下,澳鹏想用更高质量的训练数据,来赋能更好的智能驾驶解决方案。在全球,这家有着超过15年汽车行业经验的服务商,正在通过更先进的技术手段,打造出自己的训练数据版图,智能驾驶领域便是他们部署的重要一环。