2月24日,清华大学智能产业研究院(AIR)联合北京市高级别自动驾驶示范区(以下简称“示范区”)、北京车网科技发展有限公司、百度Apollo、北京智源人工智能研究院共同发布了全球首个基于真实场景的车路协同自动驾驶数据集——DAIR-V2X,向境内用户提供下载使用。车路协同数据集的发布,必将推动我国车路协同技术路线的快速发展,加速自动驾驶商业化落地步伐。
DAIR-V2X亮点何在
依托科研院校高水平的科研能力、企业广泛的产业落地经验以及示范区丰厚的应用土壤,DAIR-V2X得以形成。作为全球首个应用于车路协同自动驾驶研究的数据集,DAIR-V2X全部数据均采集自真实场景,同时包含2D&3D标注。此外,数据来源包括了车端摄像头、车端LiDAR、路端摄像头和路端LiDAR等传感器,传感器类型丰富。
据悉,DAIR-V2X数据集来自示范区10公里真实城市道路、10公里高速公路,以及28个路口范围,总计72890帧图像数据和728904帧点云数据,囊括了协同数据集、路端数据集和车端数据集,涉及晴天、雨天、雾天、白天和夜晚、城市道路与高速公路等多种丰富场景。据示范区工作办公室常务副主任捷菲介绍,示范区现已完成1.0阶段的建设工作,2.0阶段的建设已进入设备联调联试和功能优化阶段,预计在经开区核心区60平方公里、共计305个路口实现智能网联道路基础设施全覆盖。另外,示范区3.0阶段的建设也将于年内开启。随着示范区智能网联建设的进一步完善,数据集必将不断丰富。
值得一提的是,与仅覆盖单车端或单路端的数据集相比,DAIR-V2X克服了以往车路协同在同一时空下检测但数据不同步的问题,提出车路协同多模态融合方法,并给出检测指标,以便更好地服务车路协同算法研究与评估。基于该数据集,研究者可开展单车端3D检测任务、单路端3D检测任务、车路协同感知3D检测等相关研究。此外,数据集还通过半自动自学习车路协同3D融合标注方法等创新,有效减少数据集构建成本。
百度方面表示,作为该数据集建设的技术支持方,百度后续将逐步支持发布便于用户上手和基准复现的相关工具和代码,并开展数据集相关使用培训,以更好地支持车路协同相关研究的进行。目前,DAIR-V2X已纳入到智源平台上,后续将依托智源社区等智源学术生态网络,面向产学研用各方加快数据集的开放、推广及应用。
助力车路协同发展
实际上,自动驾驶数据集开源早已不足为奇,Waymo、Aptiv、Argo AI等自动驾驶公司均宣布开放自动驾驶数据集。以Waymo为例,其在2019年宣布开源自动驾驶数据库,公开的数据集由Waymo自驾汽车在各种条件下采集的高度标注数据组成,包括了覆盖多个地点的1000个驾驶段上收集的数据。作为国内自动驾驶行业领头羊的百度,则在2018年便开放了其自动驾驶数据Apollo Scape,包括了感知、仿真场景、路网数据等数十万帧逐像素语义分割标注的高分辨率图像数据,以及与其对应的逐像素语义标注、稠密点云、立体图像、立体全景图像。不过,与上述自动驾驶数据集不同的是,此次发布的DAIR-V2X是全球首个车路协同数据集。
实际上,早在2020年,国家发展与改革委员会等部委便在《智能汽车创新发展战略》中明确指出,中国特色自动驾驶需采取“单车智能+车路协同”路线。百度创始人、董事长李彦宏表示,受限于安全性、运行设计域限制和经济性等方面的挑战,单车智能自动驾驶的规模商业化落地仍具有很大挑战。相比较而言,车路协同系统则在成本、安全、效率和商业落地等方面具有不可比拟的优势,将大大加快自动驾驶的商业落地。
然而,正所谓“巧妇难为无米之炊”,相关数据集的匮乏极大限制了各界实现数据驱动车路协同的目标。正因此,DAIR-V2X的出现显得颇为关键。清华大学智能产业研究院(AIR)院长张亚勤指出,借助示范区真实的数据采集、多样的场景覆盖、海量的数据样本,DAIR-V2X能够为高校、科研院所、产业用户进行技术研发提供更好地数据支撑,也能够满足企业在产品开发中的切实需求。
除在学术研究以及产品落地上的巨大作用,DAIR-V2X的发布同样能够对行业的规范化、标准化有所助益。北京经济技术开发区管委会副主任、北京市高级别自动驾驶示范区工作办公室主任孔磊表示,基于DAIR-V2X数据集,未来将及时利用数据转化制定一批车路协同数据标准,推动行业数据要素、接口、格式等标准统一,为行业发展提供参考和指导。
不过,在中科院创业投资管理有限公司研究总监邵元骏看来,DAIR-V2X现在仍处于建设当中,能够发挥多大作用还有待观察。就目前而言,宣传作用大于实际效用。“应该会有车企采用这一平台的数据进行研究,但是否会使用就不一定了。”邵元骏告诉记者,目前最困扰车企的是数据如何用的问题。当前很多城市在车路协同基础设施建设上仍没有跟进,但车路协同必须要有“智慧的路”才能实现。这一矛盾就导致车企对于车路协同功能持困惑、纠结的态度。“车企如果想在新车型中加入车路协同功能,不仅要投入大量成本,还必须面对有些地区用不了这一功能的现实问题,这反倒得不偿失。”他说。
借鉴还是自建成难题
软件定义汽车时代的到来,使得“开源”这种软件开发模式开始在汽车行业流行起来。中国工程院院士倪光南曾表示,开源已成为全球软件技术和产业创新的主导模式,是加速基础软件创新、加强社会协作的高效方式。但共建、共享、共治的模式无疑对习惯了相对封闭研发环境的传统汽车体系是一大挑战。
一位业内人士告诉记者,自动驾驶数据开源实际上可以有效降低自动驾驶技术算法优化的成本,避免资金的重复使用。“就像是有人造好了车轮,有了车轮,车就能跑了。实际上车轮并不是高质量的技术,大家没必要重复研发。对应到自动驾驶上,企业、高校或科研机构完全可以在一个数据集的基础上增加自己特定的场景数据。”他说。另一方面,开源数据能够重构市场标准,所有人都基于一套数据集进行个性化开发,避免因标准不一致导致的资源浪费。然而,有价值的技术、数据是否愿意公开,公开信息和技术的好处能否覆盖企业投入成本,使用他人公开的技术、数据是否会受制于人,种种顾虑让汽车企业们不敢放心投入“开源”怀抱。
北方工业大学汽车产业研究中心研究员张翔告诉记者,具体到自动驾驶领域,自动驾驶数据和代码共享的方式目前仍非主流,大多数车企更愿意选择投资或深度绑定一家自动驾驶公司来开发自己的系统。如通用汽车3亿美元入股中国自动驾驶初创公司Momenta,针对中国车型研发自动驾驶技术;又如万众瞩目的小米汽车,官宣后不久便投资了纵目科技。若采用其他企业的开源数据,在一定程度上相当于默认了这一企业所构建的数据标准,习惯了“自家独大”的车企自然不愿意面对这种话语权被削弱的场面。
“目前国家在自动驾驶数据集这方面还没有出台相关政策法规,很难去界定责任归属问题。”张翔表示,目前我国现有法律法规对于自动驾驶数据的管理更多地聚焦于信息安全上,即涉及个人隐私、国家安全的数据如何处理,对于数据开源尚无要求,其安全性究竟谁来负责并无明确界定。法律层面的空白难免让企业使用开源数据存在顾虑。计算视觉新创公司Roboflow创始人就曾指出,一些用来训练自动驾驶汽车的知名数据集遗漏了不少关键数据,这可能会导致准确性低、决策糟糕,给自动驾驶汽车带来风险。
不过,在张翔看来,自动驾驶数据共享并非不可实现。由于自动驾驶发展仍处于早期阶段,数据开源的商业模式还远远没有形成。出于对行业竞争等多方面因素的考量,企业目前对于数据的所有权仍十分谨慎。此外,邵元骏也表示,对于车企而言,它们目前对自动驾驶的等级需求并不强烈,难度相对较低,因此不需要开源数据也可以满足现有需求。不过,随着技术的不断进步以及软件复杂度的不断提升,企业对数据开源的需求将会增大。“到那时车企面临的开发成本会越来越高,它们就会更愿意合作共建数据开源平台,或者与第三方自动驾驶公司合作,采购公开数据。”张翔如是说。