数据闭环,通向高阶自动驾驶的必经之路
近年来,数据闭环成了自动驾驶行业的一个热门话题,很多自动驾驶公司都在试图打造自己的数据闭环系统。数据对于目前的自动驾驶来说有多重要早已不是什么新鲜话题,作为人工智能在工程落地上最有前景的领域之一,拥有着更多、质量更高的数据无疑可以让智能驾驶的系统更加先进。与此同时,如何利用好现有的数据,从海量数据中能够真正学习到人类驾驶的行为策略,将有助于算法的进一步更新迭代。而这所有的一切,都离不开数据闭环,这也是当前自动驾驶公司为之努力的一大方向。
▍何为数据闭环
事实上,数据闭环已经被大多数自动驾驶公司认为是提升自动驾驶能力的必经之路。以特斯拉为例,配置了自动驾驶硬件的车队采集通过规则及影子模式下的触发器筛选的数据,经过语义筛选后的数据被回传到云端。此后,工程师在云端用工具对数据做一些处理,再把处理好的数据放入数据集群,然后利用这些有效数据训练模型。模型训练好之后,工程师会把训练好的模型部署回车端做一系列的指标检测,经过验证的新模型会被部署到车端供驾驶员使用。在这种模型下,会有新的数据源源不断被触发回传,从而形成循环。此时,一个完整的由数据驱动的迭代开发循环便形成了。
与传统软件的迭代优化不同,自动驾驶系统的研发与优化除代码以外,还有更为关键的AI模型。代码端的问题可以通过传统的数据闭环方式予以解决,但模型端的调整则需要重新训练或优化AI算法模型。因此,自动驾驶数据闭环需要在传统数据闭环方式上,引入一些新东西:就是数据采集、数据标注以及数据训练。支持自动驾驶数据闭环实现周而复始、不断向前的关键,也是新场景数据的不断投喂。只有让模型认识了足够多的场景,才能获得泛化性较高的智能软件。
▍利用数据闭环打造智能系统
现实驾驶场景难以穷尽,极其复杂且不可预测,需要AI模型快速迭代升级。实现自动驾驶数据闭环的快速循环迭代,以满足新场景模型适配问题,同时也需要各“长尾场景”数据的高效流转。
模型训练方面,目前AI算法模型已阶段性基本成熟。在实际应用时,不同场景需要解决的问题不尽相同。这并非算法模型的问题,而是场景适配度的问题。自动驾驶AI模型后续调优主要以数据迭代为主,需要投喂海量新场景数据。
数据采集方面,依靠遍布车身的各类传感器,车辆每小时采集的数据量可达数TB之多。然而采集得到数据为非结构化数据,这些未经处理的数据并不能直接用于模型训练,标注后才能产生使用价值。
横亘在数据与模型训练之间的首要问题是如何高效处理海量数据集,真实数据规模已然成为智能驾驶行业的“命脉”。然而与指数型增长的数据服务需求相比,无论数据处理效率亦或是数据产出质量均难以满足市场需求。
产能方面,大部分数据服务商业务规模、执行效率与项目经理能力高度绑定,产能瓶颈问题凸显;数据产出质量方面,以点云数据为代表的数据处理需求占比逐渐扩大,传统依靠简单工具和依赖人力的业务执行方式,也早已无法满足垂直市场的需求。
自动驾驶实现规模化量产,数据服务领域能否率先实现突破,助力于数据闭环的最终形成将成为关键。
▍难度重重,数据驱动面临多重挑战
虽然业界已经公认数据驱动将是自动驾驶的未来趋势与方向,但想要真正落地数据驱动模型也面临着诸多的挑战。
首先,便是数据的合规性问题。采集的数据是否符合国家规定,是否侵犯了用户的隐私等等都是自动驾驶公司在采集数据时需要考虑的难题。拿高精地图为例,在道路上采集数据的时候,企业需要具备国家测绘资质,并且要做相应的备案,否则采集过程中会被国安等部门阻止。目前,国内总共有约30家机构具备相关资质,有的企业具备国家电子导航甲级资质,适用范围较广,在国内多个城市都可以采集,而有的企业具备乙级资质,适用范围就会更小,只能在特定的城市采集。与此同时,测绘的数据不得泄漏,尤其是不得将数据挪到国外,非中国国籍的人既不能获取测绘数据,也不能在公司内操作测绘数据。这样一来,无疑给需要大规模采集数据的自动驾驶公司戴上了紧箍咒,无法施展拳脚。
其次,数据的所有权归属问题。按照中国的《个人信息保护法》相关规定,非法律允许的数据采集受到隐私保护。在德国,原德国联邦信息保护局有这样的规定,如果司机不是受害者,未经对方同意就记录其他司机的脸和车辆,是违反个人信息保护法的。也就是说,即使是车主记录别人信息也可能属于违法。但由于和新能源车伴生的自动驾驶行业很新,法律规定目前尚属空缺,所以我们按照基本法学理念推导,量产车采集的数据应该由车主所有。目前,主机厂很少对外开放数据,导致自动驾驶Tier1在帮助主机厂实现了主机厂定制的功能后,很难收集到用户在使用这些功能时的反馈数据,除非Tier1自己有很多测试车。那么,自动驾驶Tier1就难以根据用户反馈的数据对相关功能做后续的优化,数据闭环就难以实现。
最后,采集海量数据的标注与后处理也是自动驾驶公司们遇到的极大挑战。据估计,从量产车回传数据后,单车每日回传的数据量大概为百兆级。研发阶段,车辆总数可能只有几十辆或者几百辆。但是到了量产阶段,车辆数目的量级可以达到上万、几十万甚至更多。那么,量产阶段,整个车队日产生的数据量就是很大的数字。急剧增加的数据量给存储空间以及数据处理的速度都带来了挑战。量产之后,数据处理的延迟需要和研发阶段保持在同一个量级。但如果底层的基础设施跟不上,数据处理的延迟就会随着数据量的增长而相应地增加,这样会极大地拖慢研发流程的进度。对于系统迭代来讲,这种效率的降低是不可接受的。
▍总结
虽然在打造数据闭环之路上,自动驾驶公司们遭遇了多重的挑战与困难,但无论谁都不可否认,这就是通向高阶自动驾驶的必经之路。并且在现阶段,已经有特斯拉这样的车企的成功,证明了这个方向的可行性。在未来,数据闭环之路的挑战也将被厂商们悉数解决,而有了海量高质量数据加成的自动驾驶系统,将会变得更加安全与智能。
评论排行