2022年,自动驾驶距离我们越来越近,身边越来越多的汽车搭载辅助驾驶功能,越来越多的城市开辟出无人驾驶路测区域,时刻在感知着自动驾驶带给我们的新变化。虽然也有不同的观点,认为自动驾驶难度太大,实现遥不可及。但看好以AI为驱动力的自动驾驶行业仍然是大多数人的共识,很多人都相信在未来它可以塑造交通出行的新形态和商业格局。
一直以来,大家看到的更多是无人驾驶的演示视频,炫酷的AI模型的技术讲解,抑或是不间断的初创公司大额融资的新闻等。而自动驾驶背后的内容并没有被广泛地感知到。从自动驾驶数据存储的角度,自动驾驶行业一直在做的事情和努力方向是什么?希望本文可以跟大家做一个交流。
自动驾驶AI业务场景
百PB规模的数据存储挑战
自动驾驶能力的进化和成熟,离不开AI。而AI的三要素里,除了算力算法之外,还包括数据。数据量越多越全面,自动驾驶的能力才会迭代得越快越可靠。所以从AI业务对数据的存储和使用,是可以很直观地理解自动驾驶背后的工作。
自动驾驶里的数据从哪里来?到哪里去?是需要解释清楚的。
简单来说,自动驾驶的原始数据来源于自动驾驶公司自有的路测采集车,其在法规允许的路段内行驶,采集不同场景的数据,这些原始数据里会包括视频、图片、音频、感知数据等。对于一些头部的自动驾驶公司,每天采集到的原始数据超过百TB规模。除了每天源源不断产生的原始数据,还有很多AI业务过程中的中间数据和结果数据。对于一家头部自动驾驶公司来说,数据整体容量会在百PB左右。
自动驾驶AI场景,是个完整的数据加工学习过程。其中会涉及数据的导入、预处理、标注、清洗、训练、仿真等环节。而且每个环节对数据的压力和处理方式都不同,这就会对承载这些数据的基础架构平台里的存储服务有非常高的要求。
举个例子,一家典型的Robotaxi公司,每天会有上百TB的原始数据生成,这些数据会从多辆车的车载硬盘中取出并置入到Uploader前置机里,然后上传导入到数据中心的存储集群里去,以便进行后续的数据加工和持续训练学习。这也就意味着,每天在很短的时间窗口内要完成这些原始数据的上传,对应的是要求存储服务至少有数十GB/s的高吞吐能力。
数据导入环节只是对存储系统压力的一方面,其他还会包括数据预处理、清洗、训练等环节的差异化要求。数据训练环节,具有典型的海量小文件读多写少的业务特征,并且要求数据存储具备高吞吐、低时延的特性,以便满足GPU集群的业务要求。
以上可以发现,对于任何一家致力于推动自动驾驶广泛商业化的公司来说,不仅需要能够用存储百PB规模的数据,且要能够高效率地加工处理这些数据。在这种业务特征下,自动驾驶公司对于数据存储就会聚焦于几个很典型的要求。
第一,在百PB数据规模下提供可靠且低成本的存储服务;
第二,上亿个标注完成的小文件进行GPU数据训练时,存储服务能够提供高性能的数据供给;
第三,整个业务流中存储与业务的融合,实现数据自动化高效处理。
做好数据存储的平衡和取舍
实现成本和效率兼得
前述场景需求很明确,自动驾驶AI场景需要一个海量且高性能的数据存储产品。鱼和熊掌不可兼得,很难有一款能兼顾到所有业务环节要求的存储产品,既成本可控,又超高性能,提供无限容量空间,对应用友好,来满足所有业务环节的差异化要求。
那合理答案只能是有所取舍。针对不同业务环节里的需求,去做出合理平衡。一个符合现状且可行的思路就是,对象存储和文件存储各司其职,在不同业务环节发挥出其最大的产品优势。
根据XSKY星辰天合的部署实践来看,这个平衡,是符合数据特征的现状以及未来的趋势的。
‖ 图 1 XSKY 数据存储平台来源:星辰天合
星辰天合已经为多家自动驾驶的用户提供存储产品和服务,积累了很多场景经验和头部客户案例。对于自动驾驶场景来说,数据中心里的“对象存储+文件存储”的组合,已经是主流的用户共识和现状。业界的头部公司都是如此。业界里的基础设施人才都在围绕这个存储架构体系,在开发对接上层的业务应用的数据处理管线。
在自动驾驶场景中,对象存储可以提供海量、低成本、丰富特性和标准API的存储服务。文件存储来解决训练和仿真环节的数据高性能供给。然后对象存储和文件存储之间通过数据调度服务,实现数据的按需流动。
采用这种数据存储组合,可以低代价地解决掉自动驾驶AI业务里数据存储的难题。
数据存储服务深度融入AI业务流实现降本增效最大化
大部分自动驾驶公司的AI业务平台,正在逐步从单一的公有云或私有云方式,演变为混合云的架构。
XSKY星辰天合是一家专注于数据存储服务的公司。作为国内头部的软件定义存储厂商,服务了数千家客户,在自动驾驶领域里,也为包括Robotaxi在内的多家新能源头部客户提供存储产品和服务。
作为典型的海量非结构化数据深度加工的场景,XSKY星辰天合基于对象存储XEOS和文件存储XGFS为自动驾驶AI业务构建了数据存储平台。该数据存储平台,向上平滑对接算力集群,向下做好数据的导入和流动,可以承担起数据中枢平台的角色。
以深度归档一体机
解决百PB数据规模下的存储成本问题
在存储成本优化上,涉及很多细节工作。比如如何做好数据的冷热分层,如何做好超大存储集群的精简运维服务?
这些都是影响用户使用存储成本高低的因素。
同时XSKY星辰天合也推出深度归档一体机,实现温冷数据的低成本存储。可以理解等同为私有化的S3Glacier。一体机具备多种选型,包括5U84和4U106等JBOD介质,单节点物理容量最大可达2120TB,并可支持池级休眠和智能断电等高级策略。一体机能够从存储密度和能耗两个层面来持续优化温冷数据的用户存储成本。
如何进一步提升
自动驾驶AI业务里数据供给效率
答案是XSKY星辰天合的存储通过帮助自动驾驶AI业务构建自动化的数据处理流程,来提升整体效率。
一方面,原始数据上传后,通过事件通知自动触发上层应用的数据操作,实现数据预处理任务的自动化。
另一方面,能够实现List深度优化。毕竟,在对象存储的使用过程中,用户会调用List相关的API。但是如果存储桶里数据太多的话,List响应会非常慢,
并且非常耗费存储集群的资源。XSKY星辰天合的存储按照Bucket、前缀等进行List预热,在底层技术逻辑上做了优化,能够充分提高List性能和效率,同时降低压力保证集群负载稳定。
S3Select的功能能够提升应用访问数据时的效率和性能,以及其他一系列针对场景所开发优化的存储能力。
结语
在服务过多家自动驾驶客户之后,我们得出一组客观的降本增效量化数据:
首先是成本下降,在数十PB的规模下,XSKY星辰天合存储服务,相比单纯的公有云存储,用户的中长期存储成本至少降低50%;
其次数据处理效率。相比之前采用大批量导入数据的方式,在使用XSKY存储服务后,每天新增采集数据的上传效率至少提高35%;
客户在从单一的公有云模式转变为混合云架构时,在私有云里采用XSKY星辰天合存储产品和解决方案,数据处理流程完全无需改变,且业务代码的适配工作量几乎为零。
针对自动驾驶场景,我们一直在持续投入和前进。不仅仅是那些前面所讲过的针对场景所开发的存储特性,未来也会持续迭代更多的存储能力,来服务自动驾驶的企业客户。(文︱贾斌北京星辰天合科技股份有限公司产品和方案架构师)