数据中心不能"偏科",AIGC时代算力、存力需协调发展
【ZiDongHua 之技术文章区收录关键词:浪潮信息 AIGC 生成式AI 大模型 人工智能】
数据中心不能"偏科",AIGC时代算力、存力需协调发展
黄金比例是数学上一种堪称"完美"的比例关系,最早由欧几里得在《几何原本》中进行了系统论述。之后,黄金比例的理念被广泛应用到数学、物理、建筑、农业等多个领域,代表着最合理、最协调的一种情况或者状态。
在数据中心领域,相关资源的合理配比愈发受到用户们的关注。尤其是随着大模型和生成式AI应用的兴起,对于算力、存力等需求迅速提升,越来越多数据中心用户意识到数据中心资源需要平衡配置和协调发展,才能充分发挥其能力与价值。
今年以来,产业界多次呼吁AI时代的数据中心建设不能走向偏科,算力与存力的建设同等重要。正如浪潮信息存储产品线副总经理刘希猛所言:"当前,生成式AI时代的‘百模争秀格局初现,AI大模型的建设不仅要有算力底座,更要有存力平台。将数据中心的计算、全闪存储、混闪存储按照1:1:1黄金比例建设,用户可最大化获得投资回报比。"
数据中心不能"偏科"
Gartner预测,到2023年将有20%的内容被AIGC所创建;到2025 年人工智能生成数据占比将达到10%。不可否认,生成式AI、大模型正在成为数据中心基础设施发展最大的牵引力。可以预见,由AIGC和大模型带来的基础设施投入在未来会持续增长。
但从目前真实情况看,数据中心的建设是"偏科"和"失衡"的。出于各种原因,"重算力、轻存力"的现象较为明显,大部分用户非常看重GPU等算力产品的部署,却忽视了存力建设的重要性,更缺少对于数据中心整体资源的规划与匹配。
众所周知,大模型应用的核心是高质量数据,数据的质量又决定着算法的性能、泛化能力和应用效果,而高质量数据的得到又与存力息息相关,围绕数据的"传输、存储、分析、管理、安全"等环节,存力是释放数据价值必不可少的关键因素。
事实上,大模型发展到今天,已经属于一个大规模、高质量数据和数据高效处理的工程难题。随着大模型逐渐向多模态的方向演进,意味着除了持续的算力需求之外,对于数据存储的容量、性能、多协议支持、可靠性、数据管理等带来前所未有的变化。
例如,大模型多元异构数据的归集、标注、训练、推理和归档均需要极高的效率来移动数据,这意味着支持异构数据的多协议融合将是解决大模型数据移动与处理效率的关键所在;又如,AIGC应用会产生大量推理需求,随之而来的就是大规模的并行处理和复杂IO,对数据存储性能要求极高;再如,大模型训练动辄需要调用成百上千快GPU卡,并且存在着不同的CheckPoint,对于存储的稳定可靠要求越来越高。
刘希猛直言,数据存储与管理在AIGC时代承担着两个重要责任:其一、支撑起海量多元异构数据的全生命周期管理工作;其二、承载起AIGC数据训练、推理对于性能、延时、容量、扩展性等各种严苛需求。
对于用户而言,除了需要重视存力建设之外,一个不容忽视的现实挑战即:数据中心的算力、存力资源比例到底应该如何配置才算最佳?为此,浪潮信息带来了它的答案:从数据容量、带宽、访问频率以及成本等多个因素综合考量,未来数据中心在实践中需要形成算力、闪存和混闪的1:1:1黄金比例,以满足AIGC、大模型等人工智能应用的需求。
黄金比例是如何得出的?
相比于欧美成熟市场,我国存力的发展一直滞后于算力。这从我国数据中心全闪存普及率较低、容灾保护建设力度较弱等方面可见一斑。
随着AIGC时代的到来,这种滞后的现象更加明显与突出。面对AIGC迅猛的算力需求,很多用户从一开始就"走一步看一步",往往是先购买算力,使用过程中发现存力跟不上,再去着手配置相应的存力,缺乏数据中心资源整体规划,建设方式明显落伍。
某种程度而言,我国通过普及和推广数据中心算力、闪存和混闪的1:1:1黄金比例既能让用户在基础设施层面更好地支撑起AIGC领域的创新,又可推动我国数据中心存力建设,实现数据中心整体资源配置和利用水平的提升。
但数据中心资源配置的黄金比例为什么会是"1个GPU节点,对应1个全闪存储、对应1个混闪存储" ?浪潮信息之所以会提出算力、闪存和混闪的1:1:1黄金比例,主要来自两个方面的核心原因:
首先,黄金比例源自于浪潮信息较早就涉足大模型的实践。早在2021年,浪潮信息就发布了源1.0中文大模型,当时该模型参数就高达2457亿个,训练文本数据量高达50TB,在这些年的大模型训练、推理实践中,浪潮信息自身的基础设施产品起到了关键的支撑作用;同时,浪潮信息也深刻感受到数据中心算力、存力的合理配置,对于发展大模型的重要性。
例如,在大模型训练与推理场景中,数据存储最大的挑战就是如何将不同数据源源不断传输到CPU和GPU,因此对于数据处理性能、如何与GPU配合等考验极大。"对于源1.0的实践是浪潮信息存储产品的先天优势。市场中很少有企业能搭建一套大规模集群来进行支撑大模型的应用。"浪潮分布式存储产品线总经理姜乐果如是说。
其次,作为国内领先的企业级存储厂商,浪潮信息对于闪存、混闪等相关存力技术的未来发展有着深刻洞察,加上浪潮信息相关存储解决方案已经在国内多家AIGC企业中成功应用,对于AIGC时代数据中心的整体建设已经积累了较多实践。
"浪潮信息在闪存领域具有全栈技术创新能力,从底层SSD的控制器到存储系统软硬件,再到上层应用,实现盘控协同,以及数据全链路的优化,有利于像AIGC这类应用充分释放数据的价值。"刘希猛补充道。
事实上,考虑到市场内外部环境与因素,未来算力市场GPU紧缺的情况还将持续很长一段时间,这也让算力、闪存和混闪的1:1:1黄金比例具有非常强的实践意义。在算力紧缺的情况下,同等算力配置下,以存强算,通过算力与存力的合理配置,可以充分发挥基础设施整体资源的价值。
为了进一步推动黄金比例在数据中心领域的推广,浪潮信息近期又正式推出针对大模型应用存储系统:AS 15000G7,以帮助用户从复杂的基础设施中解脱出来,全力投入到AIGC创新之中。
AS 15000G7,让黄金比例落在实处
可以说,黄金比例的普及,存储系统是关键。
众所周知,近年来随着闪存介质容量的持续提升以及价格的不断下降,为存力在国内的发展创造了极好的条件。毫无疑问,AIGC的兴起,将进一步驱动全闪、混闪等存储产品加速创新。
"AIGC类应用带来了对容量、性能、功能等需求的全面提升。"姜乐果介绍道,"存储系统不仅需要进行全新组合与设计,进而满足AIGC类应用的数据存储需求,还要避免传统存储方案的复杂性和低效率。"
因此,浪潮信息面向AIGC应用场景打造出AS 15000G7,通过极致性能、极致管理、极致融合和极致效率来满足用户们对于大模型训练的数据存储在性能、管理、融合和效率方面的综合需求,助力AIGC在各个行业的落地,并加速释放数据价值。
首先,针对大模型高并发、复杂IO等特征,AS 15000G7从架构、硬件、关键技术、IO路径优化等多个方面为AIGC带来了极致性能,为大模型的训练等带来性能保障。具体来看,AS 15000G7通过GDS、RDMA技术缩短I/O路径,并且利用智能元数据管理显著提升数据访问和检索速度;另外,独有的智能网络优化技术实现提升网络端口并发能力,时延缩短50%以上,尤其是小文件级传输的时延可降至毫秒级。
其次,针对大模型训练流程管理,AS 15000G7提供全流程透明可控的极致管理。AS 15000G7可同时搭载AIStation调度平台和InView数据管理平台,对AI服务器、网络、存储等设备进行智能运维,支持训练推理全流程的多租户管理、资源分配、数据管理分析。可以通过一套存储实现对AIGC数据采集、清洗、训练、推理、归档不同场景全流程的设备资源监控和管理。
第三,针对大模型多元异构数据的归集、标注、训练、推理和归档,AS 15000G7融合架构实现多源异构巨量数据的极致融合,对文件、对象、大数据以及视频的存储方式进行并行访问,支持多协议实时互访互通和系统扁平扩展,数据访问过程中保持语义一致、性能无损,从而对AI大模型海量多源异构非结构化数据实现高效共享。
最后,针对大模型所需要的巨额投入,AS 15000G7可助力用户实现黄金比例的数据中心资源最佳配比,提升投资回报比,带来极致效率。AS 15000G7根据闪存、磁盘、磁带、光盘等不同介质分为性能型、均衡型、容量型三种机型,并且基于自动化的数据分层和迁移,在应用安全透明的前提下,实现热温冷冰数据全生命周期的管理,带来TCO的显著降低。
毋庸置疑,AIGC的兴起标志着人工智能发展的拐点已至。当下,中国已经成为全球AIGC创新与发展的热土。不完全统计,当前国内大模型数量已经超过200个,不同类型的企业均在全力推动AIGC、大模型的发展。如今,人们愈发意识到"大模型产业发展,基础设施先行"的道理,算力、闪存和混闪的1:1:1黄金比例建设理念出现可谓是恰逢其时,有助于探索AIGC的企业降低基础设施复杂度,从而更好地聚焦创新。
"AIGC现在才刚刚起步,未来会持续带来对基础设施的需求。预计到2026年,黄金比例的建设模式有望得到广泛应用。"刘希猛最后表示道。
评论排行