【ZiDongHua之会展赛培坛收录关键词:无问芯穹 人工智能 智能汽车 AI】
释放AI算力的无限可能,上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩出席2024中国生成式AI大会
12月6日,作为国内生成式AI领域最具影响力的产业峰会之一,2024中国生成式AI大会上海站圆满落幕。本次会议以“智能跃进·创造无限”为主题,由上海市人工智能行业协会指导,智东西发起主办。人工智能领域五十余名研究人员与行业嘉宾出席,基于前瞻性视角,共同解构和把脉生成式AI的技术产品创新、商业落地解法、未来趋势走向与前沿研究焦点。在中国生成式AI大会上海站的AI Infra峰会上,上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩发表主题为《软硬协同与多元异构,共筑大模型算力底座》的开场报告,现将演讲内容整理成文,与各位读者共同饕览。
人工智能的发展历程正从感知智能向认知智能迈进,这一转变由算法、数据和算力这三大要素“穿插式”驱动,缺一不可。市场曾预测,GPT-5可能在2023年底或2024年夏季发布,然而其发布却一再延期,过去的一年中业界出现许多质疑声音,对模型规模定律(Scaling Law)的长期有效性提出了挑战。研究机构Epoch AI预测,最快到2026年,人类公共文本的总存量可能会被耗尽。由此,当前硅谷普遍认为,受限于构建更大规模模型的数据与算力难题,继续扩大模型规模的难度越来越大,因此能生产出更多高质量数据的合成数据模型,以及对数据需求更低的推理模型或成为可行的解决方案。
与此同时,随着GPT-o1等新一代推理模型的推出,计算范式正在发生显著的转变。多步推理使得模型在相同数据量情况下拥有更好的推理效果,但模型推理的计算需求也随之激增,呈现出从10到100的指数级增长。这种变化可能导致硬件系统的能耗开销供不应求,从而对整个行业的可持续发展构成挑战。
以同样的算力呈现出更好的结果
“我们发现在人工智能领域,衡量算力的指标,正在从以往的每秒操作数GOPs/s,转变为吞吐率tokens/s。”戴国浩在会议现场向大家表示,当下业界更应该关注单位算力如何实现更高效的token吞吐,让大模型的实际可用算力不仅取决于芯片的理论算力,还可通过优化系数放大算力利用效率,并通过集群规模放大整体算力规模,从而提高行业整体算力供给水平,提升面向大模型场景的token吞吐效率。
在软硬协同方面,可利用智能算法的可学习特点,同时优化算法和电路,面向算法模型、数据结构、数据表示、计算图进行算法电路协同设计,在保证准确率的前提下,实现算法加电路整个系统的速度提升和能效的数量级提升。通过算法设计和模型剪枝降低工作负载,通过模型的量化和算子优化来提升提高峰值性能,并结合硬件的架构设计来提升资源的利用率。
在算法设计、数据结构优化与模型量化方面,无问芯穹与清华、上交联合研究团在算法设计、数据结构优化与模型量化方面,无问芯穹与清华、上交联合研究团队的代表性工作为思维骨架SoT、稀疏注意力方案MoA、QLLM-Eval[ICML 2024]、MixDQ[ECCV 2024]、ViDiT-Q[ICLR 2025 Submission]等;在算子优化层面,曾提出FlashDecoding++,相较于SOTA工作,在NVIDIA A100上推理平均加速37%,在AMD MI210上实现300%+的性能提升;在高能效稀疏计算层面,提出了转置结构化稀疏架构TB-STC[HPCA 2025],实现平均2.31倍加速和3.82倍能量延迟积(EDP)节省;在异构算力加速层面,提出面向Mamba、RWKV等Attention-free基础模型的异构存算加速方案[ICCAD 2024],相比GPU基准方案可实现高达89倍的加速比和2537倍的能效提升;基于上述软硬件研究成果,进一步提出融合“结构化稀疏+混合精度量化+可重构DSP链+在线解码调度”的大模型推理加速器FlightLLM[FPGA 2024],在低端工艺FPGA上实现相比高端工艺GPU约6倍的能效提升。
秉持算法与电路协同设计路线,无问芯穹打造了全球领先的第三代大模型推理系统,通过计算分离与存储融合式设计,确保首token延迟(Time To First Token,TTFT)与每个token的生成延时(Time per output token,TPOT)均维持较低水平,让模型在同等的算力条件下呈现更好的效果。
以更多的算力重塑行业竞争格局
近年来,大量异构算力芯片被投入集群从事AI生产,却困于生态困境,即不同硬件平台适配不同的软件栈和工具链,难以被有效利用。相比国际上模型层与芯片层呈现的“双头收敛”格局,中国的模型层与芯片层却表现出百花齐放的“M×N”格局。面对国内模型层和算力层高度分散的现状,戴国浩表示基础设施是关键,应构建异构算力平台实现异构集群训练,让更多芯片能够被用起来,加速千行百业大模型应用场景落地。
模型超大化发展,对智算集群提出了更高的要求。为支撑更大规模模型训练,集群数量从百卡发展到千卡、万卡,这不仅需要引入更多异构芯片,集群建设与运维难度也大幅提升,训练模型时更将会遇到跨越软硬件层栈的多重挑战,如网络建设成本与故障率高、训练算力利用率与互联性能低,以及算力调度、容错难度增加等。由此,无问芯穹推出了万卡规模训练智算集群核心模块,通过提供包含了全链路极致性能优化加速套件的弹性算力池,构建一站式开放的AI作业平台,为超大模型训练提供训练框架、高性能网络以及调度容错服务。
基于该核心模块,无问芯穹打造了面向万卡集群的多硬件分布式混合训练平台,可打通6种异构芯片间组合,让性能损失最小低于10%,支持现有芯片资源复用、多种芯片灵活部署、兼容异构接口通信的同时,通过软件设计确保模型计算精度。今年7月,无问芯穹将该异构训练能力发布至Infini-AI异构云平台,于全球首次实现了包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片在内的“4+2”种芯片组合异构千卡混合训练,算力利用率最高达97.6%,具备万卡扩展性,可一键发起700亿参数大模型训练。
随后,无问芯穹又作为核心技术团队贡献了异构互联并行训练策略、异构芯片通信打通和跨域互联技术方案,参与发布了浦江跨域异构算力网络实验验证成果,实现了异构混训效率达97.5%,跨域异构混训效率达90%。此外,Infini-AI异构云平台还部署在了沐曦百卡集群上,并成功服务上海算创院,助力沪产算力形成了国内首个纯国产、完整闭环的生态链。
以有限的算力让端侧无处不智能
Scaling Law是否长期有效?AI发展的另一面,是在算力资源受限却距离每个人最近的端侧。当前,一个最新的3-4B规模的大模型,其智能程度可以比肩2022年底Open AI刚发布的GPT3.5。伴随着端侧大模型知识密度不断提升,未来,端侧等体积模型的智能水平有望从GPT-3.5发展到GPT-4o/o1。端侧大模型在智能汽车、手机、电脑等设备中逐步展露出巨大潜力,而这需要更低的功耗、更高效的token吞吐以及更长的续航能力。
面对泛端侧智能对于更小体积、更少参数、更高性能的要求,端侧软硬件正受到内存和计算能力的双重挑战。戴国浩认为,泛端侧进阶智能对于能效提出了5倍于当下能效水平的要求,通过模型设计、算法压缩、软件优化以及硬件设计的整体进步可逐步抵达这一目标。
在模型层面,无问芯穹针对端侧垂类场景做专用小模型,可以3B模型的推理速度呈现出13B模型乃至更大参数规模模型的智能水平;在算法压缩层面,通过权重量化、稀疏注意力以及并行解码等技术方案,能够实现模型的“近无损压缩”;在软件优化层面,无问芯穹长期致力于通过推理算子优化、显存复用优化、异构系统加速等跨层优化方法,实现软件利用率最大化;在硬件IP层面,则通过大模型专用指令集、结构化稀疏计算单元、混合精度计算阵列、以及面向3D堆叠的访存互联架构等技术方案,进一步突破了算力与访存瓶颈,实现性能(tokens/s)与能效(tokens/J)的数量级提升。
在AI技术迅猛发展的今天,算力底座的不充分发展,已成为制约AI广泛应用的主要瓶颈。戴国浩教授的本次报告,创新性地将影响AI模型算力供给的关键要素归纳为“软硬协同”与“多元异构”,并集中探讨了算力供给错配的问题。深入分析AI在持续发展和应用落地过程中所面临的云侧与端侧算力挑战,从技术创新和产业实践的角度出发,提出了创新解决方案。作为该方案的产业构成,无问芯穹致力于持续扩大AI算力供给,提升面向大模型场景的token吞吐效率,降低大型模型部署的算力成本,以推动AI技术的持续进步,促进更多AI应用在云与端上的成功落地,实现更广泛的社会和经济效益。
评论排行