北京2024年9月24日只要输入提示文字,大模型就能给我们高度拟真、准确的图像,相信很多人已经体验到这种前沿且酷炫的图像创作方式,这背后其实是能力强大的图像生成模型做支撑。

目前诸如Sora等前沿图像生成模型,基于的主体架构都是Diffusion Transformer(DiT)。DiT可以将生成模型扩展到更大的模型规模,从而实现高质量的图像生成。然而更大的模型规模导致训练成本飙升,为此,南开大学计算机学院研发了Masked Diffusion Transformer(MDT)图像生成模型,相比DiT训练速度提升10倍以上,实现了ImageNet Benchmark上1.58的FID score,再次刷新SOTA图像生成质量和学习速度。相关论文已在计算机视觉顶级会议ICCV 2023(计算机视觉国际大会)发表。

MDT开发和训练的背后需要强大的AI算力资源支持,为了建设满足MDT开发和训练需求的AI算力平台,南开大学与浪潮信息合作,借助浪潮信息AI服务器构建强大算力资源池,利用AIStation智能业务生产创新平台实现算力高效分发提高计算资源利用率,加速MDT图像生成模型训练。

大模型创新面临海量算力资源挑战

DiT虽然在图像生成领域取得了显著的成功,但是DiT往往难以高效地学习图像中物体各部分之间的语义关系,这一局限性导致了训练过程的低收敛效率,经常需要数十万次地迭代训练才能生成高质量的图像。为了降低训练成本,提升训练效率,南开大学计算机学院程明明教授团队开展了大模型领域的深度研究,MDT就是重要科研成果之一。MDT利用mask modeling表征学习策略,增强DiT对上下文语义信息的学习能力,进而提升图像生成的质量和学习速度。

大模型技术进步的背后离不开强大算力的支持,为了进一步提升MDT的开发和训练效率,同时实现算力成本效益的最大化,南开大学对算力基础设施的建设提出了如下诉求:

需要强大的AI算力资源支持。以程明明教授团队为例,研发高峰期甚至需要付费租用更昂贵的云算力资源,特别是按照新引进的团队规模,现有设备的峰值算力已经无法满足科研需求,亟需构建高质量的算力资源池;

快速构建大模型开发环境,提高模型训练效率。大模型训练环境配置、框架匹配与参数调整经常会耗费大量的人力与物力,还可能会碰到环境算法配置复杂、模型结构多样适配繁琐等问题,这会耽误宝贵的模型研发时间;

算力资源高效调度,降低算力使用成本。大模型训练的不同任务、不同阶段对于算力的需求有着明显的波动性,如果无法精准调度算力资源,不仅会造成冗余算力在平常时段的闲置浪费,导致算力成本大幅提升,也很难满足资源高效管理调度的需求。

提升AI算力利用效率 加快大模型开发

南开大学采用了浪潮信息提供的算力方案,该方案包括浪潮信息高性能AI服务器、网络交换机、存储系统,满足模型训练过程中对算力资源的需求。同时,为了最大化利用AI算力资源、提升大模型开发效率,南开大学利用AIStation平台实现AI算力资源的高效调度。

全新升级的AIStation具备全面的大模型流程支持能力,帮助用户低门槛构建大模型微调任务,提供标准、安全的大模型推理服务,并针对大模型业务资源需求优化了算力管理功能,助力南开大学快速开展大模型业务创新与落地,获得稳定、高效、易用、高精度的大模型服务。

浪潮信息AIStation为大模型训练提供有力支持,助力南开大学的大模型开发能力:

构建端到端的大模型开发流程:AIStation支持端到端的大模型开发流程,支持TensorFlow、PyTorch、MxNet等主流大模型框架以及GoogleNet/VGG/ResNet等网络模型,一台GPU服务器可运行多种框架环境,并实现快速切换。AIStation通过自动环境部署和AI工作流,将MDT的开发准备时间大幅缩短,帮助南开大学有效降低构建大模型开发环境和训练任务等门槛。

提升AI算力资源利用率:AIStation支持更加细粒度的分配调度算力,帮助南开大学为每项AI训练任务合理匹配AI算力资源,实现资源的高效利用。针对MDT等优先级较高的应用,AIStation可设置GPU、CPU、内存数量,硬件资源隔离,应用环境独立,各应用之间互不影响。

实现算力资源快速调度:AIStation简化了算力调度和模型开发流程,实现了业务按需使用、秒级下发,并实现大模型实验室不同团队共用流程、共享环境,开发者与算力高效协同。平台还提供了实时、可视化的数据支持,支持训练进度、训练结果、资源利用情况等数据的可视化展示,助力南开大学精准进行算力调度。

浪潮信息提供的算力解决方案,为南开大学程明明教授团队在图像生成领域的研究提供了强大的算力支持和高效的资源调度能力,显著提升了MDT图像生成模型的训练速度和图像质量,对于艺术创作、游戏开发乃至医学影像分析等领域都有重大潜力。