当CPU算力趋近极限,GPU能否成为数字芯片设计的救星?
【ZiDongHua 之设计自动化收录关键词:人工智能 机器学习 电子设计自动化 AI 】
当CPU算力趋近极限,GPU能否成为数字芯片设计的救星?
就数字设计实现而言,RTL-to-GDSII流程中的每一步都涉及海量计算。在SoC级别,开发者需要评估数百个分区的各种版图规划选项,从而更大限度减少互连中的延迟并提高效率。确定了版图规划后,需要在每个分区中继续执行其余步骤,直到完成整个芯片的实现与签核环节。每个步骤的算力需求本身就很高,再乘以分区的数量,不禁让人怀疑:传统上用于数字设计的CPU是否已难堪重任?GPU能否替代CPU满足这样的算力需求?
目前,GPU以其在人工智能(AI)/机器学习(ML)、游戏以及高性能计算等领域处理极具挑战性的工作负载的强大能力而备受推崇。随着芯片设计趋向更大尺寸与更高复杂性,将GPU的应用范围延伸到数字芯片设计实现领域,或许正当其时。
EDA工作负载面临的CPU算力瓶颈
CPU一直被誉为计算机的“大脑”。现代CPU集成了数十亿个晶体管和多个处理内核,适合执行各种任务,并且处理速度极快。另一方面,GPU最初是为了特定用途而设计的,但随着时间推移,GPU也逐渐演变为能够广泛用于并行处理任务的通用处理器了。
传统上,电子设计自动化(EDA)的工作负载主要在基于x86架构的CPU上运行。然而,Multi-Die等复杂架构的普及,使得CPU的算力逐渐接近极限。考虑到芯片开发团队经常面临产品上市时间的压力,任何能加速芯片设计流程的工具和技术都将极具价值。在验证和分析阶段,由于GPU的卓越计算性能,新思科技的PrimeSim™和VCS®仿真流程已经实现了显著的速度提升。尽管GPU并不适用于数字设计流程中的所有环节,但它在某些特定任务中无疑能够提供速度上的优势。
在数据中心,每个机箱平均部署64至128个先进高性能x86 CPU内核,部分机箱甚至有多达200个内核。某些任务需求对内核数量要求更高,因此需要多个机箱协同进行分布式处理。但如果网速不匹配,这种分布式处理就会带来额外的通信成本。RTL-to-GDSII流程和优化技术中包含许多相互依赖的关系。要成功并行执行流程中的每个作业,进行分布式处理的各个CPU机箱之间必须能够非常快速地完成数据共享,不能有任何延迟。然而在实际情况中,网络延迟对处理周期时间有着显著影响,进而导致整个RTL-to-GDSII流程的分布式并行难以达到理想效果。
另一方面,GPU内核可以轻松地进行扩展。由于每个GPU内核承担的操作较少而且体积极小,一个插槽内可以集成数万个内核,这样便可在占用空间可控的情况下,提供强大的处理能力。那些能从大规模并行处理中受益的任务非常适合交由GPU处理。然而,这些任务通常需要是单向的,因为任何需要决策和迭代的任务都会减慢处理速度,“或者/并且”需要返回CPU进行复杂的“if then else”条件判断逻辑。这就意味着,在RTL-to-GDSII数字实现流程中,并非所有任务都适合用GPU来执行。
通过GPU加速来加快布局过程
在数字设计流程中,自动布局是一项已经在GPU上得到充分应用并显示出巨大潜力的任务。新思科技的Fusion Compiler采用了GPU加速布局技术,在商业环境下的原型测试中,相较于传统CPU,已经证明了其在缩短周转时间方面的显著优势:
38秒即可完成一个3nm GPU流式多处理器设计的布局,其中包含140万个可布局标准单元和20个可布局硬宏,相比之下,CPU驱动的布局需要13分钟才能完成
82秒即可完成一个12nm汽车CPU设计的布局,其中包含290万个可布局标准单元和200个可布局硬宏,相比之下,CPU驱动的布局需要19分钟才能完成
结合新思科技AI驱动的设计空间优化解决方案DSO.ai,我们预计在保持相同完成时间线的前提下,将AI驱动型搜索空间扩大15至20倍。这一进步有望帮助开发团队在功耗、性能和面积(PPA)方面实现更卓越的设计成果。
在数字设计的多个实施步骤中,版图规划和布局对最终设计的功耗、性能和面积(PPA)有着重大影响,因此这两个步骤是最需要进行广泛探索的环节。即便GPU计算资源通常与高性能CPU计算集群分离,我们也能预见,在基于GPU的布局技术支持下,开发者能够高效完成工作。然而,在RTL-to-GDSII的整个实施流程中,如果其他环节存在即时或交替的GPU加速需求,设计数据在CPU与GPU集群之间的传输所引入的延迟,会对吞吐量产生影响。
新型数据中心SoC正在设计中引入CPU与GPU资源间的统一内存,以处理TB级的工作负载。得益于这类新兴架构,利用GPU加速时不再需要移动设计数据,我们也能进一步思考GPU加速还可以应用在数字设计流程的哪些其他方面。特别是当开发者能够将GPU与AI驱动的实施工具结合使用时,那必将实现更快的探索、更广的范围以及更优的结果。此外,新思科技的AI驱动型全栈式EDA解决方案Synopsys.ai,能够助力开发者实现更佳的性能、功耗与面积(PPA)结果、更快达成目标、并显著提升开发效率、实现更高的工程生产力,我们可以预见GPU加速技术的加入将进一步革新芯片设计领域。
总结
在芯片设计流程的仿真阶段,GPU的运用已司空见惯,数字设计流程的其他部分也将逐渐展现出利用GPU加速的潜力。面对大型芯片或Multi-Die这类复杂架构,CPU在运行RTL-to-GDSII流程时的算力已接近饱和,难以满足所期望的处理速度。而GPU以其卓越的可扩展性和处理能力,有望实现更快的设计周期和更佳的芯片性能。在使用GPU加速的布局工具进行的原型设计测试中,布局速度已实现高达20倍的提升。随着AI技术逐步融入EDA流程中,GPU的加入将显著提升功耗、面积和性能(PPA)指标,同时缩短产品上市时间。
评论排行