AWS终于为超级计算提供了基于Arm的CPU,但它并不是现成的芯片,这款名为Graviton3E的芯片只能通过AWS的EC2 HPC7g云服务访问,该服务于本周推出。

上个月在德国汉堡举行的ISC会议上,犹他大学校长丹·里德(Dan Reed)在主题演讲中提到了超大规模企业内部开发高性能芯片通过云端提供使用的增长趋势。与AWS一样,Google也开发了自己的芯片(称为TPU),并通过谷歌云提供给高性能计算需求的客户。里德认为像Graviton3E这样的芯片正在推动高性能计算领域的创新。亚马逊多年来一直在为网络进行协议卸载,并在此过程中降低芯片开发成本。在里德的主题演讲中,有一张幻灯片分享了Graviton3E有64个Neoverse V1内核,并且是基于芯片设计的,它有550亿个晶体管,DDR5内存,支持PCIe 5互连。
AWS声称,Graviton3E的能效比基于AMD Epyc芯片的x86处理器高出60%,但其没有给出HPC7g或Graviton3E与x86服务器的原始性能比较。目前,超级计算仍然是为了提供最佳性能,但能源效率正在成为构建超过百万兆次级阈值的超级计算机重要衡量标准。众所周知,基于Arm的芯片比x86服务器芯片更节能,而x86芯片往往在原始性能方面更胜一筹。Graviton3E也与Graviton3进行了比较,其矢量性能提高了35%,Linpack性能提高了一倍。3E提供比Graviton2多50%的内存带宽、两倍的加密和浮点性能。
虽然超级计算工作负载正在慢慢迁移到云端中,但云实例和本地系统之间的网络带宽仍然是一个瓶颈。AWS将HPC7g实例定位为“紧耦合计算和网络密集型HPC工作负载(如天气预报、计算流体动力学和金融期权定价)的实例类型”。网络密集型功能集中在Nitro卸载系统芯片上,这是一个数据处理器或基础设施处理单元,处理网络,I/O和安全性。Nitro可与英伟达的Bluefield或谷歌与英特尔合作开发的Mount Evans相媲美。
Nitro已成为AWS云基础设施的核心,提供适合其分布式系统高性能的I/O。HPC7g虚拟机可用于从16个核心到64个CPU核心的实例,具有128GB内存、Amazon Elastic Block存储、200Gbps EFA(弹性结构适配器)带宽和25Gbps网络带宽,目前还无法获取每个实例的价格。GPU选项在HPC7g实例中不可用,但是AWS的并行集群技术允许HPC客户混合使用x86和Arm的实例,AWS没有透露有关文件系统支持的细节。一些组织已经在使用HPC7g实例,RIKEN已经从HPC7g实例中构建了其基于Arm的Fugaku计算机的云版本,这是世界上第二快的超级计算机。
转自:https://www.hpcwire.com/2023/06/22/aws-makes-homegrown-arm-processor-available-for-supercomputing/