我院团队夺得第五届“神威杯”国产CPU并行应用挑战赛总决赛冠军

来源: 日期:2021-10-15编辑人:

今年是“十四五”开局之年,同样是“数字中国”步入发展“快车道”的一年,从云、人工智能、元宇宙到5G、大数据…几乎当下所有热点领域和技术前沿的背后都有着同一个名字——那就是超算。作为国产超算领域的专业赛事,同时也作为国产“芯”平台人才选拔培育的“孵化器”,创办于2017年的国产CPU并行应用挑战赛(简称CPC)始终立足于国产超算平台,通过聚焦前沿技术应用风口,深挖大赛广度、深度,以及构筑良性人才技术发展生态,为国产自主平台的建设创造更多可能。

2021年9月,中国计算机学会主办的第五届“神威杯”国产CPU并行应用挑战赛总决赛在江苏无锡落下帷幕,由我院高性能计算团队研究生王子衡、赵明强、蔡玮林、陈鑫行组成的Cyberpunk6031队在陈衡老师的带领下获得决算第一名。高性能计算团队针对国家和社会对高性能计算环境、应用及人才的需求,专注于高性能计算机系统与软件、存储设备与大数据存储系统等人工智能与大数据使能技术的研究。依托于国家重点研发计划“面向E级计算机的大型流体机械并行计算软件研制”,团队自2019年连续3次组队参赛并全部进入决赛,2019年获得三等奖,2020年获得并行基金奖,2021年获得第一名。竞赛采用初赛和决赛两轮赛制,初赛作品由专家评审团评审,并评选全国20强进入决赛,本次进入决赛的还有来自清华大学、北京航空航天大学、浙江大学、中山大学、哈尔滨工业大学和中国科学技术大学等国内高校的团队。

本次决赛紧扣Transformer这一深度学习前沿网络和相关应用热点,要求参赛选手在新一代申威众核架构下,优化基于PyTorch实现的ViT模型训练任务,并针对其中的Transformer结构进行性能优化。在赛事主办方提供的源代码基础上,为确保比赛任务可以在一个月内高质量完成,四位参赛队员进行了细致的分工,包括基于神威处理器的SUMMA算法实现、cache局部性矩阵乘优化、LDM内存管理、数学库函数加速、PyTorch算子C语言并行化、多头机制特异性优化、核间RMA协同设计和向量化与指令级并行等。在保证模型精度和准确度的基础上,对多种训练规模的参数均进行了针对性优化。经过一系列的并行优化,单节点性能相比于原始版本,提升了数百至数千倍,同时在多节点上也有良好的可扩展性。

高性能计算一直是我院的重点研究领域,该领域内的专业比赛更加考验学校在这一领域的科研水平,正是由于计算机学院长期以来对高性能计算方向的支持以及团队多年来的科研积累和实践,才能获得今天优异的成绩。

合影


比赛现场


答辩


排名