随着数据量的快速增长和智能化需求的不断扩大,各领域对智能算力的需求日益强烈,各行各业纷纷开始建设智算中心。智算中心是基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。科学研究作为高校三大职能之一,已成为衡量高校核心竞争力的重要要素。随着人工智能的发展和普及,科学研究范式逐渐从假设驱动向数据驱动转变,数据的增长和大规模模拟实验对算力提出了更高的要求,以通用处理器架构为核心的传统基础算力已难以满足学科科研的发展需求,从而催生出了新的科研范式AI for Science。智算中心所具备的算力服务能力极度契合AI for Science的算力需求,能为基础研究和前沿科学技术研究提供算力支持。
然而,在高校早期算力建设过程中,为快速满足各研究团队在算力方面的迫切需求,各学院课题组普遍通过各自申请经费独立购买硬件资产的方式搭建集群,导致全校范围内出现了多个分散的小集群。在缺少顶层设计规划的背景下,各小集群往往无专业人员运营,导致部分资源闲置、利用率低下。如何统筹运营校内现有闲散算力,为校内师生提供普惠算力服务的同时提高资源利用率,成为AI时代高校校级智算中心建设的重要举措之一。
为加速校级智算中心的建设和科研范式的转型,浙江大学(以下简称浙大)于2020年首次提出校内“众筹式”算力建设,通过整合校内各分散集群,搭建校级众筹智算平台,统一纳管、运营与维护算力,降低科研成本,加强学科建设。本文以纳管计算机辅助设计与图形系统全国重点实验室的GPU集群为例,详细阐述浙大多元协同模式下校级众筹式智算平台建设的思路,以期为高校探索校级智算中心建设提供借鉴与参考。
存在问题与挑战
校内算力分散式建设
为了更全面地了解和掌握各院系单位、各教师团队的算力现状与需求,浙大信息化领导小组于2023 年底在全校范围内发放调研问卷。据不完全统计, 自2019年以来,校内有近40个学院(系)、二级单位拥有自建计算集群,其中投资规模达百万元以上的集群有30余个,CPU核心总数超过34000个,GPU计算卡超过1200张,存储容量达20PB。由此可见,当前学校的算力分散在各单位、院系,是以院系单位各自申请经费购置中小型集群为主的分散式建设,经费投入成本高。
资源利用率低、运营困难
调研结果发现,当前校内硬件服务器的平均利用率为80.75%,平均使用年限为5.5年,有近一半的硬件设备未放置在专业机房。具体而言,首先,院系单位各自购置的集群一般面向本单位内部人员,由于学科计算任务时长、资源需求的差异性,同一时间段内不同集群之间实时利用率极度不平衡,导致学校整体资源利用率较低;其次,由于其不对本单位外部用户提供服务,需要各自制定一系列使用制度规范并维护账户体系,然而各院系单位缺少专职的技术人员负责集群的整体运营和运维工作;最后,由于建设专业机房对技术和成本的要求较高,大部分硬件设备都被放置在实验室或者办公室。综上所述,分散式算力集群建设不仅会导致学校整体资源利用率低、小集群运营困难,同时还会存在一定的安全隐患。
算力需求强烈
作为一所综合性、研究型、创新型的高校,浙大涵盖多个学科门类,在深入了解各学科科研特色、能力和需求后,发现当前校内算力资源不足以满足各类科研需求,不适合用于训练垂直领域大模型相关的科学研究。调研数据表明:有96%的被调查者认为当前算力不能满足或仅能基本满足其科研需求;有95%的被调查者在未来有科研计算需求;有59%的被调查者期望未来以按需租赁的方式获取计算资源,有83%的被调查者愿意将硬件设备托管至学校机房。由此可见,校内算力需求与当前可提供的算力之间存在强烈的供需不平衡。
纳管过程
浙大从2020年起提出校内“众筹式”算力概念,搭建校级众筹智算平台。为加快落实众筹智算平台建设,在学校“十四五”信息化规划的指导下,信息技术中心与计算机辅助设计与图形学(CAD&CG)全国重点实验室合作共建“图形计算集群”,成为首个加入众筹智算平台的院系集群。下面以“图形计算集群”为例,详尽阐述纳管过程,具体包括以下四个方面。
联合运营机制
在学校“十四五”规划指导下,由学校信息化领导小组牵头,信息技术中心作为技术与运营单位,各学院(系)作为众筹成员单位,组成联合运营小组,拟定联合运营草案,对校内众筹式算力建设与运营进行自上而下的顶层设计,提出“数字化运营、高效协作、众筹共享、合作共赢”的运营理念,主要聚焦如何以众筹式算力赋能高校科研团队普惠算力需求。
运营机制主要分为以下部分。首先,针对各众筹成员单位,作为硬件资产拥有者,对自有资源拥有优先使用权,在资源有空闲的情况下授权信息技术中心为校内其他用户提供算力租赁服务。其次,针对信息技术中心,作为统一运营方,通过众筹智算平台纳管计算资源或接管各成员单位原有计算平台,负责硬件侧的故障排查报修、平台侧的运维、科研软件侧的安装调试、用户侧的答疑与培训;同时开发校级智算中心统一门户官网,对接众筹智算平台及各子集群计算平台,完善资源试用、充值缴费、论文奖励申请等审批流程线上化,方便校内师生快速申请资源,减少线下处理时间。最后,在收费方面,运营小组严格遵守浙江大学收费管理小组发布的收费标准,对校内用户收取低于市场价的费用,对资产所属单位用户不收取费用或收取折扣价格。
底层物理硬件纳管
学校从2018年以来,先后引入飞天专有云和弹性公有云,逐步发展成了本地专有云和公有云相结合的混合云模式,为校内各单位提供科研与信息化算力服务。2020年CAD&CG全国重点实验室购置了50台共400张V100计算卡、981TB高性能存储以及576TB的并行存储,信息技术中心通过校内飞天专有云纳管硬件设备。其中,30台计算节点和 981TB高性能存储以8卡裸金属独占节点的方式提供算力服务,另外20台计算节点联合357TB的共享文件存储通过Slurm调度器提供按需使用算力服务。“图形计算集群”于2022年上线为校内师生提供服务,其纳管架构图v1.0如图1所示。
图1 “图形计算集群”纳管架构图v1.0
多种算力服务模式
经过一年多的运营管理,发现智算平台的三处不足。首先,服务类型较少,无法满足校内多种算力需求场景。除个别学院用户有较强Linux功底能使用8卡独占节点外,其余学院用户普遍有单卡按量使用的需求场景,然而平台只提供公共集群调度器的方式,缺少主流的GPU虚拟化技术以及容器化的调度方式。其次,科研软件部署较少,部署运维软件能力欠缺。公共集群只安装了基础AI框架,缺少其他学科计算软件以及在线IDE编译环境,对计算机能力较弱的学科并不友好。最后,计量计费模式与校内使用场景不相符。校内科研场景大多以项目的形式开展,一个导师指导课题组若干学生,导师负责支付算力费用,学生负责使用算力,项目下所有使用资源均应计入项目维度,而平台只在个人维度上计量计费,导致多个学生共用一个导师账号和数据目录,无法组建项目组,与校内实际运营场景不符。
针对上述问题,信息技术中心从2024年开始升级众筹智算平台服务,升级后的平台架构图如图2所示。具体而言,首先,底层纳管计算资源,管理层主要是对集群进行平台部署,实现物理节点、作业、容器实例层面的实时资源监控,通过资源池管理和共享/独占实例分别控制资源访问权限与数据访问权限,提供集群实时运维服务;其次,核心层通过容器引擎和虚机引擎,以透传的方式实现容器或虚拟机对物理GPU的访问,从而池化出1/2/4卡容器化实例或虚拟机实例,另外通过应用仓库与数据仓库,封装多款学科计算软件的容器镜像,并利用WebDAV技术打通用户本地端、平台端和实例内部的数据,方便用户数据的上传和下载;再次,在核心层的基础上,服务层提供基于Slurm调度器的公共集群、容器和虚拟机三种按需使用算力的场景,满足不同学科不同计算机能力的用户算力使用需求;最后,在平台功能模块方面,通过对接统一身份认证实现用户管理统一,通过项目组管理、权限管理、队列管理、应用管理、计量计费管理、配额管理等模块的升级,使平台更加符合校内算力租赁运营场景。
图2 众筹智算平台架构图v2.0
多款学科计算软件
随着AI4S的发展和大模型的兴起,越来越多的传统HPC科学软件逐渐发展为适配GPU计算卡的版本,加快了数据驱动下人工智能在各科学领域的发展进程。在生命科学领域,由DeepMind开发的基于注意力机制深度神经网络的AlphaFold2模型,通过深度学习处理海量数据,已成为蛋白质结构预测的利器。在大规模分子模拟领域,DeePMD将第一性原理计算结果作为训练数据,利用神经网络训练构建势函数已应用于多个实际应用场景中。在数值计算领域,DeepMind提出通过训练一个基于强化学习的智能体AlphaTensor,从而加速许多计算任务的核心——矩阵乘法算法。
以上应用都涉及大规模数据并行计算和模拟实验,对算力和存储需求较高。因此,众筹智算平台需要为力学、物理学、化学、生物学、医学、药学、计算机科学等学科提供各类科学计算软件,从而满足各学科Al for Science相关场景的算力需求。当前众筹智算平台公共集群已内置conda,允许用户自定义Pytorch环境,并安装了AlphaFold2、Gromacs、JupyterLab、LAMMPS、MATLAB、NAMD、Amber、ORCA等多款学科软件。针对开源软件,平台提供安装调试服务,校内用户可共享;针对商业化软件,平台可通过用户提供的许可证,只为该用户/用户组提供应用软件访问权限。
平台成效
截至2024年底,浙大“图形计算集群”已服务260余名用户,覆盖39个学院(系)的95个课题组,累计提供34.5万GPU卡时,运行作业1.76万个,分配计算实例707个,算力平均使用率82.8%,存储使用率34.5%。该集群支撑发表论文103篇,包括Nature系列文章9篇、SCI论文29篇、CCF论文65篇。集群还为智慧校园、智慧教学建设提供算力支持,如为学在浙大和智云课堂搭建语音识别翻译与知识图谱等智能教学工具,为图书馆智能盘点图书机器人提供OCR识别能力等。“图形计算集群”的成功纳管验证了校级众筹式算力建设思路的可行性。后续,信息技术中心成功纳管法学院6张A100 GPU计算卡和20张A10 GPU计算卡,并与地球科学学院、计算机科学与技术学院以及物理学院达成初步众筹纳管意向,预计届时校内众筹式算力将达25000核以上,AI算力峰值达200Pflops(FP16)以上。
校级智算中心建设应本着经济、节能、环保的原则,服务高效科研教育场景,面向全校师生提供普惠算力服务,为各个学科提供基础研究、前沿科学技术研究的高性能计算环境,满足各学科领域对于大规模数据处理、科学计算及大模型训练推理的需求。在校级智算中心建设的起步阶段,众筹现有校内闲置算力是快速满足AI大模型发展背景下各学科井喷式科研算力需求的不二选择。浙江大学众筹智算平台作为校级智算中心的核心组成部分,有力促进校内算力资源的有效整合和高效使用,从整体上提升了学校的科研服务能力,开创了“众筹群智、合作共赢”的高校科研算力服务新范式。
来源:《中国教育网络》2025年2-3月合刊
作者:屠佳琪、张华、常晓洁、王佶(浙江大学信息技术中心)
责编:余秀