AI时代,高校对算力的需求发生了明显的变化。随着AI技术的不断创新和应用,高校算力需求急剧增长,人工智能算力可能会逐渐成为主导性算力。
作为科研和学术创新的重要场所,高校是AI技术创新和应用的重要阵地,高校开展AI驱动的科研范式变革、教学模式创新、或进行校园管理和公共服务的智能化升级,均离不开强大算力的支持。强大的算力能够助力师生深入探索科研与学术创新,如高效执行大规模数据处理、复杂模型训练及高精度模拟实验等任务,使他们在校园内就能将理论构想转化为科研成果。算力也可以用于支持虚拟实验室、在线课程和模拟训练等教学活动,为学生提供更丰富的学习体验和实践机会。
高校算力平台运营机制
人工智能时代,校级高算平台已发展成为高校科技创新和学科交叉的重要平台。
科研创新方面,校级高算平台不仅为学校科研人员提供强大的计算资源,还努力提供融合计算机科学与计算科学的优质服务模式,让算力服务充分支撑科研开展,降低科研团队计算难度,使其将精力专注于科研创新,从而加快学校科研进展。
教学与人才培养方面,校级高算平台为学生提供实训机会和实训环境,帮助他们理解和掌握先进的HPC和AI计算技术和方法,获得宝贵的实践经验,提升学生的创新能力和解决问题的能力。
此外,校级AI大模型平台和AI应用底座建设可将教育场景与大模型结合,使人工智能技术能够深度融入学校治理,并通过同步开放AI接口的方式,让部门和教师根据业务和研究需要创建、微调专属的AI应用。
以中国农业大学为例,农大算力有三个方面的来源,包括校级平台算力、重点实验室算力、院系或师生自建的小算力。
1 校级高算平台具有双精度浮点算力1178 TFlops、存储裸容量6.7PB、存储聚合读写带宽60GB、计算节点100Gb高速互联能力,面向全校师生开放服务,可满足多个课题组同时在线提交HPC和AI智算作业,并按需分配计算和存储资源。
2 重点实验室专项算力依托国家级、省部级专项科研建设经费。现有涿州大设施及玉米中心两个重点实验室自行建设完成两个产教融合计算平台,它们主要面向重点开放实验室内师生提供计算服务,在设备空闲的时候,也有偿向校内外其他师生提供少量计算服务。
3 院系师生自建的小规模集群算力,通常依托课题组老师科研经费,或院系自筹的建设经费建设,规模很小,主要用于教师团队小计算任务的执行。
校级高算平台由中国农业大学智算中心(隶属于信息化部门)负责建设及运维管理。目前运维核心团队主要由2名兼职教师组成,承担平台建设规划、系统部署、故障排查、用户服务等关键工作,保障平台稳定运行。平台招聘2名助管研究生协助开展文档整理、微信群日常答疑等辅助性事务。此外,网络部和客服部老师也按需参与少量的日常管理琐碎工作。通过合理分工与紧密协作,形成了高效的运营机制,以弥补管理人员紧缺问题。随着平台服务范围拓展与业务复杂度提升,未来将争取机会进一步优化团队配置,引入更多专业人才,以更好地支撑平台在科研创新、人才培养等领域持续发挥重要作用。
重点实验室专项算力或院系师生自建的小规模算力目前主要由实验室团队负责运维,校级平台协助提供技术支持。校级平台以开放共享、合作共赢的姿态,欢迎实验室或院系平台纳入校级平台统一管理。
不同高校有不同的算力需求和管理机制
不同类型的高校对算力的需求差异较大。研究型大学通常拥有更多和更复杂的科研任务,需要进行大规模的数据分析、开展模拟实验和高级算法研究,因此对算力的要求最高。教学研究型大学在科研和教学两方面都有较高要求,需要足够算力来支持教学个性化、管理信息化以及科研项目的计算需求。应用型大学则主要侧重于应用技术和职业技能培训,对算力的需求相对较低,主要集中在基础教学和学校信息管理上。一般而言,理工科高校的算力需求比文科学校更高;基础研究学科的HPC计算占比则相较工科、艺术院校和文科学校偏高。
目前所有高校均有算力需求。对于缺乏自建能力的高校,可融入国家或区域算力网络,按需购买算力服务;或与企业合作,通过校企共建平台获取云算力;或在联合科研项目中与牵头单位协商共享算力设施。同时,按需在校内部署轻量边缘计算节点,处理本地实时数据。
概括而言,高校中管理校级算力平台的部门有三类。第一类,由信息化技术中心建设管理,这是较多高校采用的模式,上海交通大学、中国科学技术大学、北京航空航天大学、中国农业大学、华南理工大学、中南大学等均采用这种模式。第二类,由学校国有资产管理部门,或仪器设备管理部门,或仪器设备管理部门与信息化部门联合管理,比如北京大学、北京师范大学、北京理工大学、西湖大学、北京工业大学等高校。第三类则是由计算机学院,或人工智能学院负责建设管理部门,比如清华大学、人民大学、华北电力大学(北京)等。站在校级服务角度,以及综合技术能力角度,第一类可能更适用于大部分高校。
运营资金方面,校级算力平台建设经费主要依赖于学校的专项建设经费,而系统的日常运维成本,如办公、人力、维保等经费,则由校级算力平台所收取的机时费、存储费和管理费等收入支付。
资源调度方面,校级算力平台一般遵循资源公平合理分配、算力最大化利用和用户优先级调整相结合的高效资源配置调度模式。平台初始设置用户均有相等的机会获得算力资源,并综合考虑平台内资源类型、数量、配置,以及用户实际需求调研等因素,合理设置计算队列作业默认运行时长、最大运行时长、单用户最大运行作业数量、单用户最大提交作业数量等信息。在此基础上,根据项目重要程度及作业紧急程度,根据师生的申请,管理员按需临时调整资源调度分配策略和用户优先级。该机制既保障了基础使用的公平性,又能集中资源支持重点科研任务,平衡不同学科、团队的需求,从而提升平台效率。
服务内容方面,除了机房基础设施、平台软硬件、管理调度系统的日常运维管理外,管理员的工作包括:定期举办专题讲座,提升用户计算能力,开阔用户视野;搭建在线知识库,方便用户快速检索操作指南;开通7×24小时微信服务群,用户有问题随时提问,老师和助管研究生第一时间解决问题;协助用户排查作业问题、调优运算脚本;深入学科,完成专业计算软件的编译部署和帮助文档撰写,便捷用户计算等。目前,中国农业大学正在筹划建设教学实训计算平台,以拓展平台的功能,在支持科研的同时,支撑创新型人才的培养。
算力使用情况方面,不同学校的学科、算力规模、服务能力、师生计算需求等均存在差异,故其算力使用也有所差别。一般而言,因学期初科研任务集中,使用率攀升。在毕业季或长假前,使用率则有所回落。中国农业大学校级高算平台目前HPC计算量大于AI计算量,这与农大基础研究学科较多相关,其HPC计算节点整体利用率介于60%~95%,GPU卡使用率则在40%~80%区间浮动。
高校发展算力服务的关键认识
首先,高校需要充分认识算力服务的重要性,并将其纳入学校发展的核心战略。在AI技术迅猛发展的时代背景下,算力资源是支撑科研创新和人才培养的重要基础设施。高校算力资源短缺将会限制学生的实践能力和创新能力,影响教学和科研的深入发展,也关系到AI技术在教育领域的广泛应用,且随着人工智能和大数据技术的发展,高校对算力的需求也在不断增长。
算力服务技术与高校信息化部门已有技能储备之间存在着很大的差异,团队上手及深入掌握存在很高的门槛。因此,为提升校级高算平台服务全校各学科、支撑学校高水平科研工作和人才培养的能力,进一步激发智算服务支撑工作者的积极性、主动性、创造性、稳定性,打造一支同一流大学建设相适应的高水平智算支撑队伍,有必要制定相应的人员及配套激励政策。
最后,高校应持续提升校内算力管理效率。聚焦用户需求,针对科研、教学、产业等不同场景需求,制定差异化服务策略,兼顾公平与效率。推进资源统筹,整合校内分散算力,通过校级平台实现统一管理,避免重复建设,提高资源利用率,更好地发挥规模效应。构建协同生态,与企业合作引入前沿技术,开设相关课程培养专业人才,建立完善的使用规范与管理制度。筑牢安全防线,对数据进行分级管理,实施访问控制等技术保障数据安全,建立容灾备份与应急机制,确保数据安全与任务连续性。此外,按需调整校级高算的各类奖励政策,加大对校级平台产出成果的奖励制度。
高校算力平台面临的挑战
高校算力平台在建设、运行和发展中面临资金投入不足、人才队伍建设不足、基础设施建设能力不足、尚未实现统管统建和共享机制、AI和数据安全面临严重挑战、算力结构需要优化等多重挑战。
资金方面,算力平台的建设和维护需要大量的资金,包括高性能计算设备、存储设备、计算网络、管理系统、以及配套机房设施及后续的维保支持等。由于资金投入不足,许多高校在建设时依据的标准并不高,后期的运维管理也存在很多限制。
人才队伍建设方面,高校从事算力服务的人员在专业上的引领能力普遍偏弱,在算力运维服务、安全服务、容量规划、机房建设、冗余容灾等方面的工作能力与学校实际需求存在一定差距;面对院系教师提出的新科研场景需求,超算中心现有的能力经常难以应对或服务不及时;运维团队人数往往偏少,且缺少与学科交叉的计算人才,通常只能实现基础的系统运维,无法深入学科计算支持。
基础设施建设方面,机房基础设施建设规划保守或投入不足,导致机房电力及制冷等条件无法承载智算平台的扩展需求。
统管统建和共享机制尚未实现。校内分散建设大量计算平台,存在难以共享计算资源、利用率低、规模较小;缺乏专用机房环境,能耗故障率高;没有运维人员岗位编制,水平参差不齐,安全容易被忽略等问题。
数据安全挑战。算力平台的安全管理机制仍不完善,行业缺少统一的算力安全标准,数据安全风险高,AI安全防护技术暂时滞后于AI的发展,由此引发的敏感信息泄露、供应链安全、数据和模型投毒、不当输出处理等风险的自动化发现和防范保障机制有待加强。
算力结构优化需求方面,很多高校的超算和智算中心是分别建立的,而当前有很多科研项目既需要超算算力,又需要智算算力,从应用的需求上看需要将这两种算力更好地融合成为统一的算力中心。
针对如上问题,可采取多元措施。具体而言,学校充分重视算力建设,在建设经费、人员投入和制度制定上给予大力支持和政策倾斜。校级算力平台可向浙大学习,积极推进校内“众筹式”算力建设,通过整合校内各分散集群,搭建校级众筹智算平台,统一纳管、运营与维护算力,降低科研成本,加强学科建设。在资源分配上建立动态评估机制,按“均配额,优级先”的原则,进行学科和项目动态调配,在保证公平的基础上大力支持重点项目的任务推进。在技术方面,与企业或其他高校合作引入成熟方案,联合研发创新,加大创新型人才培养的支撑力度。在管理上,明确职责,建立跨部门沟通机制,推动产学研融合。在安全防护方面,加大技术投入,部署防护系统,通过加密技术、访问控制和安全监测,保障数据安全隐私,完善管理制度,强化人员培训,保障平台安全高效运行。
构建良好的高校算力生态
高校算力生态是指高校在科学研究、教学和管理中,围绕算力基础设施建设,融合技术平台、应用场景、人才培养、管理政策、校企联动等要素的协同体系。
基础设施方面,主要包括高性能计算集群、云计算平台、边缘计算设备等,这些基础设施为高校提供了强大的算力支持。目前高校算力正加速构建涵盖国产算力、通用算力的多元化异构算力平台,增强自主可控布局。
技术平台方面,涵盖了数据处理技术、网络架构、算法优化等,这些技术平台通过优化资源配置和提升计算效率,向智能化和自动化的方向推进。
应用场景方面,算力生态的应用场景广泛,包括科研场景突破、教学场景重构、大数据分析、产业教育等,这些应用场景的跨学科融合创新及多样化需求推动了算力生态的不断完善和发展。
人才培养方面,通过智能实训平台和虚拟实验平台,提升学生实践能力;通过校企合作建立实训基地,实现学研用一体化;通过跨学科课程设置,培养复合型人才;应用AI教学评价体系,发挥算力在教师教学能力提升中的促进作用。
构建良好的高校算力生态可从三个方面着手。
一是整合资源,筑牢根基。统筹校内分散算力,搭建统一管理平台,实现资源动态调配;通过财政拨款、校企合作等多元渠道筹集资金,持续升级软硬件设施,满足科研教学需求。
二是技术创新,驱动发展。整合异构计算架构、算法优化、模型压缩等技术突破,提升算力利用效率与智能化水平,实现算力密度与能效比的阶梯式提升。融合大数据处理、分析和存储技术,深入学科应用,催生新型服务范式。与科技企业、科研机构合作,引入前沿技术;鼓励高校团队开展算力技术研发,推动成果转化。
三是培育人才,注入活力。将计算知识融入学科课程体系,设立实训平台与科研项目,提升学生实践能力;与学校科研团队合作,培养既懂计算技术又熟悉学科需求的复合型运维人才。
促进高校算力平台的可持续发展
随着技术进步,未来算力需求可能呈现三大变化趋势:AI大模型训练、数字孪生、具身智能等场景推动算力需求快速增长;需求结构向“云边端协同”演变,边缘计算处理实时数据,云端支撑复杂计算;需求特性趋向低碳算力与智能调度。
高校可采取以下措施应对算力增长需求:通过多元渠道筹措资金,引入企业/科研团队共建的模式,按需动态扩容算力设施。构建“云-边-端”一体化算力架构,在校内部署边缘计算节点处理本地数据,复杂任务上传云端。采用液冷技术降低能耗,同时部署智能调度系统,基于任务急缓、项目重要性划分优先级与资源负载动态分配。
可以通过以下策略促进高校算力平台可持续发展。在资源层面,建立共享机制,打破算力孤岛,推动校内院系、校际间算力资源互通,提高利用率。在技术层面,与企业、科研机构合作,紧跟智算前沿技术,保持平台竞争力。在服务层面,秉承服务至上的服务理念,提供相较校外平台更优的服务体验,例如建设校级高算平台服务群,实现用户不明白就问,管理员在线随时诊断和解决问题,为师生提供及时到位的计算支撑;有针对性地开展各类主题培训,提供完备的用户培训和使用文档;通过走出去、请进来的方式,邀请校外专家为同学们开展高算技术讲座,开拓用户视野,通过用心服务,让师生认可并选择使用校级高算。
来源:《中国教育网络》2025年5月刊
作者:劳凤丹、周金波、理苏磊(中国农业大学网络技术中心)
责编:陈茜