
姚舸 南京大学e-Science中心负责人、信息化中心副主任
高质量开源AI模型的出现,使高校能够实现本地化部署AI服务,并显著提升了部署后的服务能力。在原先超算需求持续增长的基础上,AI应用场景与用户群体大幅扩展,算力部署和使用模式发生转变。南京大学e-Science中心负责人、信息化中心副主任姚舸强调了AI算力建设亟需提升配套的服务水平和运营模式,建立合理的收费模式能够更高效更公平地实现资源分配,让算力像上网一样。不同于超算算力,高校AI算力和社会算力已拉开差距,他建议采取混合式部署方式,寻求校地合作机会,以降低成本。
开源驱动高校AI算力变革
《中国教育网络》:今年2月深度求索公司发布DeepSeek,各高校纷纷部署“满血版”DeepSeek。在大模型推动算力需求指数级增长的背景下,您认为高校算力建设和服务正在经历哪些变革?
姚舸:高校提供算力服务已有超过二十年历史。以前算力虽然面向全校开放,但主要服务于有计算需求的课题组,这样的用户大约只占全校师生的10%。传统高性能计算(HPC)需求仍在随着科研进展持续攀升,AI算力是在此基础上新增的服务。此前OpenAI、Google、Anthropic等提供的AI模型都是闭源的,学校无法本地部署,只能各课题组自行使用。这种情况下,学校AI算力的发展空间有限。
直到今年DeepSeek、千问等开源模型崛起,其性能不逊色于顶尖的闭源模型,同时开源模型正在不断降低本地部署的硬件要求,高校算力建设迎来了根本性的转变。
一是应用场景与用户群体大幅扩展。不同于 HPC主要服务少数计算课题组,用户专业程度相对较高。AI推理服务已成为全校师生的普遍需求,AI渗透至教学、科研、管理等多个方面,几乎扩展到所有学科,同时服务对象的专业门槛大大降低。
二是部署和使用模式发生转变。传统HPC管理重点关注集群、并行文件系统、调度器、编译器和库等基础支撑环境,以及常用软件、文档的建设和维护,用户可自行编译安装软件,自助使用集群。而AI时代则要求集群统一部署一系列开源模型并提供API接口。原先集群需要安装成百上千种专业软件,现在转变为集中本地部署数量有限的主流开源模型。另外在硬件方面,HPC的计算以CPU/GPU为主,AI推理则是以GPU/NPU为主。管理人员需要掌握新的技术知识,以适应算力部署和使用模式的转变。
三是AI算力投入规模更大、更难预测,且投入产出比难以衡量。过去HPC的用户数量较少,且多集中于少数优势学科,这些“头部用户”往往占据了大多数计算机时。学校可以根据优势学科或者核心用户的需求,有针对性地配置资源。
然而,AI推理服务面向全校师生,用户群体广泛而分散,绝大多数用户的计算需求较小,头部用户不多。这种需求分布的变化使得资源规划变得困难,决策者难以准确判断应建设多大规模的算力集群。过去,投入几千万建设高校超算集群,将是很大的规模;而现在,动辄上亿的AI算力集群已不少见。
在巨额投入的同时,投入产出比却很难衡量。对于算力建设和服务部门而言,论证投入的合理性面临挑战。超算集群可以通过科研论文致谢、重点项目支持等显性成果体现价值;而AI服务作为一种基础性支撑服务,融入日常教学、科研和管理之中,其产出往往是隐性的,难以用具体成果来直接量化回报。
让算力像上网一样
《中国教育网络》:与超算相比,AI时代的算力需要突破哪些技术或理念瓶颈?
姚舸:AI时代的算力不仅需要实现硬件和技术层面的转变,更需要建立与之配套的服务体系和运营模式,推动高校算力建设迈入新阶段。
第一,算力服务的收费模式是一个值得探讨的话题。AI算力集群的建设成本高昂,一个投入数亿元建设的AI集群,其算力资源很可能在短时间内就被耗尽,后续还要持续扩容,在当前的经济环境下,这对高校而言是一项不小的压力。在此背景下,如何公平、高效地分配算力资源,成为亟需解决的问题。完全免费可能会导致资源滥用或浪费,就像教室里的公共用电容易出现浪费情况一样。
个人认为,可以参考校园网络服务的演进历程,设置基本免费额度,为每位师生提供一定额度的免费Token或免费算力金额,确保每位师生都能享受到基础服务;对超额使用的部分按量计费,强化成本意识,减少资源浪费。此外,可根据模型规模差异进行差异化定价,因为大模型的推理成本更高,小模型推理则相对低廉。合理的收费模式不仅能够保障资源分配的公平性,还能有效调节供需关系,促进算力资源的高效利用。
长远来看,算力服务逐步成为如同网络和水电一样的校园关键基础设施。合理的收费模式有助于推动算力资源的普惠性应用,让算力像上网一样惠及全体师生。
第二,算力服务水平亟需提升。在面向全校提 AI算力服务的过程中,如何服务好多样化的用户群体,成为一项重要挑战。过去,超算服务主要面向少数专业科研团队,用户具备较高技术水平,新用户往往先由课题组内的师兄师姐指导,技术支持压力小。然而,AI服务发展迅速且覆盖范围广泛,用户群体包括大量缺乏技术背景的师生,他们对技术支持的需求显著增加。而且AI算力服务涉及提示词、RAG、API集成等各个方面,对技术支持的要求更高。尽管可以通过开发智能体等方式提供自助式服务,来缓解部分服务压力,但整体来看,算力服务的难度提高,对算力服务人员专业能力要求也大幅提升。
第三,算力服务人才队伍建设面临挑战。高校不仅需要提升现有算力队伍的服务水平,还需扩大团队规模,以匹配持续增长的服务需求。这在当前高校信息化人才普遍紧张的背景下,无疑是一个现实难题。除上交大等极少数高校以外,大多数高校的HPC/AI团队人数长年维持在个位数,这样的规模远远不足以应对日益增长的HPC/AI算力服务需求。
科学合理的非教学科研岗人员配置是高校高质量发展的关键支撑要素。将仪器设备管理、代码编写优化、行政事务等交由专业人员处理,使教师能够专注于教学、科研核心任务。在高校加速AI的深度应用、推进数字化转型的背景下,亟需建设一支专业的实验技术人才队伍,为学校的创新发展提供坚实保障。
另外,随着高校内AI算力服务的普及,数据安全风险不断增加。我们可以看到一个趋势,各课题组纷纷建设小的集群,搭建小型AI平台,很多学生普遍自费购买校外商业AI算力资源来满足学习需要,甚至行政管理人员在撰写总结和材料时也可能使用商业AI服务。分散的算力使用情况带来了涉密数据传输出校的潜在风险。尽管学校可以通过教育培训提升师生的安全意识,但从技术层面难以管控数据安全。
人人都会做智能体
《中国教育网络》:在AI大模型浪潮下,高校的算力发展情况如何?学校在算力基建与运营模式上有哪些创新突破?
姚舸:高校AI算力相较于社会上的商业AI算力存在显著差距,高校既没有掌握大量数据资源,也缺乏充足的计算资源。这种与社会的差距在以往HPC算力领域并不明显,因为HPC服务本身面向小众用户,商业资本对该领域的投资兴趣有限。高校自建的AI服务与商业 AI服务相比,本地部署的模型功能如RAG知识库支持、联网搜索、文件解析等,都较为基础。
高校本地化部署AI模型主要出于两点考虑:一是提供稳定的校内AI推理服务,弥补外部服务的中断和卡顿;二是处理不易出校的数据。例如,南大开发的“小蓝鲸智能助手”将办事指南等校内资料通过RAG技术整合进AI助手,使其能够回答各类事务性问题,为师生提供便捷的智能问答服务。
由于本地算力资源有限,在实际部署中,我们采用的是混合模式,一些较小规模的基础模型部署在本地,部分复杂程度高的服务则依托云端算力。现阶段这些AI服务均免费提供,主要用于回答校内师生普遍的基础问题。
《中国教育网络》:高校算力建设和服务有什么发展目标?
姚舸:我认为高校AI建设和普及的目标是“人人都会做智能体”。当前AI技术已成为国家战略和教育发展的新趋势,AI能力不能仅由少数技术人员开发供师生使用,而应成为每位师生日常学习与工作的基本工具,掌握AI应用技能将成为像电脑打字一样的必备技能。
真正的普及体现在每位师生都会自主构建自己的AI智能体。比如在某一领域有专长的教师或学生,可以将其知识整理成资料库,开发出AI智能体,供全校师生及全社会使用。简单的对话交互只是AI的基础应用,更高阶的方向是将AI与各类系统集成,完成复杂任务。
构建“人人参与、人人创造”的AI应用生态,才是高校AI平台发展的方向。
《中国教育网络》:对于资源相对有限的高校,您建议通过哪些低成本高弹性的方案构建AI算力基座?
姚舸:当前高校部署AI算力服务并不存在根本性的技术瓶颈,在实际操作中,资源整合仍是主要障碍。以南大为例,目前学校公共计算平台以CPU为主,GPU极为匮乏且分散在各课题组,这远不能满足全校日益增长的AI使用需求。与超算相比,AI推理服务具有更好的平台兼容性。用户只需通过标准API接口即可调用模型服务,无需关心底层软硬件架构,这为整合多方资源提供了便利。在这种情况下,混合部署模式是一个现实可行的选择,即在利用和扩充校内算力资源的基础上,积极引入社会上的算力资源。
除了社会上的商业算力资源以外,还可以考虑与地方政府建设的各类计算中心建立合作关系,把空闲的算力资源引入学校。近年来,各地政府建设了大量计算中心,但由于此前优质AI模型多为闭源,只能购买服务而无法本地部署,这些计算中心的计算集群的利用程度可能并不充分。现在随着DeepSeek、千问等高质量开源模型的出现,本地部署成为可能,也为这些社会算力资源提供了新的应用场景。
学校可以与本地的计算中心达成合作协议,统一采购,将资源分发给师生,这样不仅降低了学校的硬件投入和运维成本,也能让政府前期投资的算力设施发挥更大效益。
来源:《中国教育网络》2025年5月刊
撰文:余秀