本文观点提炼自文章《林新华:AI时代 校级计算平台的可持续发展之路》。上海交通大学网络信息中心副主任林新华指出,AI时代,高校算力需求呈指数级增长,对算力服务质量的要求也同步提高。上海交通大学的校级计算平台“交我算”,历经十余年迭代升级,目前已成为国内高校领先的算力基础设施,其建设与运营的实践经验,也为AI时代高校算力的可持续发展提供了重要参考。

林新华 上海交通大学网络信息中心副主任
高校算力需求的四重变革
宏观层面上,近两年高校算力建设增速相对平缓,整体已从规模扩张转向存量优化。2022年,教育部贴息贷款政策推动高校算力建设热潮;2023至2024年,部分高校转向人工智能产教融合平台建设,算力建设的重心也随之发生转移。
通过对“交我算”平台用户行为的观察,算力需求呈现出四个显著变化:
计算需求双增长:教师对传统科学计算和AI计算的需求均在持续快速增长。
存储需求达饱和:模拟计算数据积累与AI训练对高质量数据集的需求双重叠加,让存储资源的消耗增速超出预期,目前已处于饱和状态。
服务需求全流程:越来越多教师探索AI赋能科研教学,需要平台提供从数据分析、建模到AI应用的全流程专业支持。
认知需求升高度:师生对算力的认同度显著提升,算力已从需要解释重要性的技术工具,转变为科研必备的基础设施。
部分高校信息化部门更名的现象,折射出计算服务重要性的提升——国内高校早期均称“计算中心”,网络兴起后多数更名,仅北京大学三十余年保持“计算中心”不变。以上海交大为例,其算力平台建设历经三个阶段:2012至2013年建成高性能计算平台,2019年新增云计算平台,近年建成校级智算平台。当前平台已形成超算、智算、通算“三算融合”的架构,传统“高性能计算平台”名称已难以准确反映服务范畴,建议更名为“公共算力平台”,其服务范围也从单纯支撑科研,拓展至教学、科研、管理三大领域。
硬件、团队与分配机制的三重保障
“交我算”的硬核实力,体现在硬件配置、人才团队与分配服务机制三个方面,各维度均处于国内高校领先水平。
硬件配置国内领先:平台整合5套核心系统,各系统均有明确建设节点:国内高校最大的云计算平台jCloud2.0(2018年建成)、高性能计算平台π2.0(2019年建成)、人工智能计算平台(2019年建成)、国内首个国产ARM高性能计算平台(2021年建成),以及国内高校最大的高性能计算平台“思源一号”(2021年建成)。平台算力与存力实力突出,超算峰值算力达9.2千万亿次/秒(双精度),通用计算峰值算力达1.1千万亿次/秒(双精度),智能计算峰值算力达7.4亿亿次/秒(半精度),聚合存储总容量达75PB。
人才团队专业精干:平台配备30人的计算服务团队,为国内高校规模最大的计算服务团队,人才梯队建设在国内高校中独具特色。团队中硕士及以上学历者18人,14人毕业于C9高校,为算力服务提供了坚实的人才支撑。
分配机制简洁高效:平台算力分配采用排队制,严格遵循先到先得的原则;算力服务内容也从早期单纯的“帮计算”,升级为“AI for Science”模式,深度推动算力与学科研究的融合发展。
高校算力平台的运营管理之道
林新华表示,国内高校算力平台的运行资金多由学校全额拨付,管理模式则各有不同:部分学校设立独立的高性能计算中心,部分由网络中心负责运营,还有部分由院系承建。
他认为,理想的算力平台运营模式,可参考东京工业大学的过往经验:该校由松岗聪教授这位大牌教授坐镇计算中心,背靠院系、联动各学科,将平台运维与科研工作紧密结合。学生可深度参与跨学科合作,既锻炼了科研能力,也为团队注入新鲜血液,保障团队的创新活力。
但这一模式也存在显著隐患。2018年,松岗聪教授离职并带走团队大部分成员,东京工业大学算力团队人才流失严重,平台实力与影响力快速衰退,校方对算力建设的支持力度也随之锐减。这一现象也印证了算力平台可持续发展的复杂性,单纯依赖核心专家的运营模式存在明显的人才风险。
算力平台可持续发展的核心策略
谈及算力平台的可持续发展,林新华结合实践提出了多项关键策略,从建设布局、技术创新、运营理念到价值实现形成完整体系。
按需建设:本地算力部署的合理性
政策层面虽收紧中小型算力平台建设,避免低水平重复建设导致的资源利用率不高,但本地部署算力仍有现实必要性。学校的财务、审计、学生数据等敏感信息不能离校,本地化AI算力部署,是实现AI赋能校内业务管理系统的重要前提。
技术创新:破解算力闲置难题
AI推理场景的用户行为,与超算、云计算存在明显差异。基于交大本地DeepSeek服务24小时监控数据,AI推理的使用量有显著昼夜差别,晚上11点后使用曲线趋于平缓,从夜间12点到次日早上8点的8小时内,算力处于完全闲置状态。
针对这一问题,可采用“昼推夜训”的技术方案:夜间12点前卸载大部分推理服务镜像,切换为训练服务镜像;早上8点再换回推理镜像,以此充分利用闲置算力,大幅提升资源利用率。
运维优先:筑牢可持续发展根基
林新华强调,建算力是当下的热点,但管算力更重要,算力运维运营的重要性远超建设,就像养育孩子,“三分靠生,七分靠养。”只建不管的算力平台,就像印度买了先进飞机却无法形成战力。平台运营需要制度、人才、硬件、系统的全方位保障,这也是当前高校算力建设面临的最大挑战。
价值导向:两条路径实现可持续发展
要实现算力平台可持续发展,核心是让投入产出可见、可衡量,算力中心负责人首要思考如何获得持续的资金投入,让校领导看到算力投入的实际价值。林新华提出两条可行路径:
一是聚焦校内,服务师生,全力满足校内师生需求,让平台易用、好用,让校领导直观看到算力投入对全校教学、科研的实际价值;二是将平台建成具有国际影响力的标杆,成为学校的一张亮眼名片。
总结
从“三算融合”的架构搭建,到“昼推夜训”的技术创新,再到“运维优先”的发展理念,上海交大“交我算”平台十余年的建设与运营实践,形成了一套可落地、可参考的高校算力建设方案。其从需求出发、以运维为核心、以价值为导向的发展思路,为国内高校算力基础设施的可持续建设提供了宝贵参考。
《林新华:AI时代 校级计算平台的可持续发展之路》原载于2025年6月30日。责编:施馨然