
林新华 上海交通大学网络信息中心副主任
上海交通大学校级计算平台“交我算”由网络信息中心负责建设和管理,经过十余年的持续投入与迭代升级,已发展成为国内高校领先的算力基础设施,为学校教学、科研与管理提供全方位支撑。“在AI时代,学校不仅面临算力需求的指数级增长,更对算力服务质量提出了更高标准。因此要实现平台的可持续发展,就要不断创新、与时俱进,提供数量充足、品质上乘的算力服务。”上海交通大学网络信息中心副主任林新华强调。
AI时代,高校的算力变化
《中国教育网络》:AI时代,高校对算力的需求和从前相比有哪些变化?
林新华:从宏观层面看,虽然AI技术发展迅猛,但近两年高校算力建设增速相对平缓。近年来,尽管AI技术有所突破,但高校算力建设的增速并未显著提升。2022年9月,教育部出台政策扩大教育投资,通过贴息贷款重点支持高校教学科研设备购置,推动了算力建设热潮。2023年~2024年,部分高校转向人工智能产教融合平台建设。此后,高校算力建设重点从规模扩张转向存量优化。
通过观察“交我算”平台的用户行为,我们发现四个显著变化:其一,教师对传统科学计算和AI计算的需求持续快速增长;其二,存储需求增速超预期,这源于模拟计算数据积累和AI训练对高质量数据集的需求双重叠加,目前存储资源已达饱和;其三,越来越多的教师探索AI赋能科研教学,要求平台提供从数据分析、建模到AI应用的全流程专业支持;其四,师生对算力的认同度显著提升,从需要解释算力的重要性到成为科研必备基础设施的共识转变。
《中国教育网络》:最近,我们观察到有些高校的信息化部门改名了,比如从信息网络中心改成数智化与计算中心。从这种现象来看,您认为信息化部门在学校的角色、定位是否有了比较大的变化?
林新华:这是一个特别有意思的话题,名称变化折射出计算服务的重要性提升。我做报告时会在开场时开玩笑,说我来自上海交大网络信息中心,但我既不做网络,也不做信息,我在中心里做计算。我和北京大学计算中心的老师说,还是北大高瞻远瞩。最早国内高校的网络中心都叫“计算中心”——北大计算中心、交大计算中心。90年代初,网络兴起的时候大家都改名了,那会儿网络可比计算时髦多了,就像现在AI最时髦一样。而只有北大这三十几年都没变过,一直是计算中心。
我们学校算力平台的建设经历了几个发展阶段。2012年~2013年,学校成立高性能计算中心,建设了高性能计算平台。2019年,又建设了云平台,于是算力平台里就新增了通算。去年底,我们招标建设了校级智算平台。当前,平台已形成超算、智算、通算“三算融合”架构。传统的“高性能计算平台”名称已不能准确反映服务范畴,建议更名为“公共算力平台”。从服务范围看,平台已从单纯支持科研扩展到全面支撑教学、科研和管理三大领域,影响力持续扩大。
算力平台的规模和机制
《中国教育网络》:从硬件、团队和服务内容三个方面来看,上海交通大学算力平台的规模是什么样的?算力分配机制是什么样的?
林新华:从硬件条件来看,“交我算”目前包括5套系统:国内高校最大的云计算平台jCloud2.0(2018年建成)、高性能计算平台π2.0(2019年建成)、人工智能计算平台(2019年建成)、国内高校首个国产ARM高性能计算平台(2021年建成)、国内高校最大的高性能计算平台“思源一号”(2021年建成)。根据统计,超算峰值算力达到9.2千万亿次/秒(双精度),通用计算峰值算力达到1.1千万亿次/秒(双精度),智能计算峰值算力达到7.4亿亿次/秒(半精度),聚合存储总容量达到75PB,算力和存力的能力处于国内高校领先地位。
上交大高性能计算平台π2.0(2019年建成)
国内高校最大的高性能计算平台“思源一号”(2021年建成)
要提供高质量的算力服务,唯有依靠高质量的人才队伍。网络信息中心建设了一支由30人组成的国内高校最大的计算服务团队,其中硕士及以上学历18人,14人毕业于C9高校,为学校的管理、科研、教学保驾护航。这一团队规模和人才梯队建设在国内高校中可以说是独具特色的。
用户服务方面,我们一直在做算力与学科紧密融合的工作。从前我们主要帮老师做计算,现在是AI for Science。算力分配机制是排队制,在提出申请之后就开始排队,先到先得。
《中国教育网络》:一般来说,高校算力平台有哪些不同的运营、管理模式?您认为最好的模式是什么样的?
林新华:据我了解,很多学校算力平台的运行资金都是由学校全额拨付。管理模式各学校有所不同。有的学校设立了独立的高性能计算中心,有的学校高性能计算中心由网络中心承担运行职责,有的学校由院系来承建高性能计算中心。
虽然我们的运维和服务在国际上算是不错的,但在科研、高水平人才培养方面尚未形成很好的环路。在我心目中,最理想的模式是东京工业大学以前的算力服务模式。松岗聪教授是一位大牌教授,人在计算中心,背靠计算机系,与学校各学科用户都保持着紧密联系。在各种跨学科的合作中,学生的科研能力和素养都得到了很好的锻炼。在这种模式下,平台的运维与科研紧密结合在一起,一批又一批的学生就像源源不断的新鲜血液进入团队,这种机制也让团队始终保持创新性和活力。
然而,再好的模式也无法保证一定能可持续发展。2018年,松岗聪教授离开东京工业大学去了日本理化研究所计算科学中心任职,陆续将团队的大部分人都带走了。此后,东京工业大学高性能计算的实力和影响力快速衰退,甚至校方都不再将高性能计算视为学校的一张名片。2020年之后,学校提出原先在主校区的超算中心不仅占地方还费电,要求迁移到另一个较为偏远的校区。然而费电、地方不够难道是才发现的吗?无非是大牌教授走后,学校不愿意再把超算当成重点发展方向,不再投入更多资源,支持力度自然也就越来越小了。
促进算力服务的可持续发展
《中国教育网络》:在人工智能融入高等教育的趋势之下,您认为是否所有的高校都有算力建设的需求?随着技术的进步,未来对算力的需求还会出现哪些变化?如何应对这种变化?
林新华:政策层面上,中小型算力平台的建设有所收紧,因为低水平重复建设会导致利用率不高。然而在实际操作层面,学校本地部署算力还是有必要的。原因就在于要解决数据隐私的问题。学校的敏感数据不能离校,比如财务数据、审计数据、学生数据无法在公有云上训练,那又如何让AI赋能业务管理系统?从这一点来看,本地算力需求肯定是存在的,小规模本地化AI算力部署是有合理性的。
至于未来的发展方向,特别遥远的未来我们看不清,只能谈一谈我目前的一些想法。
在本地化部署AI算力,提供大模型推理服务后,我们面临一个新的技术挑战:AI推理场景的用户行为与超算、云计算完全不同。对于超算、云计算,白天和夜晚的使用是一致的,计算不停歇、服务器不停歇,从早到晚的使用率曲线保持一致。然而AI推理场景出现了很明显的昼夜差别。这是因为使用AI推理场景的用户晚上睡觉了,推理使用也就停止了。这一点可以从我们交大本地DeepSeek服务监控数据看出来:24小时监控曲线显示,晚上11点以后曲线呈平缓直线,而早上8点之后人们上班了,曲线又开始爬升。从夜晚12点至早上8点,相当于一天当中有三分之一的时间,算力是闲置的。这也就相当于花3000元买东西,其实就用了2000元,还有1000元没用上。
上海交通大学本地DeepSeek服务监控数据图
对于这种情况有没有办法用技术解决?实际上,有一种技术叫“昼推夜训”。也就是说,我们可以在晚上12点前将大部分的推理服务镜像卸载下来,换成训练服务镜像。到了早上8点,再把训练服务镜像换下来,换回推理服务镜像,这样就能充分利用原本闲置的8个小时AI算力了。
《中国教育网络》:很多学校都在发展算力服务,您认为首先应该有哪些关键的认识?高校算力的发展面临哪些挑战?您认为应该如何促进高校算力平台的可持续发展?
林新华:在我看来,建算力是现在的热点,但管算力却没有引起足够的重视。就像孩子一样,三分生,七分养。算力运维运营其实比建算力更为重要。我想引用北京大学樊春老师的一个比喻:如果把建算力看成买飞机,就像印度一样,只有先进的飞机却无法形成先进战力。实际上,高校的算力平台要想运营得好,需要从制度、人、硬件、系统等体制机制上全面保障,这才是我们面临的最大挑战。
我认为高校的算力平台要想可持续发展,就要让人们能够看到回报。校领导在做决策的时候都会考虑,这笔钱投进去是否值得?算力中心的负责人首先要考虑这个问题:如何获得第二笔资金?如何让领导觉得这笔资金花得值,还愿意持续投入?只要想清楚这个问题,就能抓住最根本的矛盾,就有望解决可持续发展的问题。对此,我觉得至少有两种做法可以参考。
第一种做法就是我们的做法——服务聚焦校内,让用户满意。我们全力满足用户需求,让所有老师和学生都觉得这个平台很方便、很好用。从我们学校的体量而言,校领导会觉得投入这笔资金能让全校师生都受益,能出成果,那就是花得值。
另一种做法就是像从前的东京工业大学那样,算力平台不仅满足校内用户的需求,更像是学校的一张名片,甚至具有国际级的影响力。这种情况下,算力平台自然也能实现可持续发展。
来源:《中国教育网络》2025年5月刊
撰文:陈茜