
樊春 北京大学计算中心系统管理室主任
近几年随着AI计算的飞速发展,越来越多的高校在学校超算平台中增加智算集群。当前高校算力建设的整体趋势是,通算、超算两种算力平稳发展,智算算力异军突起。AI对算力的计算规模和速度要求更高,算力规模越大,人工智能模型就越“聪明”。北京大学计算中心系统管理室主任樊春分享了学校智算算力的主要需求和资源分配思路,介绍了学校在算力基建和管理上的创新和突破。他建议要降低智算建设成本,重要的是做好需求细分。
智算异军突起
《中国教育网络》:今年2月深度求索公司发布DeepSeek,各高校纷纷接入“满血版”DeepSeek。在大模型推动算力需求指数级增长的背景下,您认为高校算力建设和服务正在经历哪些变革?您怎么看待高校算力建设和服务的发展趋势和未来方向?
樊春:目前高校算力建设分为三类:通算、超算和智算。
超算是最早出现的,第一台电子计算机的诞生就是为了满足弹道计算、密码破译等军事需求,后来运用到天气预报、航空航天和新能源新材料等领域。超算以解决复杂科学计算问题为导向,我们常见的汽车、飞机、轮船乃至火箭的设计研发,背后离不开超算技术的支持。高校超算一般服务于科研,比如材料、化学、医药等领域的科学研究。
直到计算机逐渐可以处理一些文本和表格,数据库出现之后,通算才发展起来。通算是每所高校必备的基础性算力,支撑学校的门户网站、OA系统等。
智算的“智”特指人工智能,智算承载各类人工智能应用。从2012年开始到现在,人工智能在十几年里发展飞快,逐渐地能够识别图片、理解语言和文字。ChatGPT的出现更是让人工智能的使用爆发式增长,它使得普通人在工作和生活中可以使用AI工具。整个行业由此加速发展,深度求索(DeepSeek)公司就是2023年才成立的。高校接入DeepSeek是使用智算的一种形式,很多学校本地化部署DeepSeek,也有的学校接入DeepSeek的社会服务,使用的计算资源是社会上的算力资源。
在大模型兴起之前,通算是几乎所有高校的基础配置,超算则集中在部分高校,绝大多数以前的985院校和部分211等研究型院校建立了自己的超算平台。至于智算,以前几乎没有学校单独建设智算,通常在超算平台里面会带有少量的智算算力。随着这几年AI计算发展飞快、规模增长,智算逐渐独立出来,近5年里出现了智算集群、智算中心等概念。
当前高校算力建设的整体趋势是,通算、超算两种算力平稳发展,智算算力异军突起。通算作为基础设施不可或缺,毕竟学校的门户网站、办公系统等仍依赖其支撑;超算则持续服务于科研领域,部分学校大数据研究基础设施也由学校超算中心负责。两者都会稳定增长,但增量相对有限。相比之下,智算的增速将更为显著。一方面,智算此前在高校中几乎没有基础;另一方面,其需求正快速显现。而且智算的需求更容易被理解,无论是在文科院校还是理科院校,校长都知道DeepSeek,容易得到决策支持。
《中国教育网络》:与超算相比,AI时代的算力需要突破哪些技术或者理念瓶颈?
樊春:AI对算力的需求在计算规模和速度上要求更高,但对计算精度的要求相对较低。AI对计算速度的要求很突出,单张显卡(加速卡)的处理能力已达到PFLOPS级别(每秒千万亿次运算),而传统超算单台设备则以TFLOPS(每秒万亿次运算)为单位进行计算。在计算精度上,超算需要高精度的算力,主要依赖64位浮点数运算,而AI通常采用16位、8位甚至4位的低精度浮点数。
整体来看,AI时代算力需求会比以往大很多,尤其是在训练AI模型的时候。
对于AI而言,把计算机做得更大更快是一个切实的需求。扩大计算规模直接对应着AI模型能力的提升——算力规模越大,训练出的模型就越“聪明”。更重要的是,一个大模型可以直接服务全世界几十亿用户,它的影响力远远超过超算。正是这种清晰的需求和可能产生的较高回报,使得社会上大量资源持续涌入AI算力建设。高校接入DeepSeek,师生与DeepSeek的对话交流只是最基础的应用。就像工业革命时期的蒸汽机提高了织布厂的生产效率,改变了远距离的交通运输方式,DeepSeek这类大模型作为“引擎”,可以以它为基础开发出各种智能体、各种应用,给师生提供各式各样的智能服务。
相较之下,大型超算集群发展面临着一个明显的瓶颈——需求不足,超算领域没有什么很有价值的问题必须由超过十万台服务器的超级巨大的集群来解决。尽管技术上有能力建造规模更大的超级计算机,但关键在于巨额的投入以后能否产生相匹配的收益。现有的几十台服务器到几万台服务器的中小型超算已经能够解决大多数重要问题了,如果将计算规模扩大10倍甚至100倍,很难找到必须依赖这种极端算力才能突破的具有实用价值的重大科学问题。需求制约了大型超算目前的大跨步建设。目前几百到几千台规模的超算集群,仍然是很多高校科研环境重要的基础保障。
智算在建设的时候有两点技术问题需要突破。首先是散热问题,AI算力强大之后发热很高,如何有效散热很关键;其次是通信问题,当很多芯片同时工作时,有大量的数据需要传递,数据传输的带宽和延迟直接制约整体效率。
以高校部署“满血版”DeepSeek举例,目前高校普遍部署的模型本身有6710亿个参数,参数需要存在显卡的显存里,每个参数一般是以8位或者16位的精度存储。如果单个显卡的显存容量不大的话,光是把数据存下来就需要很多卡以及很多台服务器。同时要应对很多学生同时访问和使用平台,确保用户使用体验,在硬件方面需要提供足够的计算能力,同时保证数据传输的效率、带宽高、延迟低;在软件方面也需要做很多优化,通过软硬协同,使硬件的性能充分发挥。所以说每个成功部署的“满血版”AI大模型背后,都有行业工程师做出了大量的努力。
北大智算实践:部署分配和创新突破
《中国教育网络》:在AI大模型的浪潮下,北京大学算力需求呈现哪些特征?如何差异化分配算力资源?
樊春:在大模型的浪潮下,北大的算力需求集中在两个方面,一方面是部署和使用AI模型,另一方面是训练一些中小规模的模型。目前各个学校,包括北大,都是以部署使用社会上开源的大模型为主。社会上出现了最新最好的开源的大模型,我们一定会把它部署上,提供一个模型的引擎,来服务学校的各类应用。学校的各个单位则基于这些基础引擎进行应用开发,将智能能力应用到教学、科研和管理等具体场景。在模型训练方面,受限于硬件资源规模,北大会训练一些中小规模的模型,力求在算法上有一定的突破和进展,让它能有效解决特定领域问题。
在算力资源分配方面,我们主要的依据是对算力资源的不同需求。一个较大规模的模型对算力资源的耦合性要求更高,因为模型在运行过程中需要频繁的卡间通信和服务器间通信,那就需要将多个GPU通过高速交换机紧密连接,将服务器集合形成集群。以DeepSeek推理服务为例,机器需要很好地进行联网,组建一个规模相对较大的集群,才能满足大量用户的并发请求。相比之下,一些小模型服务用户人数不多,需要的计算资源少一些,对硬件的要求相对较低。我们可以使用网络连接不高、成本较低的机器,单独提供服务。
当然除了大模型的推理之外,模型的训练也需要高度耦合的计算资源。为此,我们会在超算集群里面专门划分AI计算的分区,或者是单独建立AI训练专用的集群。
《中国教育网络》:学校算力基建和运营模式上有哪些创新和突破?
樊春:在算力基建方面,北大的创新突破比较多。正如之前提到的,部署像DeepSeek这样的“满血版”大模型需要投入大量的人力物力,需要老师和工程师付出艰辛的努力。为了方便大模型的部署,我们专门开发了一系列系统软件,大大简化了部署流程。
DeepSeek部署原本就是一个相当复杂的过程,而随着技术快速迭代,DeepSeek会不断更新,现在是R1、V3版本,今年3月24日推出了V3的新版本,预计不久会推出R2、V4版本。每次版本升级都需要投入大量时间和精力进行部署。这些新研发的部署工具,将提升部署效率,让团队能够更快速、更便捷地完成模型部署和版本更新工作。
除了大模型的部署工具之外,北大和企业联合发布了一套完整的开源版的智算软件站。在DeepSeek与国产化技术栈融合的过程中,因为国产化在软件生态上不够成熟和完善,在实际落地过程中需要进行大量适配和优化工作。为此,我们积极探索开源社区资源与国产化算力平台的有机结合,通过持续的尝试和努力,已经在多个关键环节取得突破性进展。
在算力管理方面,尤其对于超算和智算的管理而言,我们自主研发了SCOW平台。该平台一方面方便用户使用算力,另一方面方便算力资源管理,我们把它称为算力中心的操作系统。目前国内外很多高校都已经在使用SCOW平台,其开源版本在过去一年多时间里累计下载量超过3万次。
智算的安全风险和低成本实践方案
《中国教育网络》:部署AI大模型是否存在一些安全风险?
樊春:关于智算安全的问题,确实需要认真考虑。一方面,AI产出的内容存在安全风险,有时候AI的回答可能会涉及一些敏感内容。另一方面,存在知识库服务器的安全风险,这个风险与传统的信息化安全比较接近。当AI部署在本地后,很多应用都是围绕知识库问答展开的。通常知识库系统里面会挂载多个不同的知识库,很多信息不能出校。一旦被黑客攻破,这些内容就可能泄露。所以说知识库系统平台需要做好安全防护。至于大模型本身的安全防护,这已经不是高校能够考虑的了,而是由大模型发布的团队来保证。
《中国教育网络》:对于资源相对有限的高校,您建议通过哪些低成本高弹性的方案构建AI算力基座?
樊春:高校提供AI服务是有必要的,但是往往成本较高。对于资源有限的高校,我们建议细分AI需求,根据不同的需求配置性价比合适的算力资源。
首先区分“数据可出校”和“数据严格不出校”两类需求。对于学生跟AI聊天互动等需求,数据可以出校,可以用社会算力来对接;数据不允许出校的AI需求,则必须本地构建。本地构建算力也不必追求“满血版”的最强性能,重要的是看实际需求提供性价比高的智能程度。
来源:《中国教育网络》2025年5月刊
撰文:余秀