最新
推荐
2009教育信息存储大会(北京站... 11-06 CERNET第十六届学术年会征文通知 10-16
“2009教育网络管理与应用大会... 08-20 聚焦应用创新 提升服务水平 09-04
|
中国教育网讯,11月24日消息,由教育部科技发展中心主办,《中国教育网络》杂志承办的“2009(第四届)教育信息存储大会(北京站)”今天在清华大学举行。中国教育网做现场报道。
图为:江苏省计算机学会高性能计算专委会主任委员、南京大学地球科学与工程学院教授 周会群 下面是江苏省计算机学会高性能计算专委会主任委员、南京大学地球科学与工程学院教授周会群演讲实录。 主持人:下面是江苏省计算机学会高性能计算专委会主任委员、南京大学地球科学与工程学院周会群教授,周教授在中国网络杂志介绍中国高性能经验,今天他给大家带来演讲题目是高性能计算的挑战:硬件与软件。有请! 周会群:各位同学、各位老师上午好!久违陈博士大名,今天是第一次见。因为当陈博士设计超级计算机的时候,我刚开始读研究生,在一台很破破PC机上做计算,当时我记着我硕士毕业论文计算算了23天,当时就在做白日梦,希望哪一天中国有那么一台像超级计算机机器,大家可以看到,今天所有这些梦想已经实现了。 高性能计算因为在最近这些年处理器巨大技术进步环境下,有了飞速的发展,那么我今天这个报告,我主要想强调三个方面,一个是我想再次重复高性能设施超级计算机它的的确确已经成为我们进行科学研究极其重要的方面。 第二个我想简单介绍一下南京大学高性能计算设施简单情况,我们作为用户觉得高性能计算建设高性能设施挑战在硬件方面是什么?在软件方面又怎么样?我的报告跟前面陈博士讲的有一点区别,我更侧重一些比较细节的东西。 我们科学研究在过去强调是理论和实验,那么到今天还是没有变化,那么实验总归放在首要位置。因为任何科学假说都必须经过实验的验证,那么理论科学主要为我们提出关于自然现象假说,从中总结物理模型或者数学模型,实验科学验证这些假说,发现新的实验事实,然后对理论进行修正。无论物理学、地球科学都是这样循环。但是今天我们因为有了高性能计算机,使着我们应对空前规模、过去不能想象科学研究当中挑战,比如说我们过去因为计算机能力太弱,我们不太考虑全三维、或者多种物理现象耦合挑战。 当2004年我第一次看到美国白皮书的时候,我跟很多人说计算科学很快得到非常重要的方面,不到五年整个看法完全不一样。就是在那个白皮书里边,第一次把计算科学提到跟理论科学、实验科学三足鼎立地位。从我们包括过于很多经验来看,超级计算机应用它的的确确是我们进行科学研究、进行虚拟实验、进行科学探索极其重要的工具,而且它还能让我们在我们对未知自然现象、我们完全不知道它在某些条件下有什么样行为的时候,给我们提出预测性意见。 说到做实验,实验我们刚才讲过了,它的的确确非常重要,但是也有做不起实验。对于国家来讲,研制原子弹、氢弹耗费巨大财力,为了国家安全再多钱必须做。有些设施举国财力才能做到,比如欧洲强子计算机,很多国家共同出钱建造的。建立风动实验室、或者研究材料科学、生命科学经常用到高温高压装置、巨大的X光源耗费很大很大的,我们国家去年年底在上海建成我们国家大型的X光源,它是目前亚洲仅次于日本的大型光源,为我们探索微光世界提供一个很好很好工具,但是一方面来讲我们很多实验实际上全都做也是没有必要的。 比如新药开发、新材料的开发,里边做很多探索。新药开发不可能把所有实验都做出来,可能几十万种可能性,不可能一个一个做,新材料也是一样,我们想在一个材料混进去一个其他元素的原子,再看材料性质有什么变化,这样实验极其难做,能把这个事做出来很了不起。在计算机里边有一个前提理论必须正确的。 有了这样一个基础我们可以用计算机指导我们聪明做实验。像北大、清华、南京大学实验室充斥这样的设备,数百万元电子显微镜,南京大学就有49台,这些设备都是都是非常昂贵,并不是所有学校、所有研究小组都有这个实力,尤其在今天大型仪器共享程度极低的情况下。 还有做不了的实验,比如全球环境变化,是大规模、多学科知识、理论、模型的融合没法做实验。还有地球与行星内部物理,地底下情况温度、压力我们只是猜测,物质到高温高压发生什么变化我们都不知道,通过实验在某些方面可以做,但是产生并合压力很难做大。还有实验当中不是感兴趣物理量都能测到,我们经常做高温高压实验,温度和压力比是我们有一个温度计、压力计测量,通过其他的间接方式,从别的物质表现行为里边间接推断这个时候压力有多大,这样实验数据本身有误差,这样误差数据在各个学科领域比比皆是,所以对实验数据也不要迷信过分。实验可重复性很差的,没有可重复性实验数据什么都不值,但是所有这些在计算机里边非常容易做到。 比如材料的实验,你能轻而易举做纳米探管吗?在计算机里边很容易做到。我们在高压箱做高压实验的时候,我们需要在这个温度压力下,它正在发生什么样化学变化,它变成什么东西,它的结构变成什么结构,都需要我们测量手段,这些都是极其困难的,但是在计算机里边非常容易做到。 上面讲的这些就是我们为什么搞科学研究的人,要建造这种大型的计算集群最关键的理由。500强排行榜我相信大家都很清楚,这是今年我们所谓一百强排行榜,建立大型集群基本构架二十年前由陈博士定下来,到现在并没有太大变化,无非网络设备速度更快、CPU速度更快,但是架构并没有太大变化。当然早些时候主要是SAP机器为主,也有MIP结构,集群是稍后一点时间提出来。 我记着1994年我在美国的时候,我在自己家里搞了第一台集群,大概0.96,当时跟很多同事都把这样集群开玩笑叫穷人的超级计算机,所谓集群就是用最最普通一个一个计算机用高速网络连接起来,就成了现在所谓高性能计算集群。你说建造这儿一个集群有多大技术含量,我个人认为什么技术含量都没有,顶多有工程方面的挑战。因为规模大在散热、保障可靠性有一些挑战,本质来讲建造几百个集群或者几千个集群没有太大技术上、理论上的区别。 我们有没有人们设计一个表现优异CPU,能不能提出更高效益网络设备,甚至包括提到储存。在今年超级计算2009会上,储存挑战上储存集群对于我们高性能计算来讲,这些都是技术上的进步、这些都是挑战,我们迎接这样的挑战实际上看我们选择做什么,如果只是一味追求建你规模更大的集群,毫无意义。 我们现在排名第一天河一号,效率40.7%,从节能减排角度来讲极其失败的例子,一半CPU是无效的,南京大学这个集群其实没有什么自豪的,买来的当然我们也参与建设,也在IBM协助下我们测的,我们集群效率92%,已经达到500强排行榜唯一一家,德国FIG集群的效益,其他美国用蓝色基因构成计算设施,他们效率都在80%左右,更多在70%左右,现在并行计算效率达到90%以上就两家,一个是我们,还有一个德国。南京大学这个集群我们一共有402计算节点,那个计算数据可能用400个节点测的,整个集群简单情况是这样的。我们用CPU是英特尔最新5500(2.66GHz)处理。这个处理器不惜英特尔系列里边最高端的,比它频率更高还有,但是作为一个经验我会有一个测试数据图表给大家看。我们为什么选2.66?因为在英特尔处理器高端里边最低档,所谓高端组件带宽最高的,频率最低这是最佳选择。再一个我们选择12GB内存有很多考虑,多核服务器里边内存再多也没有用。 |
版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备05078770,文网文[2008]228号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com