目前开源运动正处于被广泛认同和推进的过程中,开源理念日益成熟,开源运动的精神与原则越来越深入人心。随着开源运动在国内的普及和发展,开源在大学的教学科研和信息化建设中逐渐成为重点。开源软件的良好应用不仅可以改善学校的教学、科研和管理的运行环境,使大学与国际快速接轨,还将极大地改变学校的工作方式和组织结构,有利于大学培养出真正能跟上时代步伐的人才。
华南理工大学信息网络工程研究中心成立于1994年8月,是一个面向Internet国际互联网,集科研、教育培训、网络运行和网络服务为一体的产、学、研工程研究中心,是中国教育和科研计算机网(CERNET)华南地区网络中心、广东省教育和科研计算机网(GDERNET)网络中心和广东省计算机网络重点实验室(CCNL)所在地,拥有数据中心和科研开发场地3000多平方米,专职科技人员120人,配备了先进的网络设备、优良的网络环境和丰富的网络信息资源,承担CERNET华南地区网络、GDERNET以及华南理工大学校园网的建设、运行和维护工作,以及计算机网络学科的教学和科研任务。
华南理工大学信息网络工程研究中心有多年的开源使用经验。早在1995年,就建立了全国第一个SunSITE(Sun Software, Information and Technology Exchange)的镜像站点,因为Sun的操作系统是Linux广泛普及之前最流行的开源软件的运行平台。华南理工大学信息网络工程研究中心也是广东省最早采用Linux的单位,主持召开了广东省Linux自由联盟的首次工作会议。目前大部分的教学、科研、开发环境和平台的搭建上都使用了开源软件,在所从事的教学、科研和网络服务工作中,开源软件的使用也占有很大的比重。下面重点介绍几个应用范例。
信息检索技术研究
近年来搜索引擎和Web信息挖掘技术的研究、开发十分活跃,并已出现了很多热点研究如专业搜索引擎、基于内容的多媒体信息搜索、分布式检索、个性化检索、问题回答QA等等。国内信息搜索的技术研究也非常活跃。1998年清华大学、北京大学和华南理工大学获国家九五攻关项目资助,从事国内搜索引擎系统的研究开发,分别研制出网络指南针、天网、木棉搜索引擎三大检索系统,较好地推动了中国教育网以及互联网技术的发展。
信息检索领域中,检索系统评估对于系统的研究、开发和应用一直有着显著的影响。为了推动中国信息检索技术的发展,借鉴参考国际信息检索会议TREC多年的成功经验,全国搜索引擎和Web数据挖掘研讨会(SEWM)举行中文Web检索竞赛。华南理工大学信息网络工程研究中心的研究生组成的木棉检索队连续在2004年和2005年的全国搜索引擎和数据挖掘(SEWM)会议举行的中文Web检索测评中获得多项任务第一的佳绩。这种成绩正是建立在对开源系统的学习和使用之上的。
信息检索领域两大著名的开源系统是Lucene(http://lucene.apache.org)和Nutch(http://www.nutch.org)。
Lucene是Apache软件基金会Jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包。Lucene秉承了开源代码一贯的架构优良的优势,设计了一个合理而极具扩充能力的面向对象架构。研究中心的编程人员充分利用了Lucene所提供的强大功能,深入学习全文检索引擎技术,并在此基础上扩充各种功能,例如中文处理能力, HTML、PDF和DOC等文本格式的转换和处理等。
然而Lucene并不是一个完整的全文检索引擎,它只提供了完整的查询引擎和索引引擎,以及部分文本(英文和德文等)分析引擎。基于Lucene而开发的Nutch系统则是较为完整的开源搜索引擎。它提供了一个大规模搜索引擎所需的全部工具。商业的搜索引擎排序算法都是高度保密的,而且一些搜索引擎还允许竞价排名,因此用户通常无从知道检索结果是如何排序的。Nutch是开放源代码的,因而其排序算法是公开透明的。学习Nutch可以加深对搜索引擎的理解。而Nutch本身的开发,也从工业界和学术界借鉴了很多知识,例如 Nutch的核心部分目前已经重新用 Map Reduce(Google的核心技术之一)实现了。
因此,开源软件为信息检索领域的研究人员尝试新的索引和检索算法等提供了很好的实践平台。基于开源平台,我们可以自由地设计核心新算法,并集成入开放研究平台中,进行系统的测试和检验,这为科学研究提供了非常便利的条件。我们还开设了本科课程“信息检索”,主要课程设计也是围绕这两个开源系统而展开的。开源系统的使用大大提高了教学和科研水平。
网格计算平台及应用
作为国家教育科研网格计划ChinaGrid(http://www.chinagrid.edu.cn)的发起单位和主节点之一,华南理工大学基于多个32/64位Linux高性能计算集群系统构建了高性能的网格计算平台,聚合计算能力超过每秒1万亿次,存储能力达到20TB。网格计算平台是华南理工大学公共服务体系的重要组成部分,也是华南理工大学“985”建设的重要平台之一。
华南理工大学的高性能计算集群系统均采用Linux集群的开源解决方案NPACI Rocks软件来管理。Rocks(http://www.rocksclusters.org)是美国国家先进计算基础设施同盟(NPACI)开发的,目前被广泛地使用。Rocks的源代码对外开放,而且提供了一个称为roll的体系结构,使得更多的第三方软件可以很容易地被加入到rocks套件中。常用的第三方roll包括:ganglia监控系统,PBS和Sun Grid Engine作业调度系统等。
学校在高性能计算平台上部署了Globus(http://www.globus.org)等网格中间件系统,实现统一资源信息共享,资源管理和调度,以及网格服务和安全机制等,并通过网格门户系统发布和提供网格应用服务。Globus项目是目前国际上最有影响力的与网格计算相关的项目之一,Globus工具包来源于Globus项目,它是一个开放源码的网格的基础平台,基于开放结构、开放服务资源和软件库,并支持网格和网格应用,为构建网格应用提供中间件服务和程序库。
华南理工大学校园网格平台为信息检索、生物信息、流体力学、新材料、建筑、交通、机械等学科领域进行科学研究和应用开发提供了极好的计算平台。华南理工大学信息网络工程研究中心与华南理工大学生物学院共同合作,基于网格计算环境进行生物信息学研究。研究人员充分利用网格计算平台的海量计算能力和资源共享优势,整合国际互联网上的生物信息资源与自主开发的生物信息学分析工具和特色基因数据库,从事人类基因组非编码序列的生物信息开发、重要功能基因调控序列的分类整理利用、RNA干扰药物设计计算机程序开发,抗原决定簇预测和蛋白质空间结构预测等。
目前华南理工大学已经研制开发了一套小分子干扰RNA(siRNA)设计的在线程序siRNA Pro(http://biogrid.scut.edu.cn/sirnaPro/),并实际运用于siRNA筛选设计,基于该系统,已经设计了针对SARS、HBV、HCV等极大威胁人类健康的病原体的siRNA。研制和开发了蛋白质结构预测和分析系统ProteinSPA(http://biogrid.scut.edu.cn/ProteinSPA/),该系统基于同源建模进行蛋白质结构预测,系统经过目标序列的同源性搜索、多序列比对、以已知结构为模板建立模型等一系列步骤,并加入了结果模型的评价、与已知结构的蛋白质进行结构比对等分析功能,实现了蛋白质结构,功能的分析和预测。该方面的研究获得了国家自然科学基金重大研究计划“以网络为基础的科学活动环境研究”和中国教育科研Chinagrid的生物信息应用网格等项目的资助。项目的研究开发是基于开源而进行的,采用了目前国际上生物信息学主要的十多个开源项目,包括:PSI-BLAST、EMBOSS、mpiBLAST、PROCHECK、Vienna RNA。
通过学习和研究这些开源项目,研究人员的理论水平和开发水平有了很大的提高,也进一步在这些项目的基础上提出了自己的一些创意。
总结近几年将开源项目应用于科学研究领域的经验,我们得出以下结论,将优秀的相关开源项目应用在科学研究领域上,有助于建立一套以创新为目标的开源研究机制,通过国内联合与国际合作,学习国外多年的研究成果,才有可能实现与国际接轨,避免低水平的重复,培养出与国际同步的研究人员,形成具有竞争力的国际性的研究项目,力争高水平上的创新。
数字化校园解决方案
为提升学校的综合实力,整合学校资源,更好地利用学校的基础网络设施向全校师生提供服务,充分利用信息技术进一步推进学校的发展,培养适应未来信息社会要求的高等学校人才。基于多年的高校数字化实施和管理经验,华南理工大学信息网络工程研究中心提出了数字化校园全面解决方案,如图1所示。
数字校园全面解决方案基于J2EE体系结构,实现了统一用户认证与权限管理,统一的数据库管理。该方案在校园网信息网络平台的基础上,开发和建立了基于Web的公共服务和内部应用系统,为高校内部管理及Internet用户提供信息服务。具体包括网络基础服务系统、基本服务、个性化门户系统、核心服务和保障系统等五个方面。系统的构建参考和采用了大量的开源软件。列举一些如下。
Firebird BBS
Firebird BBS是一个基于Telnet的中文BBS平台。我们利用这个平台于1995年建立了华南木棉BBS系统,并长期维护和使用。1998年我们自主开发了基于Firbird BBS系统的Web BBS系统。
由于BBS系统存在大量的小文件,这为系统的维护和管理带来了极大的问题。2003年我们以内嵌式数据库为基础,实现了全国第一个基于数据库的Firebird BBS系统,并实现了系统的Web访问界面。
BIND
域名服务是最基本的网络信息服务,华南理工大学校园网络和华南网的域名服务是基于BIND系统而建立的。
FreeRadius
FreeRADIUS是一个主流的开源RADIUS服务器软件,华南理工大学校园网基于FreeRadius实现802.1x局域网的认证服务。
OpenLDAP
OpenLDAP是LDAP访问协议和存贮系统的一种开源实现,提供了可靠、可扩展的LDAP目录服务器、复制服务器及一些基本工具,是最基本的网络基础服务。
Sendmail和Postfix
Sendmail作为最流行的开源邮件MTA系统,长期被推广使用。利用Sendmail,我们建立了安全可靠的校园邮件体系。Postfix是一种针对Sendmail系统的改进型邮件系统,具有更简单的配置和集成。从2003年开始采用Postfix部分代替Sendmail建立校园网邮件服务。
另外,在建设华南理工大学的数字化校园过程中,我们立足开源,收获很多。数字化校园解决方案的基本结构是:一个基础数据平台、一个门户和多个信息服务提供系统。目前,数字校园解决方案已经在华南理工大学取得良好的应用效果,极大地促进了大学科研教学信息化程度的提高,也使得校园网络服务的水平得到提高。数字化校园解决方案的应用经验可以推广到类似的高校环境。
然而我们也深切地体会到,开源软件的使用需要慎重。一般开源软件都具有较好的体系结构,但是在系统的实现上确存在不少问题。例如系统的性能和功能、稳定性和产品化程度等都存在不足。基于多年的使用经验,我们一般会对软件进行二次开发,解决中文化的问题,并对系统的功能和性能做较大的提升。
综上所述,开源项目为研究和教学人员提供了很好的实践平台。因此可以认为,开源软件是创新的根源,没有开源,无从创新。
而我们也必须意识到,虽然开源软件的体系结构通常都非常先进,具有很高的借鉴价值,但实现机制常常不够成熟。开源软件一般有很多“bugs”,在中文化、性能和功能上都存在许多问题,在应用上是有风险的。因此,需要进行许多严格的测试和二次开发的工作。
基于实践经验,我们可以乐观地估计,开源运动将在大学的科学研究、教学和信息化建设等方面大放光彩。
(作者单位为华南理工大学) |