中国教育和科研计算机网
EDU首页 |  中国教育 |   高校科技 |   教育信息化 |   CERNET
教育信息化

资讯 | 专题 会议 观点 专栏 访谈 企业 产品 CIO 技术 校园信息化 下一代互联网 IPv6视频课堂

中国教育网 > 教育信息化
您现在的位置: EDU首页 > 教育信息化 > 解  读
许鲁:网络存储技术的发展趋势
http://www.edu.cn   2009-12-07 中国教育和科研计算机网 作者:

字体选择:【大】 【中】 【小】

  上网可能有一些人来看,这些东西实际上都会影响我们很多的应用存储,你的服务,网络的变化,那这个东西是什么呢?我们可以看到其实它是一个高并发的共享访问,大家可以想一想,我不知道大家对PPY有熟悉吗?甚至于QQ好像也有类似的功能,就是类似的这些东西这都是我不知道是不是鄙视这种应用,我觉得不管我们是不是鄙视它是一个很重要的应用,包括PPY实际上影响力据说还是蛮大的。它是一个高并发的共享访问,它不再是一个事务性的访问,这跟传统的存储、访问模式有巨大的差异。原来访问的模式是随机的,原来是IO现在是读,以读为主,特别是以带宽为主的模式,比如说高清电影一播,大家一说你的带宽能支持多少,300兆?350兆、397兆?你能不能撑到我们所说的限速带宽,就是能达到理论上线你能达到多少?是90%的带宽还是80%的带宽,评价的是这个,就是评价的模式整个都会变化。

  现在的文件至少1兆,我不大家有没有理解,创造一个小1兆的文件大概需要多长时间,传统文件,我不知道有没有感觉,比如说你写一个文档如果写到1兆需要多长时间?没有那么长,老话讲真的没有那么长,我写过一个文档至少写了10篇,就是2周的工作日所以至少是10天,每天至少工作8小时这个我个人敢保证,那么写出来里面还有点图片大概是5兆大小。有一点点图片,图片不多是5兆大小我做过这个实验,大家想一想5兆8个小时至少是10天,就是你算一算这个产生,但是现在大家手一罗嗦刚才那位手一罗嗦,刚才那个摄像师站在我的旁边照了几张照片我估计远远超过5兆。就是这么一瞬间的事情5兆就出来了,所以现在的数据量之大,现在1兆文件不算大,我个人见过的是百G的,一个文件在百G以上甚至达到一个T以上,一个文件,单独的文件就是那样。所以所谓大文件我们说的其实还是比较保守的,现在刚才那位摄像师照下来的东西,如果它的精度要求高一些很可能就达到1兆以上,那就是几秒钟的事情,所以是巨大的文件数量,文件偏大,巨大的文件数量可以导致容量爆炸式的在增长,所以大家看一看其实我们同样强调的就是所有的技术都是以应用发展为基础的,不会空穴来风。那么我真正关注的是说这方面的应用在迅速的兴起,而且这不仅仅是说在一些特定的行业,这会影响所有的行业。

  那么这个方面要求我们什么?因为你不断的在增长,存储容量你说我买1个T是对的,还是买10个T是对的,还是买20个T是对的?不对,什么时候都不对,你永远的错,错是对。那么也就是说它一定是很多构成,不断的拓展,这个事情是没有办法的事情,今天你做什么事情都是错的,因为你只有面向未来能够持续下去才是对的,那么系统的性能特别是媒体的这个领域,包括我们医疗这方面的应用,包括我们比如说动漫的这个领域,大家都知道实际上咱们奥运会2008年奥运会有真的方案,但是剩下的据说都是那个大脚印在那儿一步一步走到那个鸟巢那个地方去,后面的几个那是真正的动漫熏染出来的效果,那个有大量的数据,大量的景观。所有的这些东西其实都有大量的高并发的大文件的数据的方案在支撑着。

  那么由于这个原因我觉得我对可靠性要求非常高,其实现在的可靠性还非常讨厌,原来我们数据量不大可靠性容易做,因为就跟人一样说我们需要可靠的人但是我就需要两个和我需要50个人都比较可靠这个难度是一样,所以我们现在主要我觉得我们在做关键性的数据,跟资金相关的,跟钱相关的银行这事来说那简单,第一数据量量不大,第二管理复杂,钱这事就重要,现在的不是这样,现在是高依赖数据,说这个数据丢了其实死不了。我们死不了,但是一个大问题是会严重影响我们生产效率,所以我管它叫高依赖的数据,是高依赖的数据,所以可靠性是一个大问题,系统的成本那么由于数量在不断的上升,原来我们买一个T的现在20个T都不够,成本我们就关注了。在几年之前实际上我们可以看到,实际上1个T卖到几万块钱很正常,现在降的非常的厉害,刚才这个老师一直在点头我估计也有同感,过去存储真的是暴利,其实今天也还不错的,实话实说还是不错的。那么存储系统它到底应该怎么操作,我们今天就是瞎聊一些我自己的一些体会,有很多东西绝对是会存在的,但是我个人比较关注的一些点沿着未来趋势的要求,我谈一谈我自己的看法。

  首先网络化这一块,现在说有没有资源呢?有,有点萨斯资源交换的,其实萨斯说白了是网络,跟传统的技术上来讲就是一码事,所以萨斯本身就是一个交换,用萨斯做网络把各种各样的联在一起各种各样的现在很多了。另外一块我觉得网络化这一块几乎是无可置疑,另外一个10G的IC的技术,SC的8G已经出来了,现在已经在市场上在用,10个G的现在已经是比较快的在推,这个里面和SC之间可能还有一些争议,但是它的同时它的效益坦率来讲可能还会低一点,但是我觉得可能有一点会比较好一点看看2010年,2012年的时候我们看具体的时候会有强有力的出现,和(39:28英文)可能到时候会有一争雌雄的趋势。

  另外是集群化,我个人觉得集群化是一个非常重要的点,集群化实际上不光是再一个层次出现,可能会在两个层次上会出现,比如说在国外有I有插的制作路线,另外一种叫Sunss这个实际上是功能的一个产品,另外我们自己也做了一个文件系统也是搞这个东西。另外一个层次我觉得集群化还发生在社会层面,这个是两件事情,你可以把这两件事情两个层次混在一起做,咱们主要是论技术,在设备问题可以单做,这一块我觉得也有很不错的空间,还有一块我管它叫服务化,大家聊的比较多的就是匀存储,这个东西我个人的理解,实际上我1995年的时候开始做,那个时候叫器具计算还是叫效益计算我搞不太清楚,就像电、水这些东西在英文里面都叫(41:08英文),后来到2000年的时候国内的开始起来了我没有参与过,SOA后来接上去了,今天的Incomcompetaie也上去了,甚至于Comsdor也上去了,我觉得其实它这里面有一些一脉相承的东西,按项目服务化,是服务的概念在充实着。你像SOA正式的把服务的概念直接冲进去了,但是整体上来讲我个人的理解是这样的,存储在这方面其走的非常之快,就是服务化这个角度走的非常之快,在复杂情况下资源的调配包括存储的磁盘资源,包括我们所谓的带宽资源,包括我们的缓存资源,包括这个缓存可以是SAB的这种缓存也可以是真正的Buke模式的缓存,带宽的缓存可以是磁盘带宽,也可以说网络带宽等等这方面都进来了。

  所以这方面一会儿我们还会谈到,那么大家可能说集群,集群这个技术又不是你们存储有的,跟你们有什么关系吗?其实集群我估计大家特别是是个高校的老师对集群在这个领域应该是非常熟悉的,那么我觉得咱们说大家可能说真存储真的没有关系,其实我还真不同意,集群的目标是什么?实际上是高性能,就是多个简单的巨能聚合我们能达到一个更高的总体的性能,这是它的性能目标,所以它通过简单的多个单一的聚集能够提供一个更高的职能指标。另外一个高的可靠价格,为什么呢?多个简单单元相互替代,一个死了另外一个可以解体,所以这个就是集群最主要的核心目标,那么可靠这个角度上来讲做的最恰当的就是存储,这玩意其实你想就整几块盘上去,其实就是集区的概念,不是在这相关了,大家说把集群的概念整个给串剥走了不是这个意思,其实它主要的目标就是这两个。但是我们看一下它的计算,计算第一个目标是说我们计算资源的聚合,但是什么叫计算性能?计算性能我们定义不出来,因为什么呢?你如果对着(44:23英文)说出一个概念,你要做一般的计算那还是一样的概念,这个操作系统说了不算,主办说了不算,CPO说了不算,应用说了算,什么叫计算系统我不知道,我根本搞不清楚。这个只有应用说了算,那么这就变成说我们怎么能够替代怎么能够聚合计算性能,怎么好去计算聚合它我们搞不明白,另外一个计算服务的相互替代这事就更难了,因为什么叫计算的替代首先状态要替代它,问题是计算的状态是什么我们知道吗?那我们知道计算的状态有操作系统的状态,有内存的状态,有积存器的状态有各种消息的状态你记的下来吗?所以我们在计算领域实际上有一个概叫(英文)这是一个巨复杂的东西,实际的用途是很少。结果是呢?其实集群计算的概念我觉得非常的重要,但是它从系统技术已经退化成应用型技术,因为都是应用说了算,状态也是应用说了算,性能也是应用说了算,所以集群计算差点事,集群存储好像还有希望,为什么?第一高的性能价格那这事我同意,我们首先说容量一块盘是1T,2块盘它一定是2T,一个正列是10T,2个正列是20T这事简单容量好办,关键是读写速度,读写速度其实很性能非常类似,跟计算机的性能非常类似,但是它的一个比较大的好处就是说我们有种存储模式,就是访问模式,比如说带宽这几个东西反正你拼拼凑凑就是7、8种样子,它不是千奇百怪的事,所以总体来讲高的性能和这个比较我们比较能做的到。另外一个高可靠性那么这个就变了,其实一个很重要的事情就是状态你说的清楚吗?存储非常醒目,存储的状态说的很清楚,你给我一个请求,只要这请求我接下来了,这个状态就在我们家了,没有到我这儿对不起不在我们家我不负责任,这个事情跟我没有关系,这事说的很清楚。

  这个事情编辑非常明确很清晰,其实刚才吃饭的时候我敢说,其实我的理解不是我们集群的存储计算不行,是因为我们存储跟落后,我们把大量的责任都甩给了计算,计算做的巨为复杂,而我们存储很简单,所以我们什么话都说不清楚,我们说不清楚的事我们不负责任,而计算不一样,计算的说法是别人不负责任的我都负责任,因为他是中心我们是外射,只不过今天这个外射发展的越来越重要,但是我依然采取不负责任的态度,我们想不明白的都是你们CPO的事,想的明白的才会有的干,所以现在态事是这样,存储我觉得巨大的空间主要的原因是因为我们落后,落后有巨大的差异我们要追上去,所以我们有很大的发展的空间,同时这方面的影响也非常大。但是并不是因为我们聪明,而是因为我们落后。

  那么它的必要性我们可以看一下,带宽需求的迅速增长以及成本敏感程度的迅速上升,包括我说的所谓大规模、非关键但是高依赖的这种数据等等,所以日常的状况,我说关键跟银行没有关系,跟证券没有关系,跟这种金融没有直接的关系,但是它是影响到我的生产效益,所以我叫高依赖,但是我觉得它跟金融数据还有差异。

  我的时间可能有点需要控制了,那么传统的系统我觉得有一些问题,这个我觉得不是它原来就是有问题的,而是说在应用需求上变化了,我们可以看一下它的模型,传统的系统很多时候我们采取的是商店的模型,在我们这个年纪的人很多你都知道有这个概念,实际上这么一个售货员站在前端所有的人排队来不断的服务,它根据要求去拿东西,他去拿东西这个他不断的去拿东西,所以这么一个情况,实际上现在的存储系统在很大程度上在变化,实际上我们的理解实际上是超市的概念来出现,就是说你有大量的数据,有大量的存储系统这个时候怎么办?我们如果设想一下有一个售货员站在前端这事别玩了,这个家伙就改名了,他不叫售货员他叫收银员,收银员的目标明确就是收钱,别的不管,他管什么呢?他管两件事,第一件事他要干的是说我告诉你到哪儿找东西,你说我要买这么一瓶水他说第三行你去吧,他告诉你这件事,第二件事我收钱,所以他是一个整个的超市型的模式,所以大家想想这个商店模式和超市模式有着本质的不同,时间关系我就不多说了。那么这个方面实际上我觉得这是系统级的,也就是结构机的一些变化,另外一个我觉得关键技术在这个领域上面,一个是动态平衡,这个老实话讲我觉得性能聚合这方面怎么能够真正做到性能聚合,我觉得现在有一些做法但是未来是一个非常好的做法,但是这方面我还在做。那么就是要目标是达到动态的性能聚合,能够动态的把系统性能发挥到最高。


  负载平衡这块在文件级有很多人在做,主要的技术在调带的方式,大家可能都熟悉位置,实际上最简单的我们叫调带,那么在存储系统方面也有一些系统已经出现,而且在传统上也有一些应用,那么这方面也有很多的发展,那么除此之外数据方面我觉得这方面的进展也比较快,包括在文件系统、存储系统都有重大的突破,刚才说了现在这一块我个人觉得不是特别多,还是在它的控制上面。

  那么最后我想谈一谈应用的变化,应用发展的趋势我觉得其实大家都知道,比如说我管它叫VTO这种叫存储的应用,备份我们不去看,VTO很快的出现,CDP是新一点的应用,我觉得大家可能都比较熟悉CDP的概念,实际上这个跟备份有比较大的差别它相对的优势第一个是实施性,第二个是可靠性,那么还有一个其实最近的出现我觉得就是(53:23英文)这方面的一些东西,其实存储的应用有非常多,现在存储的应用有多到了已经可以说我们有很多的东西都不能够直接摄影到上面去。

  所以存储的应用有非常广泛的领域,包括我刚才跳过的一个例子,实际上是集群计算机的管理大规模计算机的管理都是以存储技术为核心在做,所以我要说存储的应用需求在变化,由此导致我们系统在变化,特别是结构、管理技术以及应用等等重大的变化,希望我们存储技术能够给各位带来更方便的,更快捷的管理,谢谢大家!

页面功能 【打印】 【关闭】 【我有话说

MOOC风暴来袭

版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com