最新
推荐
2014年高等教育信息化十大“关... 01-04 教育部成立教育信息化专家组 12-24
CERNET第二十一届学术年会 11-24 李志民:互联网促进人类文明迈... 11-15
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用。 大数据解决方案 大数据时代的到来对数据的存储、处理及分析提出了新的挑战, 但总的发展趋势是通过分布式计算来解决 “瓶颈”问题。我们不能依赖提高单个节点性能这种纵向扩展的方式提升系统整体的性能,相反, 我们需要能够通过增加系统内节点的数目这种横向扩展的方式来达到我们的目的。我们将存储、 处理和分析的任务通过分布式的方式分散到系统中各个节点上来加快数据的存储、 处理和分析的速度。在实际的实现上,Google、Amazon、微软和 VMware 这 4 家公司在不同时间陆续推出各自的大数据方案, 在应用领域和赢利模式上,Amazon 和Google 处于跑者地位, 微软和 VMware 紧随其后,此外还有开源的Hadoop 平台。Hadoop 是谷歌大数据平台的开源实现, 由于其开源特性, 越来越多的企业在Hadoop 的基础上对其进行修改以适应自己的需要,如Facebook 根据其业务需求, 底层采用Hadoop 平台进行数据的存储和处理, 并在其上开发了Hive。Facebook 通过Hive实现了例行性报表、 即席查询、 机器学习和数据挖掘算法, 达到了较好的效果。大数据的存储稳定、 高效的存储系统既是系统正常运行的重要保证, 也可以单独作为一项服务提供给用户。5 种方案之中, Amazon 的 S3 和微软的 Blob存储比较类似, Google的GFS则完全不同,VMware 目前仅向虚拟机提供存储服务,Hadoop仿照GFS 开发了HDFS, 是GFS的简化版本。相比GFS, HDFS 缺少了多客户端并发的 Append 模型及快照功能。 大数据的处理 计算服务是所有的大数据解决方案最核心的业务之一, 同时也是用户最常用的服务。Google 和Hadoop提供基于MapReduce 的数据处理, 整个 过 程 对用户而言是透明的。Amazon 的EC2给予用户配置硬件参数的权利, 使得用户可以根据实际的需求动态地改变配置,从而提高效率和节省资源。微软的Azure允许用户在处理数据之前设置部分参数。 表1 大数据处理体系
VMware 的 vCloud 中提供了DRS 和DPM 技术,可以通过迁移和关闭虚拟机来实现资源优化。表2 是这5 种计算服务的比较。MapReduce 在系统层面解决了大数据分析平台的扩展性和容错性问题,是非关系型数据库的典型代表,因此越来越多的研究人员从性能和易用性方面对MapReduce 进行改进。
对 MapReduce 性能提升的研究包括4个方面: 1. 多核硬件与图形处理器上的性能改进。 2. 索引技术与连接技术的优化。 3. 调度技术优化。 4. 其他优化技术。 针对MapReduce 易用性的研究成果包括 Yahoo 的 Pig、Microsoft 的LINQ、Hive 等。
|
版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com