中国教育和科研计算机网
EDU首页 |  中国教育 |   科研发展 |   教育信息化 |   CERNET  |   教育在线 |   教育舆情 |   视频课堂
教育信息化

资讯 | 专题 会议 观点 专栏 访谈 项目 数据 招标 企业 产品 CIO 技术 校园信息化 教育装备 下一代互联网

中国教育网 > 教育信息化 技术论坛入口    用户名
密 码 搜 索 
您现在的位置: EDU首页 > 教育信息化 > 校园信息化
山东大学“大数据”探索
http://www.edu.cn   2014-02-10 中国教育网络 作者:陈琳 展鹏

字体选择:【大】 【中】 【小】

  大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用。

  大数据解决方案

  大数据时代的到来对数据的存储、处理及分析提出了新的挑战, 但总的发展趋势是通过分布式计算来解决 “瓶颈”问题。我们不能依赖提高单个节点性能这种纵向扩展的方式提升系统整体的性能,相反, 我们需要能够通过增加系统内节点的数目这种横向扩展的方式来达到我们的目的。我们将存储、 处理和分析的任务通过分布式的方式分散到系统中各个节点上来加快数据的存储、 处理和分析的速度。在实际的实现上,Google、Amazon、微软和 VMware 这 4 家公司在不同时间陆续推出各自的大数据方案, 在应用领域和赢利模式上,Amazon 和Google 处于跑者地位, 微软和 VMware 紧随其后,此外还有开源的Hadoop 平台。Hadoop 是谷歌大数据平台的开源实现, 由于其开源特性, 越来越多的企业在Hadoop 的基础上对其进行修改以适应自己的需要,如Facebook 根据其业务需求, 底层采用Hadoop 平台进行数据的存储和处理, 并在其上开发了Hive。Facebook 通过Hive实现了例行性报表、 即席查询、 机器学习和数据挖掘算法, 达到了较好的效果。大数据的存储稳定、 高效的存储系统既是系统正常运行的重要保证, 也可以单独作为一项服务提供给用户。5 种方案之中, Amazon 的 S3 和微软的 Blob存储比较类似, Google的GFS则完全不同,VMware 目前仅向虚拟机提供存储服务,Hadoop仿照GFS 开发了HDFS, 是GFS的简化版本。相比GFS, HDFS 缺少了多客户端并发的 Append 模型及快照功能。

  大数据的处理

  计算服务是所有的大数据解决方案最核心的业务之一, 同时也是用户最常用的服务。Google 和Hadoop提供基于MapReduce 的数据处理, 整个 过 程 对用户而言是透明的。Amazon 的EC2给予用户配置硬件参数的权利, 使得用户可以根据实际的需求动态地改变配置,从而提高效率和节省资源。微软的Azure允许用户在处理数据之前设置部分参数。

表1 大数据处理体系

  VMware 的 vCloud 中提供了DRS 和DPM 技术,可以通过迁移和关闭虚拟机来实现资源优化。表2 是这5 种计算服务的比较。MapReduce 在系统层面解决了大数据分析平台的扩展性和容错性问题,是非关系型数据库的典型代表,因此越来越多的研究人员从性能和易用性方面对MapReduce 进行改进。

 

  对 MapReduce 性能提升的研究包括4个方面:

  1. 多核硬件与图形处理器上的性能改进。

  2. 索引技术与连接技术的优化。

  3. 调度技术优化。

  4. 其他优化技术。

  针对MapReduce 易用性的研究成果包括 Yahoo 的 Pig、Microsoft 的LINQ、Hive 等。

页面功能 【打印】 【关闭】 【我有话说

MOOC风暴来袭

版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备05078770,京网文[2014]2106-306号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com