基于Hadoop平台的数据分析方案的设计应用
面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分布式计算的应用成为必然的趋势。其中Hadoop是应用较多的分布式存储和计算框架之一。本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分析,给出相应Map/Reduce程序的设计思路和实例,并提出Map/Reduce分布式程序的部分设计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce程序设计、有效提高程序性能。
版权所有:中国教育和科研计算机网网络中心 Copyright © 1994-2017 CERNIC,CERNET,京ICP备05078770号,京网文[2014]2106-306号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@cernet.com