中国教育和科研计算机网
EDU首页 |  中国教育 |   高校科技 |   教育信息化 |   CERNET
教育信息化

资讯 | 专题 会议 观点 专栏 访谈 企业 产品 CIO 技术 校园信息化 下一代互联网 IPv6视频课堂

中国教育网 > 教育信息化
您现在的位置: EDU首页 > 教育信息化 > 资  讯
复旦大学:集中式日志系统让数据挖掘更深入
http://www.edu.cn   2014-08-22 中国教育网络 作者:陈灿华 宓詠

字体选择:【大】 【中】 【小】

  如统计网站服务器,如 apache 的日志,可算出网站访问量、页面热度、访问的空间时间分布,乃至可以分离跟踪单用户访问轨迹,从而计算出用户使用习惯等深度信息。对网站日志的实时分析还可预见洪水攻击,以便及时防范。

  在网络设备日志方面,除了计算流量及网络压力评估外,可深入分析计算海量的数据包头,从而挖掘出较有意义的信息。例如,对于多出口的高校,通过分析统计用户访问的数量和质量,可以适时调整多出口路由策略,以便均衡负载分布,以及针对不同目标域选用相应的高速出口,提高现有出口带宽的利用率及用户体验。再者,结合图论及复杂网络等理论进行分析计算,可以检验校园网络拓扑的合理度,发现薄弱节点,为校园网升级改造提高数据参考。

  在计算工具方面,一般的编程语言及其函数库都能胜任,甚至很多语言都有方便的统计分析函数库,乃至图论、复杂网络函数库。由于集中式日志系统的层级结构设计,各层之间比较独立,因此可以针对不同计算需求,在不同语言中选择成熟的函数库,而灵活组合。事实上,采用不同函数库,甚至不同语言是可能的,也是需要的,因为日志的特点是不同系统的日志可能只有其系统管理员才熟悉与理解,才能决定如何对日志数据作分析统计计算,以提取何种信息。

  与解析层相似,计算层的数据输入与结果输出都可往来于网络上。也因此计算层可单独部署于独立服务器上,以构成海量数据分析的分布式架构的节点。

  到计算层这一层,集中式日志系统也构成完备的系统。此层可将计算结果以网络服务方式开放给第三方应用。

  事件层

  事件层如图5 所示。在计算层对日志作统计分析计算之后,可将计算结果送入单个或多个所谓事件触发器。事件触发器与预先设定的触发条件比对,决定日志的计算结果是否触发某事件。一旦触发,如果设置了告警器,则告警器将发出相应告警。此过程构成集中式日志系统的事件层。

图5 事件层

  事件触发器可分为两类。一类可称作基本触发器,以单个计算结果为输入参数,判别其是否需要触发事件。另一类可称作复合触发器,以多个计算结果,或者其他事件为输入参数,综合判别是否触发事件。前者如网络设备日志中出现端口下线条目,即触发故障事件。后者如多个网段的网络设备中断,触发大面积网络故障的高级别事件。

  与其他层一样,事件层的输入,即计算层计算结果数据,可来自本机器的文件、数据库或者管道,也可来自其他计算层服务器提供的网络服务。事件层可将其输出,即事件数据,对外提供网络接口服务,例如可提供给硬件报警器,作为事件来源;或者与运维服务系统关联,提醒运维值班人员;或者生成工单。

  集中式日志系统的各个层次,既相互关联,又彼此独立,从底层的原始数据层,一直往上堆叠到任何一层,都可构成应用水平逐层提高、数据挖掘程度逐层深入,但又自身完备的服务系统。而用户界面与服务接口贯穿始终。用户界面可提供各层的查询、管理。系统各层通过开放服务接口,高级系统管理员或者第三方应用可将此日志系统看作一个提供存储、解析、统计、警报的日志平台,各类应用可由此衍生出来。

  分布式拓展

  大规模的日志数据将对日志服务器产生巨大压力,对此可以考虑分布式架构部署。如上所述,各层都可通过网络接受下一层的数据输入,也可通过网络对外输出处理数据,因此各层都可独立部署在各自服务器上,共同组成分布式系统。此外由于日志来自不同来源主机,数据之间具有独立性,因此通过简单的分离与合并方式,可部署多台原始数据层服务器,不同来源主机的日志发送到不同服务器上,然后按分类把日志原始数据导入不同的上层服务器上作解析、计算与事件判别触发。之所以可以如此设计的关键是各层的数据输入输出是透明的,即完全无视数据是来自网络还是来自本地数据库或文件系统,而输出也是无视发往本地数据库或远端数据库。由于不同来源主机的日志数据之间的弱相关性,此一分布式架构具有大致的线性拓展的优点,利于随数据中心规模的扩大而增置服务器。

  本文讨论了集中式日志系统的意义,以及针对大规模、多用户和多用途的场景提出一种层级框架设计,分析各部分技术实现要点。该框架划分成若干相对独立又自成体系的层次,以适应多用户的不同利用方式和水平。同时,各层次的独立性也为大规模数据的场景提供良好的分布式拓展空间。

  ( 作者单位为复旦大学信息化办公室)

 

页面功能 【打印】 【关闭】 【我有话说

MOOC风暴来袭

版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com