中国教育和科研计算机网
EDU首页 |  中国教育 |   高校科技 |   教育信息化 |   CERNET
教育信息化

资讯 | 专题 会议 观点 专栏 访谈 企业 产品 CIO 技术 校园信息化 下一代互联网 IPv6视频课堂

中国教育网 > 教育信息化
您现在的位置: EDU首页 > 教育信息化 > 数字生活 > 社交网络
高校大学生社交网络服务使用分析
http://www.edu.cn   2013-01-18 中国教育网络 作者:姜开达 孙强

字体选择:【大】 【中】 【小】


  3.目前高校大学生最频繁访问的SNS网站就是人人网。根据我们对上海交通大学校园网的不完全统计,全校14%~18%的网站访问请求量都指向了人人网相关网站。我们近期做的统计显示,有52594名人人网用户明确的把自己的身份信息设定为上海交通大学并通过了网站认证核实。图2是分析了其中12721名上海交通大学用户的好友列表得出的统计图。


  横坐标是好友列表(以间隔100为一个统计区间)数量,纵坐标是符合条件的区间用户数。统计显示,90%用户的好友数量在100人以上,80%的用户好友数量在600人以下,好友数量在200~400人的区间段的最多,占34%,所有用户的平均好友数量是401名,这个值明显高于之前提到的人人网平均水平,反映出上海交通大学的大学生交际活跃,人际关系网更复杂化。
  对人人网社交网络用户的数据搜集和初步分析我们使用了Python语言编程来爬行实现。Python具有直观的语法和优秀且丰富的各类库软件支持,在网页爬虫、数据挖掘、机器学习和自然语言处理等领域得到广泛应用。如果想在短期内获得大量有价值的原始数据,使用Python无疑是最佳选择。
  众所周知,SNS网站的存在基础是其用户之间互相交叉联系的各种关系。从一个用户出发,顺着这些关系节点一步步深度爬行会获得海量的人际关系网。在具体爬行过程中,要遍历所有关联节点,并控制爬行深度和方向,同时设定中止条件,避免爬行的范围无休止扩大。同时选取从若干个用户节点出发,采用多线程进行信息搜集,在耐心等待若干时间之后,就可以搜集到想要的信息。在具体实现过程中,要做好用户自动登录、页面内容解析处理、根据需要自动进行翻页、页面出错检测和控制、在对方服务器检测到爬行并采取措施控制之后要进行一段随机时间休眠并重新开始、对爬行的内容要实时保存并做好爬行队列的管理、避免出现同一个用户的重复信息抓取、控制爬行全过程中的内存使用。在若干个爬行线程全部结束之后,要对所有爬行结果进行统一归并,消除重复信息并根据分析需要进行下一步格式转换、存储和分析。
  对于每一个用户的个人信息,比如ID、姓名、学校(城市)、头像等结构化信息完全可以使用传统的关系型数据库来存储。我们曾经多次测试过存储两亿条级别类似信息,并进行各种索引的创建(为了加速检索考虑),使用PostgreSQL数据库实际存储空间一般不超过200G Bytes。我们一台单机上跑PostgreSQL数据库里最大的库已接近6 TBytes,数据条数超过70亿条,一直在线长期稳定运行。不论使用PostgreSQL Cluster,还是Oracle RAC、MySQL Cluster都可以长期高效存储这些结构化信息并提供高性能查询。
  对于用户彼此之间的复杂人际关系信息,从分析计算的角度来考虑,更合适的是使用NoSQL非关系型数据库进行存储。在对社交网络的科学研究中,R e d i s 和CouchDB等NoSQL技术都得到了广泛的使用。图数据库(Graph Database)也是NoSQL数据库的一个重要分支。传统的关系型数据库和其他NoSQL数据库不能最优化的存储社会关系数据,一方面每个节点包含的属性有多重,查询时需要大量的表联立查询,使用深度嵌套的SQL导致了较低的性能,无法实现高性能查询;另一方面图数据库针对图算法提供了很多高效的操作特性,这也是它在图计算中表现优异的原因,而社交网络分析正牵涉到大量的图计算。
  Neo4j是一个用Java实现、完全兼容ACID的高性能图数据库。数据以一种针对图形网络进行过优化的格式保存,并且提供了广泛使用的REST接口,能够方便地集成到基于PHP、NET和JavaScript等语言环境里。Neo4j重点解决了拥有大量连接的传统RDBMS在查询时出现的性能衰退问题。通过围绕图形进行数据建模,Neo4j会以相同的速度遍历节点与边,其遍历速度与构成图形的数据量没有任何关系。此外还提供了非常快的图形算法、推荐系统和OLAP风格的分析,在最短路径寻址、N度关系查找都有明显优势,而这一切在目前的RDBMS系统中都是无法实现的。
  可以分析社交网络并进行可视化展示的软件目前也有不少,使用较多的有Rlanguage、NetMiner、Pajek、Visone、NetworkX、igraph library、Graphviz等。今后我们将会结合上海交通大学人人网用户的人际关系网,进一步探讨更深入的数据挖掘并进行一些有趣的分析,如两节点间最短路径的计算、出入度分析、子图的分析、图的直径计算,并结合实际应用场景,通过理论的计算来进行说明。
                                         (本文作者为上海交通大学)

页面功能 【打印】 【关闭】 【我有话说

MOOC风暴来袭

版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com