如何不用字典学习Klingon语言:地下经济使用的黑话检测与测量

主讲:段海新 清华大学网络科学与网络空间学院教授

互联网不仅联系着合法的商业,也联系着地下经济的商家与消费者。为了逃避执法部门的追踪和网络运营者的过滤,地下经济演化发展出了一套黑话或黑色关键词(Black Keyword),如“菠菜网”(博彩网)。识别这些黑话对于追踪地下经济、打击网络犯罪是非常有意义的。然而,以往对这些黑话的识别和往往需要大量手工的工作,甚至需要渗透到地下产业社区中以获取情报,非常危险。

 

  内容摘要:

  互联网不仅联系着合法的商业,也联系着地下经济的商家与消费者。为了逃避执法部门的追踪和网络运营者的过滤,地下经济演化发展出了一套黑话或黑色关键词(Black Keyword),如“菠菜网”(博彩网)。识别这些黑话对于追踪地下经济、打击网络犯罪是非常有意义的。然而,以往对这些黑话的识别和往往需要大量手工的工作,甚至需要渗透到地下产业社区中以获取情报,非常危险。

  清华大学网络研究院网络空间安全实验室联合百度安全等合作者对地下经济进行了长期的研究,在2017年IEEE Symposium on Security and Privacy 上发表文章“如何不用字典学习Klingon语言:地下经济使用的黑话检测与测量”,首次用自动化的方法大规模提取并理解不断演化着的黑话。在前期研究地下经济的基础上,研究者捕获了黒帽搜索引擎优化(Blackhat SEO)产业所推广的网页,从中提取候选词,利用现有搜索引擎对恶意页面的识别功能判断是否为黑话。然后,利用搜索引擎汇聚用户的搜索行为而提供的相关搜索功能,扩展这些黑话。研究者开发了黑话检测与扩展系统KDES,已经应用于百度公司。在一个多月的搜索中检测出了近48万类似的黑色关键词,从中提取出了1500个核心词,如“冰妹”(陪伴吸毒并提供色情服务的人)、“三响海豚”(一种赌博)等,覆盖色情、赌博、毒品、危险品等类别。研究者还提取了这些地下经济相关的联系信息,以及地下产业所使用的多种信息混淆方法。

  检测方法和结果有助于净化网络空间、打击网络犯罪,对于电商平台、搜索引擎厂商有重要意义,对相关威胁情报平台的信息搜集也有参考价值。……more>>

来源:中国教育网
CERNET第二十五届学术年会征文通知

相关课程