用于钓鱼网页识别的文本相似度比对方案研究
页面的相似度比对是识别钓鱼网页的核心步骤之一,本文重点研究页面文本信息的比对,针对当前文本相似度比对方法的种种缺陷,本文提出了一种用于钓鱼页面识别的文本相似度比对方案。该方案基于语义识别,文中首先设计并定义了用于结构化处理钓鱼网页文本的钓鱼文本元素(PTE)和钓鱼文本结构(PTU),并在此基础上,借助针对该领域建立起的概念知识库,对文本处理后的结构体进行语义描述,构建出一种适用于钓鱼页面文本的语义描述模型,最终将文本信息比对抽象成语义描述模型的比较。基于此理论,本文通过三个实验对此方案进行了验证和分析,一系列结果证明,此方案在钓鱼网页识别领域具有较高的准确率和效率,最后通过对结果分析得到了该方案的最佳实现方法。
版权所有:中国教育和科研计算机网网络中心 Copyright © 1994-2012 CERNIC,CERNET,京ICP备05078770号,文网文[2008]228号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com