您当前所在位置: 本站首页 >> 往期期刊 >> 2019年04期 >> 正文

基于二元分类的伪装型垃圾网页高效检测方法

2019年12月25日 12:42 魏欢 点击:[]

魏欢

安徽工业经济职业技术学院计 算机与艺术学院


摘要:为了提高伪装型垃圾网页检测能力,提出一种基于二元分类的伪装型垃圾网页检测算法.对采集的各类网站网页样本进行暗链域名特征分析和网页爬虫分析,构建伪装型垃圾网页分布的相关文本和图片信息特征,对伪装型垃圾网页样本集采用垂直爬虫和异常特征挖掘方法进行垃圾信息过滤;以网页赋权垃圾信息为测试集,采用二元分类方法对伪装型垃圾网页进行路径模板分析,对全部的异常样本进行垂直爬虫检索;提取伪装型垃圾网页的相关文本的字体颜色与网页背景色,将伪装型垃圾网页的特征提取结果输入到二元语义分类器中进行数据分类,结合大数据融合聚类方法实现伪装型垃圾网页检测.仿真结果表明:采用该方法进行伪装型垃圾网页检测的准确性较高,抗垃圾网页和暗链接干扰能力较好,提高了网页安全监控能力.

基金:安徽省质量工程项目(2015M00C144);

关键词:二元分类; 垃圾网页; 暗链接; 检测;

分类号:TP393.092;TP391.3

上一条:基于FPGA的任意频率发生器设计 下一条:自由半群和自由幺半群的Cayley图