收藏本站
《山东大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于遗传规划和集成学习的Web Spam检测关键技术研究

牛小飞  
【摘要】:随着网络上的信息呈爆炸式增长,搜索引擎已成为日常生活中帮助人们发现其想要信息的重要工具。给定一个确定的查询,搜索引擎通常能返回成千上万个网页,但是大部分用户只读前几个,所以在搜索引擎中网页排名非常重要。因此,许多人采用一些手段来欺骗搜索引擎排序算法,使一些网页获得不应有的高排序值来吸引用户的关注,从而达到获取某方面利益的目的。所有试图增加网页在搜索引擎中排序的欺诈行为被称为Web Spam(网络作弊)。Web Spam严重降低了搜索引擎检索结果的质量,使用户在获取信息的过程中遇到巨大障碍,产生较差的用户体验。对于搜索引擎而言,即使这些作弊网页没有排得足够靠前来扰乱用户,抓取、索引和存储这些网页也需要成本。因此,识别Web Spam已成为搜索引擎的重要挑战之一。 本文根据Web Spam数据集的特点,围绕基于网页特征构建分类器检测Web Spam方面进行了研究,主要工作包括以下三方面: (1)提出基于遗传规划学习判别函数检测Web Spam的方法 将个体定义为检测Web Spam的判别函数,经过遗传操作,遗传规划就可以找到优化的判别函数来提高Web Spam的检测性能。然而,使用遗传规划产生判别函数时会出现一个问题,因为没有关于最优解的任何先验知识,所以很难知道个体的适当长度,如果个体长度太短,则个体中所包含的特征就会很少,个体的辨别力不高,对应函数表达式的分类性能就不好。要想充分利用Web Spam数据集中的内容、链接等特征,需要较长的判别函数,对应个体规模较大。对于由较大规模个体组成的种群,构造和搜索所需时间较长。基于较长判别函数是由若干较短判别函数组成的这一原理,本文提出通过遗传规划学习判别函数检测Web Spam,该方法先使用若干小规模的个体创建多个种群,每个种群经过遗传操作产生本种群的最好个体,然后再将每个种群所得的最好个体通过遗传规划进行组合得到更好的判别函数,从而利用较短时间就能产生性能更好的较长判别函数来检测Web Spam。本文还研究了表示个体的二叉树深度在遗传规划进化过程中的影响以及组合的效率。 在WEBSPAM-UK2006数据集上进行了实验,实验结果表明,与单种群遗传规划相比,使用两次组合的多种群遗传规划能将召回率提高5.6%,F度量提高2.25%,正确率提高2.83%。与SVM相比,新方法将召回率提高了26%,F度量提高了11%,精确度提高了4%。 (2)提出利用基于遗传规划的集成学习检测Web Spam的方法。 目前多数基于分类检测Web Spam的方法只使用一种分类算法构造一个分类器,并且大都忽略了数据集中作弊样本和正常样本的不平衡性,即正常样本比作弊样本多很多。由于存在多种不同类型的Web Spam技术,新类型的Spam技术也在不断出现,期望发现一个万能分类器来检测所有类型的WebSpam是不可能的。所以,通过集成多个分类器的检测结果来找到增强分类器用于检测Web Spam是一种有效方法,并且集成学习也是解决非平衡数据集分类问题的有效方法之一。在集成学习中,如何产生多样的基分类器和如何组合它们的分类结果是两个关键的问题。本文提出利用基于遗传规划的集成学习来检测Web Spam,首先使用不同的分类算法分别在不同的样本集和特征集上进行训练产生多样的基分类器,然后使用遗传规划学习得到一个新颖的分类器,由它基于多个基分类器的检测结果给出最终检测结果。 该方法根据Web Spam数据集的特点,利用不同的数据集合和分类算法产生差异较大的基分类器,利用遗传规划对基分类器的结果进行集成,不仅易于集成不同类型分类器的结果,提高分类性能,还能选择部分基分类器用于集成,降低预测时间。该方法还可以将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能。为了验证遗传规划集成方法的有效性,分别在平衡数据集和非平衡数据集上进行了实验。在平衡数据集的实验部分,首先分析了分类算法和特征集合对集成的影响,然后将其与已知集成学习算法进行比较,结果显示在准确率、召回率、F-度量、精确度,错误率和AUC方面,优于一些已知的集成学习算法;在非平衡数据集上的实验表明无论是同态集成还是异态集成,遗传规划集成均能提高分类的性能,且异态集成比同态集成更加有效;遗传规划集成比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。 (3)提出基于遗传规划产生新特征检测Web Spam的方法。 特征在分类中扮演着很重要的角色,Web Spam数据集中有96个内容特征、41个链接特征和138个转换链接特征,其中138个转换链接特征是41个链接特征的简单组合或对数操作,这些特征的产生不仅需要由专家来完成,还很耗费人力,并且也不易把不同类型(如内容特征和链接特征)的特征融合在一起。该方法提出利用遗传规划将已有特征进行组合从而产生更有区别力的新特征,然后将这些新特征作为分类器的输入来检测Web Spam。在WEBSPAM-UK2006数据集上的实验显示,使用10个新特征的分类器的分类结果好于使用原41个链接特征的分类器,与使用138个转换链接特征的分类器的性能相当。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP18;TP391.3

【参考文献】
中国期刊全文数据库 前9条
1 赵强利;蒋艳凰;徐明;;选择性集成算法分类与比较[J];计算机工程与科学;2012年02期
2 张春霞;张讲社;;选择性集成学习算法综述[J];计算机学报;2011年08期
3 武磊;高斌;李京;;基于结构信息和时域信息的垃圾网页检测技术[J];计算机应用研究;2008年04期
4 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
5 余慧佳;刘奕群;张敏;马少平;茹立云;;基于目的分析的作弊页面分类[J];中文信息学报;2009年02期
6 杨明;尹军梅;吉根林;;不平衡数据分类方法综述[J];南京师范大学学报(工程技术版);2008年04期
7 贺志明;王丽宏;张刚;程学旗;;一种抵抗链接作弊的PageRank改进算法[J];中文信息学报;2012年05期
8 丁岳伟;王虎林;;降级Web Spam的可信度链接分析算法[J];计算机工程与设计;2009年10期
9 曾刚;李宏;;一个基于现实世界的大型Web参照数据集——UK2006 Datasets的初步研究[J];企业技术开发;2009年05期
中国重要会议论文全文数据库 前1条
1 李智超;余慧佳;马少平;;使用支持向量机进行作弊页面识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 李军;不平衡数据学习的研究[D];吉林大学;2011年
2 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
3 陈海霞;面向数据挖掘的分类器集成研究[D];吉林大学;2006年
4 谢元澄;分类器集成研究[D];南京理工大学;2009年
中国硕士学位论文全文数据库 前3条
1 冯东庆;基于链接分析的网页排序作弊检测方法研究[D];吉林大学;2011年
2 孙丽娜;集成异种分类器分类稀有类[D];郑州大学;2007年
3 韩博;反搜索引擎作弊中种子集合自动扩展算法研究[D];大连理工大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
2 彭莉芬;陈俊生;胡学钢;;基于粗糙集决策树算法的研究[J];安庆师范学院学报(自然科学版);2012年01期
3 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
4 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期
5 梁万路;;代价敏感支持向量机的投影次梯度求解方法[J];兵工自动化;2011年04期
6 赵勇;刘凯;;数字挖掘方法在遥感分类中的应用研究[J];北京测绘;2009年03期
7 王建冬;王继民;;基于日志挖掘的高校用户期刊数据库检索行为研究[J];北京大学学报(自然科学版);2012年01期
8 沈奕,滑峰,刘椿年;基于GDT的对FOIL系统的改进[J];北京工业大学学报;2005年02期
9 朱青;刘宇辉;;一种面向领域的组件质量度量算法[J];北京工业大学学报;2007年01期
10 陈阳舟;黄旭;代桂平;;基于新的状态划分的多机器人围捕策略[J];北京工业大学学报;2010年08期
中国重要会议论文全文数据库 前10条
1 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
2 申文明;梁一平;周小平;;搜索引擎的反作弊技术研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
3 马玉莲;王宇冬;王鑫;;基于解释的分类算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
4 杜琳;石慧;刘晓平;;一种基于Q学习的任务调度算法的改进研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
5 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
6 张磊;李亚楠;王斌;李鹏;蒋在帆;;网页搜索引擎查询日志的session划分研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 王晓春;杨沐昀;李生;赵铁军;张志涛;;中文搜索引擎日志中查询分析的研究[A];第五届全国信息检索学术会议论文集[C];2009年
8 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 王倩;刘奕群;马少平;茹立云;;面向用户互联网访问日志的异常点击分析[A];第五届全国信息检索学术会议论文集[C];2009年
10 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
2 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
3 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
4 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
5 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年
6 聂黎;基于基因表达式编程的车间动态调度方法研究[D];华中科技大学;2011年
7 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
8 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年
9 陈俊;笑脸表情分类识别的研究[D];华南理工大学;2011年
10 刘宏兵;多目标粒度支持向量机及其应用研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
3 杨勇;基于SOA的浙江永康某小家电企业应用系统集成平台开发与应用[D];浙江理工大学;2010年
4 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
5 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
6 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
7 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
8 安波;基于蛋白质关系网络的蛋白质络合物抽取研究[D];大连理工大学;2010年
9 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
10 周翔;决策支持技术在企业销售系统中的应用研究[D];中国海洋大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期
2 李国正,杨杰,孔安生,陈念贻;基于聚类算法的选择性神经网络集成[J];复旦学报(自然科学版);2004年05期
3 杨晓霜;汪源源;;基于Moore-Penrose逆矩阵的选择性集成[J];光电工程;2009年11期
4 周志华,李宁,杨育彬,陈世福;基于神经网络集成的肺癌早期诊断[J];计算机研究与发展;2002年10期
5 石洪波,黄厚宽,王志海;基于Boosting的TAN组合分类器[J];计算机研究与发展;2004年02期
6 李凯,黄厚宽;一种基于聚类技术的选择性神经网络集成方法[J];计算机研究与发展;2005年04期
7 涂承胜;刁力力;鲁明羽;陆玉昌;;Boosting家族AdaBoost系列代表算法[J];计算机科学;2003年03期
8 杨育彬;李宁;陈世福;陈兆乾;;肺癌分类识别中的神经网络集成技术研究[J];计算机科学;2003年09期
9 范明;刘孟旭;赵红领;;一种基于基本显露模式的分类算法[J];计算机科学;2004年11期
10 王磊;;基于约束投影的支持向量机选择性集成[J];计算机科学;2009年10期
中国硕士学位论文全文数据库 前2条
1 盛高斌;基于半监督回归的选择性集成算法及其应用研究[D];浙江工业大学;2009年
2 韩博;反搜索引擎作弊中种子集合自动扩展算法研究[D];大连理工大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 王战权,云庆夏,杨东援;改进的遗传规划研究[J];系统工程理论与实践;2000年05期
2 黄丽剑,李郝林;遗传规划在测量数据拟合中的应用[J];自动化仪表;2001年10期
3 林丹,寇纪淞,李敏强;遗传规划研究与应用中的若干问题[J];管理科学学报;1999年04期
4 王战权,唐春安,云庆夏;遗传规划中的正交试验研究[J];电脑开发与应用;1999年02期
5 谢时雄,崔逊学;一种面向工程应用的遗传规划[J];电脑与信息技术;2001年04期
6 刘国祥;遗传规划算法在化合物设计、筛选研究中的应用[J];微计算机应用;2005年03期
7 吴晓军,薛惠锋,雒雪芳,丁晓阳;遗传规划在离散动态系统建模中的应用[J];西安理工大学学报;2004年04期
8 云庆夏,黄光球;遗传算法和遗传规划及其在矿业中的应用[J];中国矿业;1997年02期
9 蒋玉杰,李景春,张国忠;三维空间关节型冗余度机器人的运动遗传规划[J];机械与电子;2005年06期
10 张业伟,骆志高;基于遗传规划的滚动轴承故障诊断实验研究[J];中国设备工程;2001年09期
中国重要会议论文全文数据库 前10条
1 林丹;李敏强;寇纪淞;;遗传规划的应用领域问题[A];系统工程与可持续发展战略——中国系统工程学会第十届年会论文集[C];1998年
2 商秀芹;卢建刚;孙优贤;;改进遗传规划算法在系统辨识中的应用[A];2009年中国智能自动化会议论文集(第五分册)[东南大学学报(增刊)][C];2009年
3 邵桂芳;李祖枢;陈桂强;;基于进化计算的控制结构设计方法[A];2007年中国智能自动化会议论文集[C];2007年
4 李军;;基于二元因素分析的商业银行信用风险评价模型[A];2004年中国管理科学学术会议论文集[C];2004年
5 王智良;徐旭;梁艳春;卢奕南;周春光;;基于混合进化建模算法的包装缓冲材料非线性特性识别[A];“力学2000”学术大会论文集[C];2000年
6 云庆夏;王战权;;采矿工程决策中的进化算法[A];第六届全国采矿学术会议论文集[C];1999年
7 彭锦;;进化算法综述[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
8 云庆夏;卢才武;陈永峰;;计算智能及其在采矿工程中的应用[A];2005年全国金属矿山采矿学术研讨与技术交流会论文集[C];2005年
9 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
10 李向;郭聪莉;张训报;;基于GEP的自动建模方法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 牛小飞;基于遗传规划和集成学习的Web Spam检测关键技术研究[D];山东大学;2012年
2 吴燕玲;遗传规划及其在数据驱动软测量建模中的应用[D];浙江大学;2009年
3 商秀芹;新型进化计算方法及其在炼铁烧结过程建模与优化中的应用[D];浙江大学;2010年
4 廖薇;基于神经网络和遗传规划的汇率预测技术研究[D];华东师范大学;2010年
5 周园春;科学数据网格分布式查询框架及其关键技术研究[D];中国科学院研究生院(计算技术研究所);2006年
6 王志春;基于进化计算的复杂分类算法研究及应用[D];天津大学;2010年
7 蒋玉杰;泳动型机器人的结构规划及其相关问题研究[D];东北大学;2005年
8 邵桂芳;基于动觉智能图式的人工生命体行为及其选择与进化研究[D];重庆大学;2007年
9 王晓红;基于遗传规划的生产混合物产品的分离过程综合研究[D];中国海洋大学;2008年
10 周世梁;混沌系统的智能辨识和控制研究[D];华北电力大学(河北);2006年
中国硕士学位论文全文数据库 前10条
1 于兵兵;Web Spam检测及网页排序算法的研究[D];西安电子科技大学;2012年
2 王安华;遗传规划在非复杂业务流程挖掘中的应用研究[D];复旦大学;2010年
3 孟腊梅;基于遗传规划的树皮纹理图像识别方法[D];河北农业大学;2011年
4 杨向军;Web spam检测系统的设计和实现[D];华南理工大学;2010年
5 卢少华;遗传规划及其在采切巷道结构性优化中的应用研究[D];西安建筑科技大学;2001年
6 王璐;遗传算法与遗传规划的对比性研究[D];吉林大学;2011年
7 薛聿桢;基于遗传规划的遥感多光谱图像分类[D];西北工业大学;2005年
8 郭大鹏;遗传规划算法在数据分类中的应用[D];河北农业大学;2010年
9 宋雨;不确定环境下的移动机器人遗传路径规划方法研究[D];南京理工大学;2004年
10 陈志卫;遗传规划的基因内区改进及其在单机调度中的应用[D];浙江工业大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026