收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于关键词的垃圾网页判别研究

杜明明  
【摘要】:目前搜索引擎已经成为网民获取信息的主要渠道,但是搜索引擎中存在一些垃圾网页。这些垃圾网页不仅浪费了搜索引擎的资源,也影响了网民的搜索体验。垃圾网页具有以下特征:网页中存在大量的无关跳转链接;网页内容杂乱无序,不能提供有用的信息;存在SEO作弊。目前的研究主要是利用自然语言处理和机器学习的方法进行垃圾网页的判别。语义分析需要预先建立庞大的语料库和繁琐的标注工作,机器学习的方法同样需要预先进行自然语言的处理。自然语言处理耗时比较长、处理难度较大。本研究的目的建立一系列指标来描述一个网页,根据这些指标利用统计判别方法进行垃圾网页的识别,避免自然语言处理和机器学习的麻烦。本研究从网页整体维度、文本维度和链接维度三个方面分别建立一套指标来描述一个网页,使用fisher判别法、logistic回归和贝叶斯判别三种常用的统计判别方法进行指标体系判别效果的分析验证,根据判别的有效性和准确性来进行指标合理性的验证。为了验证利用统计方法进行垃圾网页的判别具有可操作性,本研究在采用计算机自动进行网页的解析工作,利用中文分词技术对网页文本进行分词处理,然后统计出各个指标的数值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张东准;网页减肥工具大观[J];电脑技术;2001年04期
2 黄家贞;弹指间网页内码随心换[J];电脑知识与技术;2004年22期
3 黄家贞;弹指间网页内码随心换[J];网络与信息;2004年09期
4 宏伟;巧妙抓取防滚屏网页[J];电脑爱好者;2005年20期
5 启动;;浅谈网页文件引用[J];网络与信息;2006年05期
6 小丛;;教你轻松抓取无法滚屏的网页[J];计算机与网络;2006年08期
7 花的神明;;追寻网页上闪动的音乐[J];电脑迷;2007年12期
8 秋思;;收藏一个网页只需一个文件[J];电脑爱好者(普及版);2009年05期
9 唐永明;;浅议网页设计与制作[J];科技信息;2009年20期
10 蒋伟;徐义平;;个性化网页浅析[J];魅力中国;2009年35期
11 田伟;网页减肥专家[J];电子出版;2000年01期
12 ;多媒体网页设计[J];电子出版;2000年09期
13 张方;气象网页自动化更新软件[J];河南气象;2000年02期
14 周勇生;你知道网页是怎样工作的吗[J];多媒体世界;2000年12期
15 李莹;网页中多层效果的灵活使用[J];电脑编程技巧与维护;2000年06期
16 李凡希;保存网页的好方法[J];电脑爱好者;2000年18期
17 张东淮;一步一步做网页(二)[J];电脑技术;2001年08期
18 陆伟;如何制作和发布网页[J];现代通信;2001年03期
19 叶知秋;特酷网页轻松做[J];电脑爱好者;2001年15期
20 沁心;网页自动演示小工具——HTML Autorunner[J];电脑爱好者;2001年18期
中国重要会议论文全文数据库 前7条
1 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
2 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 隋春明;郭志丰;;网页防篡改技术在电力信息网中的应用[A];二○○九年全国电力企业信息化大会论文集[C];2009年
5 王海源;石睿智;;高校网页恶意代码的检测、清理与预防[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年
6 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前3条
1 计华;Web Spam特征分析及其检测技术研究[D];山东师范大学;2015年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 杜明明;基于关键词的垃圾网页判别研究[D];哈尔滨工业大学;2015年
2 龚诚;网页增量式采集技术研究[D];哈尔滨工业大学;2007年
3 李双;基于用户思维模型分析的网页可用性设计研究[D];江南大学;2008年
4 刘典型;多页面特殊网页文字提取与合并技术研究[D];湖南大学;2010年
5 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年
6 柳周频;基于链接上下文的网页预测[D];吉林大学;2006年
7 姜鑫;基于网页连通信息的主题爬行技术研究与实现[D];吉林大学;2007年
8 朱凤芳;搜索引擎中网页净化与消重技术研究[D];东北大学;2008年
9 黄静;网页动态汉字设计与生命意象的跨时空传达[D];哈尔滨工业大学;2011年
10 郑望平;网页设计中的色彩运用与研究[D];西北师范大学;2012年
中国重要报纸全文数据库 前10条
1 范德生 邓亚玲;守住网页的秘密[N];电脑报;2005年
2 贞;网页特效与瘦身专家[N];中国电脑教育报;2002年
3 网天;在自己的电脑上发布网页[N];大众科技报;2000年
4 杨兴平 六子;我的网页你别动[N];电脑报;2004年
5 杨耀祥;简繁网页批量互转有妙法[N];中国电脑教育报;2003年
6 河北 李永波;网页底图显个性[N];电脑报;2004年
7 ;让你的网页绽放最美丽的特效[N];中国电脑教育报;2004年
8 刘成富;编辑网页有妙法[N];计算机世界;2004年
9 绵阳南山 iled;让 Frontpage 2000 给我们“一了百了”[N];电脑报;2001年
10 陈宗伟;妙用查找替换功能编辑网页[N];电脑报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978