收藏本站
《山东科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

网页噪声识别与消除方法研究

秦超  
【摘要】:目前Web信息量剧增,Internet已经成为人们重要的信息来源。当人们浏览网页时,会出现大量的导航条,广告信息,版权信息以及调查问卷等相关信息,这些信息通常并不是人们所要获取的实际内容,人们称这样的网页内容为“网页噪声”。通常人们在通过网络信息检索软件,例如搜索引擎等查询自己关心的内容时,希望能把搜索到的与搜索条件(关键词等)紧密相关的内容显示出来,而其中最好不包含或少包含网页噪声。因此,网页噪声的识别与消除,近些年来已成为网络信息检索领域中的重要研究课题。 本文首先对web网页的相关概念及体系结构做了介绍,然后对已有的网页噪声识别与消除方法进行了阐述和分析,在此基础上提出了一种网页噪声识别与消除的方法。该方法的基本思想是先根据网页的内容生成相应的DOM树,然后根据DOM树提供的信息按照一定的规则进行网页噪声信息识别,并形成一个可疑网页噪声信息表示模型。在信息检索时,可根据可疑网页噪声信息表示模型提供的信息,对检索到的信息,采用VSM方法进行相似度计算,并根据相似度计算结果确定最终要去除的网页噪声。论文给出了网页噪声的具体识别方法,可疑网页噪声信息表示模型的形成流程和具体算法,相似度计算及其阈值的选定方法等。 作者对本文提出的网页噪声识别和消除方法,以Lucene+Heritrix框架为基础,设计了一个有关的模拟实验环境,并在此环境下,采用实际的网站网页进行的模拟试验。实验表明,论文给出的网页噪声的设别和消除方法是可行和有效的,与其它同类方法相比,在网页噪声的识别与消除的准确率和效率都有所提高。
【学位授予单位】:山东科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092

手机知网App
【参考文献】
中国期刊全文数据库 前6条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
3 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
4 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
5 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期
6 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
3 彭莉芬;陈俊生;胡学钢;;基于粗糙集决策树算法的研究[J];安庆师范学院学报(自然科学版);2012年01期
4 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
5 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
6 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期
7 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
8 赵勇;刘凯;;数字挖掘方法在遥感分类中的应用研究[J];北京测绘;2009年03期
9 沈奕,滑峰,刘椿年;基于GDT的对FOIL系统的改进[J];北京工业大学学报;2005年02期
10 朱青;刘宇辉;;一种面向领域的组件质量度量算法[J];北京工业大学学报;2007年01期
中国重要会议论文全文数据库 前10条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
2 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
3 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
6 马玉莲;王宇冬;王鑫;;基于解释的分类算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 杜琳;石慧;刘晓平;;一种基于Q学习的任务调度算法的改进研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
8 陶兰;李四明;冯爽;;面向领域的网上信息挖掘系统研究与实现[A];第六届全国计算机应用联合学术会议论文集[C];2002年
9 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
10 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
2 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
3 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
4 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年
7 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
8 聂黎;基于基因表达式编程的车间动态调度方法研究[D];华中科技大学;2011年
9 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
10 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
4 杨勇;基于SOA的浙江永康某小家电企业应用系统集成平台开发与应用[D];浙江理工大学;2010年
5 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
6 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
7 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
8 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
9 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
10 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前7条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
3 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
4 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
5 李水平,陈意云,黄刘生;数据采掘技术回顾[J];小型微型计算机系统;1998年04期
6 张晓辉,邵华,常桂然;WWW上的信息发现与搜索引擎技术[J];小型微型计算机系统;1998年06期
7 刘海涛;依存语法和机器翻译[J];语言文字应用;1997年03期
中国重要会议论文全文数据库 前1条
1 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 马向玲,马向阳,李伟;用Dreamweaver制作博士招生网站[J];教育信息化;2001年08期
2 小贝壳;保存网页的利器——网文快捕信息管理速战[J];电脑应用文萃;2004年03期
3 ;剖析恶意网页修改注册表[J];电脑数码采购周刊;2005年02期
4 miniworm;;圆角的革命[J];电脑爱好者;2007年07期
5 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期
6 陈宁江;杜凡远;;网页防篡改应用技术分析[J];现代机械;2009年03期
7 中英;;神奇的Internet临时文件夹[J];网络科技时代(数字冲浪);2002年01期
8 李佩华;制作网络版课件的快捷途径[J];教育信息化;2004年06期
9 于艳杰;网页文件上传方法分析与研究[J];哈尔滨学院学报;2005年05期
10 流言;;“傲游”因特网 生活从此更精彩……[J];电脑爱好者;2006年02期
中国重要会议论文全文数据库 前10条
1 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
4 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 陈成;岳志伟;;浅谈政府门户网站的网络安全[A];中国航海学会航标专业委员会沿海航标学组、无线电导航学组、内河航标学组年会暨学术交流会论文集[C];2009年
6 刘世杰;唐世渭;杨冬青;王腾蛟;李立宇;;基于XML技术的Web信息提取和集成[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
7 磨科鹏;;网络技术员应知的Web服务安全原理[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 李瑞祥;杨雪;;用mrtg实时记录多个网络设备的端口流量[A];济宁市技术创新与可持续发展论文选编[C];2005年
9 姚小涛;;设计和制作特色图书馆主页[A];陕西省图书馆学会第五次会员代表大会暨学术研讨会与全国图书馆部室主任工作、学术研讨会论文集[C];2003年
10 方放;;浅议网上违法经营案件的数字证据[A];工商行政管理论文选[C];2004年
中国重要报纸全文数据库 前10条
1 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
2 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
3 天涯;利用卡巴斯基删除顽固文件[N];电脑报;2007年
4 刘成富;编辑网页有妙法[N];计算机世界;2004年
5 海浪轻风;一二三说变就变[N];中国电脑教育报;2005年
6 邹本堃;“磁碟机”与“熊猫烧香”谁比谁更毒[N];中国消费者报;2008年
7 ;网站安全必不可少的保护神[N];中国计算机报;2005年
8 本报记者  刘志伟 通讯员  万学才;网监警方智破“熊猫烧香”案[N];科技日报;2007年
9 姜元学;初哥上网三注意[N];中国电脑教育报;2002年
10 江苏 韶亚军;WPS 2000妙用五则[N];电脑报;2001年
中国博士学位论文全文数据库 前10条
1 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
2 王进;HTTP洪泛攻击检测机制与算法研究[D];电子科技大学;2013年
3 尹文科;基于本体的视频服务网站监管技术研究[D];中国科学技术大学;2013年
4 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
5 吕宁;基于上下文的个人信息管理研究[D];华中科技大学;2012年
6 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年
7 刘昕;基于社会计算的网络恶意代码防护机制研究[D];南开大学;2012年
8 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
9 余俊丰;Web程序与数据安全研究[D];华中科技大学;2011年
10 廉捷;基于用户特征的社交网络数据挖掘研究[D];北京交通大学;2014年
中国硕士学位论文全文数据库 前10条
1 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
2 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年
3 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年
4 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年
5 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
6 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年
7 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
8 孙鹏;网页水印技术研究[D];上海交通大学;2010年
9 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年
10 王洋;基于主题词同现图的网页相关度研究[D];华南理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026