收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Internet网页自动分类技术的研究

谢华  
【摘要】: 搜索引擎的搜索结果包含了大量网页,用户如何从中快速获取所需信息是十分重要的问题。因此,研究人员提出对搜索结果进行网页自动分类,使结果按内容类别呈现给用户,提高用户查询效率。 网页自动分类一般包括网页净化、特征选择、向量表示、训练算法、分类算法等五个部分。本文对网页自动分类进行了深入的研究,重点研究了网页净化算法和特征选择算法,并将研究结果应用到一个针对搜索结果的网页自动分类试验系统中。 论文的内容主要包括以下几个方面: 1.介绍了网页自动分类的一般过程,并详细分析了向量表示与分类算法过程。 2.提出了一种基于局部语义的网页净化算法。新的算法克服了相关研究工作中对网页内容块划分过细、内容块特征提取不完整的缺点,能够自适应地调整网页内容块的范围。实验表明算法是有效的。 3.提出了一种改进的特征选择算法CD-DF。算法引入“类间频率差”的概念,有效地去除了特征词空间中的噪音特征,提高了特征词的表达能力。实验表明,CD-DF算法提高了系统的分类性能。 4.实现了一个针对搜索引擎检索结果的网页自动分类实验系统。通过实际运行表明,实验系统提高了用户使用搜索引擎的效率,并证明了新的网页净化算法和改进的特征选择算法在实际应用中的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郑德俊;Internet信息最优查询设计[J];情报科学;2001年08期
2 张胜,胡解清;再谈搜索引擎[J];电脑学习;2001年06期
3 吴果;Web搜索引擎的现状分析[J];河南纺织高等专科学校学报;2001年02期
4 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期
5 徐永川;Internet搜索引擎的探讨[J];图书馆学刊;2003年04期
6 翁惠玉,马范援,朱义军,杨传厚;网络搜索引擎的现状分析[J];情报学报;1999年S1期
7 魏春生,边香玉;网络搜索引擎——功能、使用技巧与检索策略[J];吉林省经济管理干部学院学报;2003年04期
8 褚亚萍,张华,杨汝清;搜索引擎的现状及分析[J];计算机与现代化;2001年05期
9 王忠,周士波;Internet英文搜索引擎评析[J];情报学报;1999年05期
10 李志义;搜索引擎发展中的问题与对策[J];情报科学;2002年05期
11 王强;;使用搜索引擎检索信息的几种方法[J];贵图学刊;2002年03期
12 谌新华;网络信息资源常用搜索引擎[J];现代情报;2003年07期
13 杜聪;因特网信息查询中搜索引擎的使用技巧[J];山东省青年管理干部学院学报;2005年06期
14 王燕红;罗亨江;;论搜索引擎[J];电脑知识与技术(学术交流);2006年35期
15 黄水清;江苏科技信息网指南车搜索引擎的设计与探讨[J];情报学报;2000年06期
16 高薇薇;国内中文搜索引擎现状述略[J];情报杂志;2001年09期
17 别祖杰;;网上导航的指南针——介绍几个著名的搜索引擎[J];重庆石油高等专科学校学报;1999年01期
18 韩立新 ,黄丽雯 ,恽爽 ,谢立 ,陈道蓄;基于Agent的面向Internet的信息检索系统的设计和实现[J];情报学报;2002年03期
19 唐利;蓝强;;对网络搜索引擎的比较研究[J];重庆文理学院学报(自然科学版);2006年04期
20 王卫亚;互联网络公路交通信息搜索引擎的开发[J];交通与计算机;2000年05期
中国重要会议论文全文数据库 前10条
1 刘斓冰;魏桂英;;Web文本信息挖掘技术[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
2 王素娟;施进明;;数据库技术在Internet气象卫星资料服务中的应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 陈余斌;;Internet下数据库查询实现的方法[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
4 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
5 陈玮;张利;张建军;;一种基于Internet的车辆远程监控系统[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
6 ;On Some Key Techniques in Internet Topology Modeling[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
7 颜华城;;Internet与我国的成人高等教育[A];OA’99办公自动化全国学术研讨暨展示会论文集[C];1999年
8 陶遵适;;Internet与网上教学[A];OA’97全国办公自动化学术与经验交流会论文集[C];1997年
9 程登发;;Internet上植物保护信息资源的获取与发布[A];“植物保护21世纪展望”——植物保护21世纪展望暨第三届全国青年植物保护科技工作者学术研讨会文集[C];1998年
10 王治国;王薇;葛冰;;基于Internet方式室内质量控制数据实时监测或实验室间比对的研究[A];中华医学会第九次全国检验医学学术会议暨中国医院协会临床检验管理专业委员会第六届全国临床检验实验室管理学术会议论文汇编[C];2011年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 张君;Internet路由级拓扑结构之k-核解析及其建模[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978