收藏本站
《华中科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向主题型的网页分类技术的研究与实现

伍菲  
【摘要】:搜索引擎是目前使用的最普遍的网络信息检索工具,人们对它有很强的依赖性,搜索引擎大多数采取的是基于关键词匹配检索的策略,但是随着互联网上的信息量与日俱增,这种检索策略的执行效果受到了很大的影响。为使搜索引擎在检索互联网信息时能够准确定位,并且提高检索到的信息与目标之间的关联度,网页自动分类技术被用来辅助搜索引擎检索网络信息,以优化搜索引擎的检索效果。 网页自动分类技术,是在文本自动分类技术的基础上发展起来的,网页自动分类系统本质上是由自然语言处理技术和机器学习原理相结合实现的系统,而分类器是网页自动分类系统的核心部分。 本文介绍了几种当前较为成熟且流行的分类算法,通过对比其各自的优缺点,考虑到实际网络中的取样情况,从中选定K-最近邻算法构造分类器,并用此分类器判定指定映射的未知文本的类别。本文在研究了中文网页的结构和特点的基础上,设计完成此分类系统,并在本文中逐一说明了构建此系统的流程步骤,本文重点研究了构成此分类系统的几个重要部分即文本预处理、主题特征抽取、建立特征库、类别测度,并在真实的网络环境下进行了实验。在系统的具体实现上采用了与搜索引擎相结合的方式,从搜索引擎抓取的页面内容中抽取特征,并建立特征库,进行类别测度。最后根据当下普遍采用的检测指标衡量此系统的分类器分类准确率。 本文最后有针对性的对一些网站做了实验,并提供一系列的实验数据、评估参数来证明这个系统的有效性、可行性,阐明了该自动分类技术可以用于优化搜索引擎检索网络信息的准确度和相关性。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前5条
1 胡锦成;Web文本数据挖掘关键技术及其在网络检索中的应用[J];河北工程技术高等专科学校学报;2005年02期
2 段军峰;黄维通;陆玉昌;;中文网页分类研究与系统实现[J];计算机科学;2007年06期
3 宋枫溪,高林;文本分类器性能评估指标[J];计算机工程;2004年13期
4 罗可,林睦纲,郗东妹;数据挖掘中分类算法综述[J];计算机工程;2005年01期
5 杨洁;程传鹏;;搜索引擎上的自动分类技术研究[J];中原工学院学报;2007年06期
【共引文献】
中国期刊全文数据库 前10条
1 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
2 王煜,张明,马力;基于词条聚合和决策树的文本分类方法[J];河北大学学报(自然科学版);2005年03期
3 钱升华;武优西;柴欣;陈冀川;;文本分类综述及手机垃圾短信过滤方法的研究[J];河北工业大学学报;2007年01期
4 池越;夏克文;陈国鹰;苏昶;;一种基于QPSO和WLS-SVM的智能方法[J];河北工业大学学报;2009年02期
5 赵玲玲;杨奎河;任晓鹏;单甘霖;;支持向量机在机械故障诊断中的应用[J];河北工业科技;2007年01期
6 刘晓芹;王嘉祯;冯帆;徐波;;一种对隐写图像的四分类盲检测方法[J];河北省科学院学报;2007年03期
7 刘东辉;卞建鹏;付平;刘智青;;支持向量机最优参数选择的研究[J];河北科技大学学报;2009年01期
8 程传鹏;;基于分类的智能信息检索研究与实现[J];华北水利水电学院学报;2006年03期
9 王玉;高庆敏;孙丙宇;;基于SVM的GA及其在农业产业结构优化中的应用[J];华北水利水电学院学报;2008年01期
10 单强;邱道尹;;基于LS-SVM的模糊控制器研究[J];华北水利水电学院学报;2008年02期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 颜七笙;;基于PCA-SVM的动态联盟候选伙伴绩效评价方法[A];第十三届中国管理科学学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
3 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
4 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
7 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
8 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
9 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
10 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 潘大联,吴陈;基于高阶模糊神经网络及D-S证据理论的数据融合系统[J];华东船舶工业学院学报(自然科学版);2002年03期
2 胡学钢;郭亚光;;一种基于粗糙集的朴素贝叶斯分类算法[J];合肥工业大学学报(自然科学版);2006年02期
3 胡学钢;董学春;谢飞;;基于词向量空间模型的中文文本分类方法[J];合肥工业大学学报(自然科学版);2007年10期
4 蔡瀛旭;;信息融合及其在军事上的应用[J];航空科学技术;2006年03期
5 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
6 叶卫国,卢正鼎,王天江;基于Hyperlink聚类的网页分类研究[J];华中科技大学学报(自然科学版);2004年12期
7 葛志荣;王斌;张立明;;基于Bayes线性估计的遥感图像融合[J];中国科学(E辑:信息科学);2007年04期
8 黄萍;高校学生网络自主学习行为的调查研究[J];开放教育研究;2004年06期
9 杨金来;洪伟林;张翼翔;;网络学习行为的实时监控研究与实践[J];开放教育研究;2008年04期
10 吴菲,黄梯云;用遗传算法构造二元决策树[J];计算机研究与发展;1999年11期
中国博士学位论文全文数据库 前4条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
4 彭新俊;支持向量机若干问题及应用研究[D];上海大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 程传鹏;李钜;;中文网页分类中特征提取的研究[J];中原工学院学报;2005年06期
2 孙玲芳;黎维良;;基于定题爬虫的网页分类的多级判定算法[J];科学技术与工程;2009年18期
3 张高胤;谭成翔;汪海航;;基于K-近邻算法的网页自动分类系统的研究及实现[J];计算机技术与发展;2007年01期
4 齐宏卓;;浅谈网页模糊归类的应用[J];价值工程;2010年27期
5 张易;程林生;;一种基于领域本体的网页分类策略[J];现代计算机(专业版);2007年12期
6 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
7 韩培培;付博;;基于有限状态机的URL解析[J];微处理机;2010年05期
8 高波,张忠能,查志琴;基于文字链接比的网页分类的研究[J];计算机工程与应用;2004年27期
9 刘丽珍;贺海军;陆玉昌;宋瀚涛;;支持向量机在网页信息分类中的应用研究[J];小型微型计算机系统;2007年02期
10 王清翔;仲婷;潘金贵;;基于SVM的日文网页分类[J];广西师范大学学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前10条
1 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 程新荣;杨仁刚;;网页自动分类在搜索引擎上的应用研究[A];2007'中国仪器仪表与测控技术交流大会论文集(二)[C];2007年
3 彭涛;左万利;赫枫龄;张长利;;基于粒子群优化算法的网页分类技术[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 程静;邱玉辉;;Web Mining中的网页分类[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
5 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 万中英;王明文;廖海波;左家莉;;维数约简在网页分类中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
8 秦兵;郑实福;刘挺;张刚;李生;;基于改进的贝叶斯模型的中文网页分类器[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
10 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
中国重要报纸全文数据库 前10条
1 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
2 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
3 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
4 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
5 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
6 李一鑫;搜索排名的红与黑[N];财经时报;2007年
7 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
8 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
9 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
10 李同;怎样选择“付费搜索引擎”[N];光明日报;2006年
中国博士学位论文全文数据库 前10条
1 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
2 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
3 周翀;搜索引擎中文档聚类方法研究[D];华中科技大学;2009年
4 阎红灿;面向Web的XML文档数据管理及分类检索技术研究[D];天津大学;2009年
5 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
6 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
7 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
8 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
9 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
10 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 伍菲;面向主题型的网页分类技术的研究与实现[D];华中科技大学;2011年
2 张祥;一个网页分类系统的研究与实现[D];北京邮电大学;2013年
3 韩培培;网页分类及存储查询系统的设计及实现[D];燕山大学;2010年
4 吕婷婷;统计和规则相结合的新闻网页分类系统的设计与实现[D];电子科技大学;2011年
5 黄美宁;基于用户行为分析的网页分类系统的研究与实现[D];北京邮电大学;2011年
6 刘兰哲;企业搜索引擎中网页分类技术的研究与实现[D];东北大学;2008年
7 朱建建;非负矩阵分解及其在模糊网页分类中的应用[D];安徽大学;2012年
8 李玄;基于URL特征的网页分类研究[D];南京邮电大学;2011年
9 赵翔;基于Web挖掘的中医知识发现研究[D];北京交通大学;2010年
10 刘宏伟;搜索引擎中中文WEB文本自动分类研究[D];暨南大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026