收藏本站
《中国石油大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于向量空间模型的中文网页自动分类技术研究

冯静  
【摘要】: 信息技术的发展和互联网资源的迅速膨胀对传统的搜索引擎提出了挑战。在提高搜索引擎对信息的检索效率和用户操作的方便性方面,中文网页自动分类技术是一个有效的解决方案,是中文信息处理中的重要环节。它能够自动地把搜索引擎检索到的结果归类,便于用户按类别进行查找,提高检索信息的效率,已成为信息检索方向的研究热点。 介绍了网页分类的原理、流程和分类的各项关键技术。阐述了网页预处理、向量空间模型的原理、特征选取技术、流行的分类算法和分类的评价指标,对这几种分类算法的分析表明KNN算法是最适合应用于网页分类的分类算法。概括了网页分类在搜索引擎中的重要作用。深入研究了KNN算法,分析了国内外主要的改进算法,发现KNN在大规模在线分类方面存在着效率上的缺陷。从修剪训练集合的角度出发,提出了一种生成代表样本集合的算法,并在中文网页分类器CPCK上进行验证。实验证明,与普通的KNN分类算法相比,代表样本算法的分类效率得到了一定程度的提高。从网页的布局和功能进行分析,发现在网页的分块信息中,相关链接与网页的主题存在着一定关联。在研究网页分块算法的基础上,充分利用网页中的结构化信息和链接资源,提出了利用分块算法提取主题相关链接块,并对相关链接的锚文本进行加权的权值修正方法。设计并实现了一个中文网页分类器CPCK,实现了对网页的自动处理、特征抽取和分类,并将提出的改进算法应用到分类器中进行验证。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐晓丹;;中文网页自动摘要系统的研究[J];计算机与现代化;2006年09期
2 冯是聪,张志刚,李晓明;一种中文网页自动分类方法的实现及应用[J];计算机工程;2004年05期
3 武湖成;;中文网页文字信息的提取方法[J];电脑与电信;2007年10期
4 李芳芳;葛斌;毛星亮;汤大权;;基于语义关联的中文网页主题词提取方法研究[J];计算机应用研究;2011年01期
5 蒋昌金;彭宏;陈建超;马千里;严桂夺;;基于组合词和同义词集的关键词提取算法[J];计算机应用研究;2010年08期
6 江祥奎,原思聪;中文网页分类中的网页特征提取方法[J];电脑开发与应用;2005年10期
7 ;网络[J];电脑爱好者;2010年11期
8 罗克,闵华清;用ASP实现中文网页文本的加密与解密[J];计算机应用;2001年02期
9 刘艳民;;中文网页分类方法的研究[J];微电子学与计算机;2009年09期
10 ;中文网页荟萃(一)[J];网络与信息;1997年03期
11 ;中文网页荟萃(二)[J];网络与信息;1997年04期
12 武略;;DEC开设中文网页[J];每周电脑报;1996年08期
13 ;网盟宣传免费[J];每周电脑报;1997年31期
14 江德华;挖掘UltraEdit优化中文网页功能[J];电脑爱好者;2001年24期
15 王鹏;;ZDNet结识“人间烟火”[J];每周电脑报;1997年48期
16 Sweet;让中文网页进驻PDF文件[J];电脑爱好者;2003年04期
17 ;让Google默认只搜索简体中文网页[J];电脑爱好者;2003年24期
18 hup;;让你的Opera能够自动换行[J];电脑界(应用文萃);2000年12期
19 阳爱民,孙星明,胡运发,李长云;跨平台中文网页阅读系统[J];计算机工程;2002年12期
20 冯是聪,王继民;关于“中文网页自动分类竞赛”结果的分析[J];中文信息学报;2003年05期
中国重要会议论文全文数据库 前10条
1 薛长勇;;营养相关网络资源简介[A];2009年国家级继续医学教育项目临床营养新进展培训班论文集[C];2009年
2 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
3 郭稷;吕雅娟;刘群;;一种有效的基于Web的双语翻译对获取方法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 董静;林鸿飞;杨志豪;;中文网页形式自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
6 李静静;闫宏飞;;中文网页信息检索测试集的构建、分析及应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 刘菁菁;林鸿飞;;基于结构和链接扩展的中文网页分类研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
8 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
9 李大林;;性与生殖医疗服务市场的现状及发展前景[A];江苏省性学会第五次学术会议论文集[C];2004年
10 周国民;丘耘;郑彦妍;曾枝连;樊景超;;基于SDD算法的特定网页采集技术[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 陈翔;趋势科技:近十万中文网页遭入侵[N];中国计算机报;2008年
2 洪达;雅虎中国尝鲜“宝贝鱼”[N];民营经济报;2006年
3 本报记者 侯继勇 刘涓涓;百度解密:李彦宏背后的蜘蛛侠[N];21世纪经济报道;2005年
4 李彦宏;让中文在网络世界影响更大[N];人民日报;2006年
5 记者 史芳;雅虎搜索出山了[N];中国经济导报;2005年
6 赵明;张朝阳,从眼球回到技术[N];中国经济时报;2006年
7 赵垒;中文搜索引擎再点硝烟[N];中华工商时报;2006年
8 天津 武金刚;豆仔热线[N];电脑报;2003年
9 本报记者 关桂峰;“人立方”红遍互联网 勿成恶搞助推器[N];经济参考报;2008年
10 本报记者 吴晓伟;慧聪:做一个商人的门户[N];计算机世界;2004年
中国博士学位论文全文数据库 前1条
1 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘娇;排序学习中的中文网页特征提取方法[D];哈尔滨工业大学;2009年
2 王崑崙;中文网页自动分类的一种实现[D];大连理工大学;2002年
3 盛魁;基于SVM的中文网页自动分类技术研究[D];安徽大学;2011年
4 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年
5 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
6 李贞;基于统计语言模型的中文网页信息检索研究[D];华中师范大学;2012年
7 郝丽维;中文网页热门主题获取系统的研究与实现[D];河北大学;2009年
8 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
9 熊芝;中文网页自动摘要系统的设计与实现[D];华南理工大学;2011年
10 徐晓丹;中文Web文档自动摘要系统的研究[D];国防科学技术大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978