收藏本站
《西华大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于形式概念分析的中文网页分类研究

陈文斐  
【摘要】:随着Internet的不断发展,互联网上的信息越来越多,互联网也随之成了人们获取信息的巨大资料库。但是网上的信息错综复杂,人们在搜索信息的时候很容易查到一些相近却不相关的信息。这些不相关的信息严重影响了人们对准确信息的查找效果。所以,如何使人们从互联网中快速准确的获取到自己想要的信息,就成为我们必然的研究趋势。 为了方便用户获取互联网上的信息,研究者推出了搜索引擎。搜索引擎无疑为人们获取知识提供了方便。然而多数搜索引擎的返回结果的数量十分庞大,而且返回的许多搜索结果不太符合用户的搜索意图。为了解决这一问题,研究者们经过深入探索,提出了分类技术。他们将数量庞大的搜索结果分别归类到相应的领域中。当用户从相应的数据领域中查找所需要的信息时,搜索引擎就会快速高效的返回正确的查询结果。因此,分类技术已经成为数据挖掘和搜索引擎的重要部分。 在万维网出现以前,分类技术一般都应用于普通文档的分类。同时出现了许多针对文档分类的相关技术,如ATC等。随着网络的不断发展,网页随之产生。网页作为一种信息载体,与人类生活变得息息相关。网页分类作为一种搜索引擎的重要技术,被广泛应用于信息检索、主题搜索、关键字查找以及数字图书馆等领域。 到目前为止,已经出现了多种分类方法。但是很多中文网页分类方法的分类效率和准确率不太令人满意。为了改善中文网页的分类状况,本文利用形式概念分析的基本知识,提出一种基于概念格的KNN分类方法。该方法主要利用先聚类后分类的思想,使得分类效果更加准确。在运用该思想的过程中,本文将类别概念定义为从概念格中选取出来的用于分类的所有概念。本文将概念格进行的一次聚类理解为第一次分类,二次分类是首先将选取出来的类别概念进行归类,建立一个向量空间模型,其中,类别概念对应向量空间模型中的列向量,类别概念的属性对应向量空间模型中的行向量。同时,待分类网页也用向量表示,然后结合KNN分类算法,实现中文网页的分类。在概念格与KNN结合的过程中,本文需要处理两个问题:(1)特征项的选取。(2)类别概念的提取。 本文通过基于概念格的KNN分类方法,不仅降低了向量空间的维数,进而提高了分类效率,而且提高了网页分类的准确率和召回率。
【学位授予单位】:西华大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092

【相似文献】
中国期刊全文数据库 前10条
1 刘青,何政;结合EM算法的朴素贝叶斯方法在中文网页分类上的应用[J];计算机工程与科学;2005年07期
2 段军峰;黄维通;陆玉昌;;中文网页分类研究与系统实现[J];计算机科学;2007年06期
3 冯是聪,单松巍,龚笔宏,张志刚,李晓明;“天网”目录导航服务研究[J];计算机研究与发展;2004年04期
4 高洁;赵俊荣;;基于增量式Bayes的中文网页自动分类技术[J];电脑知识与技术(学术交流);2006年14期
5 许世明;武波;马翠;邸思;徐洪奎;杜如虚;;一种基于预分类的高效SVM中文网页分类器[J];计算机工程与应用;2010年01期
6 冯是聪,张志刚,李晓明;一种中文网页自动分类方法的实现及应用[J];计算机工程;2004年05期
7 王琳;陈伟萍;封化民;方勇;杨鼎才;;基于类别概念的特征选择方法[J];北京电子科技学院学报;2006年02期
8 金一宁;王华兵;王德峰;;基于KNN及相关链接的中文网页分类研究[J];哈尔滨商业大学学报(自然科学版);2011年02期
9 崔伟东,李 星;中文网页分类查询系统的设计与实现[J];计算机工程与应用;2000年11期
10 谷峰;刘晨曦;吴扬扬;;基于序列数据挖掘的中文网页特征选择方法[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前4条
1 秦兵;郑实福;刘挺;张刚;李生;;基于改进的贝叶斯模型的中文网页分类器[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 向华东;;心理词典中范畴化现象的脑机制研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
3 冯莉;;基于本体的飞机设计知识建模研究[A];2011年中国航空学会管理科学分会学术交流会议论文集[C];2011年
4 徐立恒;刘洋;来斯惟;刘康;田野;王渝丽;赵军;;基于多特征表示的本体概念挂载[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前5条
1 冯帼英;品牌速成十八法则[N];经济视点报;2005年
2 冯帼英;品牌如何快速成长(下)[N];江苏经济报;2004年
3 周蕊;“多芬”法则[N];中国现代企业报;2007年
4 力平;红木为何如此“红火”[N];广西日报;2000年
5 于平;现代舞、当代舞及其他[N];中国文化报;2002年
中国博士学位论文全文数据库 前3条
1 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
2 李晓旭;基于概率主题模型的图像分类和标注的研究[D];北京邮电大学;2012年
3 唐华茂;高技术产业发展与创新[D];中国社会科学院研究生院;2001年
中国硕士学位论文全文数据库 前10条
1 陈文斐;基于形式概念分析的中文网页分类研究[D];西华大学;2011年
2 刘海春;基于朴素贝叶斯的中文网页分类技术研究与应用[D];华南理工大学;2012年
3 孔令成;基于特征提取和权值计算算法的中文网页分类研究[D];安徽大学;2010年
4 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
5 吴巧敏;基于支持向量机的文本分类算法研究[D];湖南大学;2007年
6 温安国;基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究[D];复旦大学;2009年
7 金一宁;基于KNN及相关链接的中文网页分类研究[D];哈尔滨工程大学;2008年
8 王琳;基于类别概念的中文文本分类研究[D];北京邮电大学;2006年
9 葛永兴;基于贝叶斯算法和后向链接的中文网页组合分类研究[D];东北师范大学;2009年
10 刘海珠;4~5岁中班幼儿分类教育的研究[D];华东师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026