收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

一种基于关键向量的文本分类模型的研究

赵博  
【摘要】: 随着计算机与网络技术的快速发展,网络已成为人们存储与获取信息的主要手段,存储于网上的文本数量也成指数级增长。这在为用户提供了海量信息的同时,也给用户从中获取有用信息带来了困难。如何能够快速又精准的在如此大量的信息中检索到用户所需的内容已成为当今重要的研究课题。文本的自动分类技术能够有效地将文本信息组织起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。自从上个世纪六十年代被提出至今,文本的自动分类技术已经有了极大的发展,有许多分类算法被提出,文本自动分类技术已经在搜索引擎,数字图书馆,信息检索等领域得到了广泛的应用。 向量空间模型是目前进行大规模文本处理的一种通用模型,当前主流的分类算法如K-近邻算法(KNN),支持向量机算法(SVM)等均是基于该模型的分类算法。虽然人们对这些算法已经有了深入的研究和广泛的应用,但是在其性能上仍有许多不尽人意的地方。课题首先在系统的理论学习和对国内外文献研究的基础上,分析了向量空间模型的特点和当前主流文本自动类算法的缺点和不足。针对目前主流分类算法对待训练文档过于简单的特点提出了一个基于向量空间模型的文本分类算法,引入了关键向量的概念,通过对训练文档进行分析,找出每一类别的关键向量,并赋予其一定的权值,使其为下一步的分类工作提供更多的信息,最后利用其对测试文档进行分类。 在此之后,应用实验对该算法进行了测试,并与传统分类算法进行了比较。实验结果表明,与传统算法相比,该分类算法可以在一定程度改善分类速度与精度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 赵博;丁华福;;一种基于关键向量的文本分类模型[J];信息技术;2007年12期
2 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期
3 杨霞;黄陈英;;文本挖掘综述[J];科技信息;2009年33期
4 李子久;杜庆灵;;人工鱼群算法在文本分类中的应用研究[J];电脑知识与技术;2010年25期
5 谢冬;刘宏申;;文本挖掘中若干关键问题的研究[J];电脑知识与技术;2009年18期
6 陈瑞芬;一种结合反馈方法的中文文本分类算法[J];计算机应用;2005年12期
7 陈莉;;基于岭回归和支持向量机结合的数据挖掘新方法[J];情报学报;2008年02期
8 刘科;;基于KNN算法的文本分类[J];科技经济市场;2009年06期
9 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期
10 王博;贾焰;杨树强;韩伟红;;文本多分类中的特征选择研究[J];计算机工程与科学;2010年08期
11 曾立梅;;基于文本数据挖掘的硕士论文分类技术[J];重庆邮电大学学报(自然科学版);2010年05期
12 徐平;徐建中;;基于量子自组织网络的Web文本自动分类方法[J];情报科学;2009年01期
13 陈京民;闫朝阳;;网格技术在文本分类系统中的应用研究[J];计算机时代;2007年12期
14 韩杰;王自强;李春峰;谭明交;;蚁群算法在网页内容分类中的应用研究[J];计算机系统应用;2009年04期
15 李小红;许少华;;基于模糊向量和BP网络的Web文本自动分类方法[J];福建电脑;2006年02期
16 罗超;郭斌;龙侃;;基于Cross-Validation模型的可扩展标记语言文本分类算法对比研究[J];井冈山大学学报(自然科学版);2010年03期
17 周顽;周才学;;基于扩展概念格模型的文本分类规则提取的研究[J];计算机工程与科学;2010年08期
18 郑凤萍;刘春雨;;基于模糊向量空间的文本分类方法[J];情报科学;2007年04期
19 闫鹏;郑雪峰;李明祥;陈松华;;二值文本分类中基于Bayes推理的特征选择方法[J];计算机科学;2008年07期
20 张培颖;;基于Web内容和日志挖掘的个性化网页推荐系统[J];计算机系统应用;2008年09期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
5 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
6 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
7 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
8 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
9 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
10 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国博士学位论文全文数据库 前10条
1 封毅;中医药知识发现可靠性研究[D];浙江大学;2008年
2 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
3 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
4 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
5 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
6 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
7 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
8 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
9 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
10 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
中国硕士学位论文全文数据库 前10条
1 汪传建;基于混合模型的文本分类的研究[D];东北大学;2005年
2 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
3 周振龙;支持向量机理论在文本分类中的应用研究[D];兰州理工大学;2007年
4 王生新;基于支持向量机的文本分类研究[D];哈尔滨工程大学;2008年
5 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
6 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
7 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
8 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
9 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
10 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978