收藏本站
《上海交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于改进KNN的文本分类算法的设计与实现

杜尔斌  
【摘要】:随着互联网上信息量的爆炸式增长,电子文本信息也随之大量增加。如何有效地管理电子文本信息也成为了当今信息科学技术日益重要的一大课题。而文本自动分类,作为一种有效的提高文本检索速度和准确率的方法,在电子文本信息管理中起着非常重要的作用。 目前比较常用的文本分类技术主要有:向量空间模型(VSM)、K个最近邻法(KNN)、神经网络(NNet)、支持向量机(SVMs)和贝叶斯算法(Bayes)等。而KNN算法是一种简单,但是非常有效的文本分类算法,有着广泛的应用。 论文首先介绍文本分类技术的历史与现状,然后详细介绍了KNN算法作为一种非常简单有效的文本分类算法,在文本分类技术中的广泛运用。传统KNN算法往往运用非监督的权重分配方法对特征项的特征项分配权重,一定程度上影响了距离测度计算的精确性。文章针对传统权重分配算法的不足,采取x 2统计量方法和信息增益这两种监督权重分配方法,有效地利用了训练集标签信息,提高了KNN算法的精确度。随后,论文针对传统KNN算法计算量过大的缺点,引入了生成代表样本集的方法,对原始训练集进行裁剪并予以取代,从而减少了分类系统的计算量,有效地提高了系统的效率。 最后,论文采用了Reuters-21578文档集作为训练集和测试集,分别应用了传统的非监督权重分配方法(布尔权重,TF-IDF),以及改进的监督权重分配方法(x 2统计量方法和信息增益)进行KNN分类算法精确度的比较,验证了监督权重分配方法对于提高文本分类算法精确度的作用。另外,还对基于传统KNN算法的分类器与基于改进的使用代表样本集方法的KNN算法分类器进行比较,证明了代表样本集方法有效地提高了分类器的效率。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 李巍;孙涛;陈建孝;罗梓恒;李雄飞;;基于加权余弦相似度的XML文档聚类研究[J];吉林大学学报(信息科学版);2010年01期
2 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
3 刘海博;郗亚辉;王煜;;用于文本分类的快速KNN算法[J];河北大学学报(自然科学版);2008年03期
4 于一;;K-近邻法的文本分类算法分析与改进[J];火力与指挥控制;2008年04期
5 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
6 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
7 徐威;董渊;白若鹞;张素琴;;针对中文文本自动分类算法的评估体系[J];计算机科学;2007年08期
8 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期
9 石正喜;张捍东;赵黎明;陈玉燕;;一种改进的MM中文分词算法[J];计算机与网络;2009年02期
10 饶文碧;柯慧燕;;Web文本分类技术研究及其实现[J];计算机技术与发展;2006年03期
中国博士学位论文全文数据库 前2条
1 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前7条
1 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
2 张滨;中文文档分类技术研究[D];武汉大学;2004年
3 张治平;Web信息精确获取技术研究[D];国防科学技术大学;2004年
4 王宇;基于TFIDF的文本分类算法研究[D];郑州大学;2006年
5 柴春梅;互联网短文本信息分类关键技术研究[D];上海交通大学;2009年
6 桑应宾;基于K近邻的分类算法研究[D];重庆大学;2009年
7 梅君;中文文本分类的研究与应用[D];南昌大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
4 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
5 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
6 谢秋华;;Web文本挖掘的相关技术问题探讨[J];长春理工大学学报;2010年07期
7 贾丙静;吴长勤;葛华;;Web文本聚类的研究与实现[J];长春师范学院学报;2011年06期
8 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
9 吕佳;;基于改进分类模型的文本分类系统实现[J];重庆师范大学学报(自然科学版);2009年02期
10 王志明;沙莎;;Web文本挖掘技术在新闻主题检测中的应用研究[J];长沙大学学报;2007年05期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
4 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
5 严春美;郭熙铜;陈晓东;;基于电子病历的智能诊断系统研究[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
6 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
7 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
8 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 卢朋;曾隽芳;杨一平;;基于背景知识的文本自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
10 郭庆军;赵燕平;;一种简单的基于奖励机制的文本分类算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
3 薛洋;基于单个加速度传感器的人体运动模式识别[D];华南理工大学;2011年
4 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
5 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
6 王迈;语言形式化原理[D];上海外国语大学;2011年
7 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
8 申文武;无结构P2P网络中基于语义和节点存储能力的搜索关键技术研究[D];北京邮电大学;2011年
9 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
10 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
5 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
6 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
7 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
8 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
9 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
10 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 王建芬,曹元大;支持向量机在大类别数分类中的应用[J];北京理工大学学报;2001年02期
3 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
4 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
5 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
6 王淑盛,徐正光,刘黄伟,王志良,史立峰;改进的K近邻方法在岩性识别中的应用[J];地球物理学进展;2004年02期
7 王娟琴;超维检索模式研究[J];大学图书馆学报;1999年01期
8 豆增发;王英强;王保保;;一种基于信息增益的K-NN改进算法[J];电子科技;2006年12期
9 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
10 赵莹 ,高隽 ,汪荣贵 ,胡静;一种新的广义最近邻方法研究[J];电子学报;2004年S1期
中国硕士学位论文全文数据库 前7条
1 张隆;基于信息论的特征选择和分类算法研究[D];西南农业大学;2005年
2 王宇;基于TFIDF的文本分类算法研究[D];郑州大学;2006年
3 何淑芳;基于BBS文本信息的中文自动分词系统的研究[D];中国海洋大学;2006年
4 庞剑锋;基于向量空间模型的自反馈的文本分类系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
5 叶振宇;基于关联规则和向量空间模型的文本分类研究[D];东南大学;2005年
6 张桂林;中文文本自动分类系统的研究与实现[D];吉林大学;2007年
7 王卫玲;web文本分类中特征向量优化技术研究[D];山东师范大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 张军华;试论电视新闻的文本结构特征[J];广西师范学院学报(哲学社会科学版);2004年02期
2 薛翠芳,郭炳炎;汉语文本结构的自动分析[J];情报学报;2000年04期
3 李静月;李培峰;朱巧明;;一种改进的TFIDF网页关键词提取方法[J];计算机应用与软件;2011年05期
4 金艳;;手机短信的文本功能及特征分析[J];今传媒;2011年07期
5 魏丽霞;郑家恒;;基于网页文本结构的网页去重[J];计算机应用;2007年11期
6 陈燕敏;楼喜中;;一种基于集聚确定文本意向结构的方法[J];微计算机信息;2010年18期
7 朱荷香;曲维光;卢俊之;李素建;邵艳秋;;面向自动文摘的文本结构划分[J];南京大学学报(自然科学版);2008年02期
8 李丽娟;;敦煌写本临圹文研究[J];首都师范大学学报(社会科学版);2010年S1期
9 刘晓畅;;新闻的话语与话语的新闻——解读《作为话语的新闻》[J];湖北社会科学;2006年01期
10 陈翼;张计龙;宓詠;;一种跨领域的信息资源的描述标准——基于都柏林核心元数据的高校管理信息标准的研究与应用[J];情报学报;2008年03期
中国重要会议论文全文数据库 前10条
1 段娅;;论社会学批评的人本主义——评析戈德曼和齐马对社会学批评的发展[A];福建省外国语文学会2008年年会论文集[C];2008年
2 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 坂井洋史;;记忆·历史·文本——与周立民君商榷[A];细读《随想录》[C];2008年
4 王应云;谭见初;;汉语韵文英译方法论[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
5 刘玲;周经野;罗慧慧;;基于XML的文本规划方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
6 王冬梅;;文学性与文学翻译[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
7 周小甲;周庆利;;中文病历文本中时间信息自动标注[A];2011年浙江省医学会医学工程学分会第九届学术年会论文汇编[C];2011年
8 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
9 陈炯;;立法语言的规范与创新[A];修辞学新视野——汉语修辞与汉文化学术研讨会论文集[C];2004年
10 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 湖南省长沙铁路第一中学 黄福清;“多元解读”莫遭到误读[N];中国教育报;2006年
2 张磷;伦敦桥与翻译[N];中华读书报;2003年
3 ;采用国际标准管理办法[N];中国国门时报(中国出入境检验疫报);2002年
4 马洋;随心所欲建论坛[N];中国计算机报;2002年
5 程惠哲;《文学语言学》简评[N];光明日报;2005年
6 天津大学管理学院 张水波;FIDIC合同文本的发展与应用[N];国际商报;2007年
7 张稔穰;文学阅读与阐释的新视野[N];光明日报;2006年
8 刘绍艳;出口企业采用国际标准须关注的几个问题[N];宁波日报;2006年
9 冯光华;推动制度创新 奠定金融衍生产品市场坚实制度基础[N];中国证券报;2007年
10 本报记者 王玮;主旋律图书的模样[N];光明日报;2000年
中国博士学位论文全文数据库 前10条
1 王丹丹;森佩尔三个文本的形式原则比较研究[D];南京大学;2013年
2 温有奎;基于语义挖掘的文本知识元模型与应用研究[D];武汉大学;2010年
3 刘生良;《庄子》文学研究[D];陕西师范大学;2003年
4 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
5 钱纪芳;和合翻译观照下的服装文字语言翻译[D];上海外国语大学;2008年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 王媛;《今文尚书》文本结构研究[D];首都师范大学;2008年
8 贾学鸿;《庄子》结构艺术研究[D];华东师范大学;2007年
9 蒋斌;文本载体信息隐藏及相关技术研究[D];解放军信息工程大学;2008年
10 林佩璇;《圣经》典故研究:价值与缺失[D];福建师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 华秀丽;文本抄袭检测方法研究[D];苏州大学;2012年
2 张年东;非连续性文本及其阅读和表达研究[D];西南大学;2014年
3 梁旭;评论文本的对立观点摘要的研究[D];北京交通大学;2013年
4 郑勤勤;面向专业领域的文本矩阵模型[D];华南理工大学;2012年
5 王来涛;网络短文本话题发现与趋势预测研究[D];北京工业大学;2013年
6 张娴;张洁小说语言音乐美试析[D];延边大学;2004年
7 乔宝辉;《德意志意识形态》第一章文本研究[D];黑龙江大学;2009年
8 史良;一种基于特征选择的层次化文本分类算法[D];哈尔滨工程大学;2013年
9 庄明;装备发展战略研究信息化平台中汉语文本信息提取技术的研究[D];国防科学技术大学;2003年
10 刘立胜;从读者接受的角度看文学翻译对等[D];重庆大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026