收藏本站
《西北大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类相关技术与应用研究

王小燕  
【摘要】: 随着通信技术和计算机技术,尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量的文本中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受到了广泛的关注。 文本分类是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文描述了文本分类的基础理论,讨论了文本分类的相关技术,在向量空间模型的基础上构建文本表示模型,研究现有的特征选择及算法。主要研究如下: 1.提出文本分类的理论基础,讨论文本表示的整个过程:分词,建立停用词表,特征选择,权重计算,生成向量空间。 2.介绍并讨论了四种文本分类方法:贝叶斯方法,KNN方法,支持向量机法,决策树分类法,并对他们进行对比研究。 3.针对文本分词技术,特征选取算法和训练分类算法三部分进行了详细的分析和研究,并在现有方法的基础上予以改进,最后通过实验分析了系统的性能。实验结果表明改进后分类系统的性能更加令人满意,证明了算法的有效性。 4.对文本分类的未来研究进行展望。
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前3条
1 张莹;王耀南;万琴;;参数嵌入算法在文本分类可视化中的应用[J];计算机工程与应用;2009年16期
2 方志龙;;文本特征选择算法MI的改进[J];计算机与现代化;2011年07期
3 王斌;邵华清;刘振;;基于优化类中心分类算法的文本分类研究[J];科技传播;2011年18期
中国硕士学位论文全文数据库 前3条
1 胡改蝶;中文文本分类中特征选择方法的应用与研究[D];太原理工大学;2011年
2 曾志中;基于贝叶斯算法的垃圾邮件过滤系统的分析与实现[D];北京邮电大学;2009年
3 薛亮;基于SVM的中文文本分类系统的设计与实现[D];重庆大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
2 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
3 陈清才,王晓龙;一种基于词矢量的汉语语义量化模型[J];计算机研究与发展;2001年02期
4 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
5 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
6 刘钢,胡四泉,范植华,王勇,张彤;神经网络在文本分类上的一种应用[J];计算机工程与应用;2003年36期
7 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期
8 王实;高文;;增强型朴素贝叶斯学习[J];计算机科学;2000年04期
9 都云琪,肖诗斌;基于支持向量机的中文文本自动分类研究[J];计算机工程;2002年11期
10 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
中国博士学位论文全文数据库 前1条
1 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前1条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
【共引文献】
中国期刊全文数据库 前10条
1 陈景年;黄厚宽;杨莉萍;田凤占;;基于分布不完整数据选择性分类器[J];北京交通大学学报;2008年02期
2 陈景年;黄厚宽;徐力;伊传环;;利用增益率构建混合型选择性不完整数据分类器[J];北京交通大学学报;2009年05期
3 王中锋;王志海;付彬;;贝叶斯网络分类器结构与变量分布的差异性分析[J];北京交通大学学报;2011年02期
4 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
5 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
6 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
7 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
8 马勇;仝瑶瑶;程玉虎;;一种改进的最大相关最小冗余选择性贝叶斯分类器[J];北京科技大学学报;2012年01期
9 郑建军,刘炜,刘琼昕,刘玉树;基于选择性的贝叶斯分类器集成方法[J];北京理工大学学报;2003年06期
10 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
中国重要会议论文全文数据库 前10条
1 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 杨波;秦锋;程泽凯;;一种新的分类学习系统评估度量[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
4 赵越岭;王英丽;;基于粗糙集感应电动机故障诊断决策规则分析[A];第二十七届中国控制会议论文集[C];2008年
5 ;Gas Thickness On-line Monitoring Instrument Design Based on BP Neural Network[A];第二十七届中国控制会议论文集[C];2008年
6 ;Fault Diagnosis Based on Bayesian Networks for the Data Incomplete Industrial System[A];中国自动化学会控制理论专业委员会A卷[C];2011年
7 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
9 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
10 ;A Recursive Method of Learning Bayesian Network for Rule Extraction Based on Information Theory[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 刘家国;基于突发事件风险的供应链利益分配与行为决策研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
6 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
8 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
9 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
10 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
5 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
6 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
7 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
8 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
9 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
10 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 台德艺;谢飞;胡学钢;;文本分类技术研究[J];合肥学院学报(自然科学版);2007年03期
4 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
5 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
6 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
7 张玉芳;陈小莉;熊忠阳;;基于信息增益的特征词权重调整算法研究[J];计算机工程与应用;2007年35期
8 陈龙;范瑞霞;高琪;;基于概念的文本表示模型[J];计算机工程与应用;2008年20期
9 都云琪,肖诗斌;基于支持向量机的中文文本自动分类研究[J];计算机工程;2002年11期
10 熊忠阳;张鹏招;张玉芳;;基于χ~2统计的文本分类特征选择方法的研究[J];计算机应用;2008年02期
中国硕士学位论文全文数据库 前10条
1 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
2 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
3 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
4 朱望斌;自动文本分类算法研究[D];湖南大学;2005年
5 邹汉斌;支持向量机在文本分类中的应用[D];江南大学;2006年
6 陈海波;基于自动分词的企业文档搜索引擎设计与实现[D];西北工业大学;2007年
7 张桂林;中文文本自动分类系统的研究与实现[D];吉林大学;2007年
8 袁彦芹;基于支持向量机的大规模文本分类研究与设计[D];山东师范大学;2007年
9 旺建华;中文文本分类技术研究[D];吉林大学;2007年
10 蒋敏梅;基于概念的文本分类研究[D];北京交通大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 王飞;何学文;;二元正态分离的特征词提取算法的研究与改进[J];黑龙江科技信息;2012年10期
中国博士学位论文全文数据库 前1条
1 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前3条
1 马达;基于贝叶斯的判别理论及其算法实现[D];中国地质大学(北京);2011年
2 谢扬才;中文文本分类核心技术研究[D];广西师范大学;2011年
3 王飞;文本分类相关算法的研究与实现[D];哈尔滨工程大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 张琪玉;缺乏抽词词典是自动抽词标引难以普及的主要原因[J];图书与情报;1998年02期
2 李未,黄文奇;一种求解合取范式可满足性问题的数学物理方法[J];中国科学(A辑 数学 物理学 天文学 技术科学);1994年11期
3 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
4 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
5 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
6 徐志明,王晓龙,张凯,关毅;联机手写体汉字识别后处理技术的研究[J];计算机研究与发展;1999年05期
7 林鸿飞,李业丽,姚天顺;中英文双语交叉过滤的逻辑模型[J];计算机工程与应用;2000年08期
8 牛伟霞,张永奎;潜在语义索引方法在信息过滤中的应用[J];计算机工程与应用;2001年09期
9 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
10 周强;;基于语料库和面向统计学的自然语言处理技术[J];计算机科学;1995年04期
【相似文献】
中国期刊全文数据库 前10条
1 钟将;孙启干;李静;;面向文本分类的矩阵投影算法[J];计算机工程与应用;2010年35期
2 潘正高;侯传宇;谈成访;;基于命名实体的Web新闻文本分类方法[J];合肥工业大学学报(自然科学版);2011年08期
3 谷峰;吴扬扬;;文本分类关键技术[J];福建电脑;2006年09期
4 符发;;中文文本分类中特征选择方法的比较[J];现代计算机(专业版);2008年06期
5 谢科;张辉;陈鹏;庞斌;;文本分类系统关键技术[J];广西师范大学学报(自然科学版);2007年02期
6 林森;唐发根;;基于Log似然比的特征选择算法[J];计算机工程;2009年19期
7 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
8 陈子昕;;基于SVM的文本分类系统设计与实现[J];东莞理工学院学报;2008年03期
9 林永民;吕震宇;赵爽;朱卫东;;向量空间模型中特征加权的研究[J];情报杂志;2008年03期
10 台德艺;谢飞;胡学钢;;新的基于簇划分文本分类方法[J];计算机工程与设计;2009年06期
中国重要会议论文全文数据库 前10条
1 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
5 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
9 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 ;SecuiWALL独创分类算法[N];计算机世界;2002年
2 俞路石;中科大研究生解决网络数据包有效分类算法[N];中国教育报;2007年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 周晓娟;TD已过分水岭[N];通信产业报;2008年
5 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
6 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
7 ;锐捷RG-WALL系列防火墙[N];电脑商报;2004年
8 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
9 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
10 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
中国博士学位论文全文数据库 前10条
1 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
2 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
5 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
6 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
7 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
8 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
9 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
10 郝立柱;汉语文本自动分类[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
2 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
3 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
4 王生新;基于支持向量机的文本分类研究[D];哈尔滨工程大学;2008年
5 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
6 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
7 叶振宇;基于关联规则和向量空间模型的文本分类研究[D];东南大学;2005年
8 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
9 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
10 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026