收藏本站
《北京交通大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类及其相关技术研究

尚文倩  
【摘要】: 随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,己逐渐成为处理和组织大量文档数据的关键技术。而对于采用矢量空间模型的大多数文本分类器来说,文本预处理一直是分类的瓶颈,文本预处理结果的好坏直接影响着分类器的分类性能。因此本文在对文本分类算法进行研究的同时,也深入研究了文本预处理的有关算法,有效地提高了分类器的分类性能。 本文的研究工作主要包括:(1)对文本预处理算法的改进 提出了一种新的文本特征选择算法。对于分类前的文本预处理工作来说,首先要进行文本的特征选择,选出最能代表文档特征的单词作为特征空间中的维,以期达到降低特征空间的维数、提高分类器分类性能的目的。本文在分析研究现有文本预处理算法优、缺点的基础上,对基尼指数方法进行改进,并将其用于文本的特征选择,有效地提高了分类器的分类性能。 提出了一种新的特征加权算法。对于基于矢量空间模型的文本预处理来说,在进行特征选择以后,还要进行特征的加权处理,以突出重要单词对分类的影响,抑制次要单词和噪音数据。最有代表性的特征加权算法就是传统的TF—IDF方法,本文在分析研究该方法优、缺点的基础上,采用改进的基尼指数方法对其进行改进,达到了提高分类器的分类性能的目的。(2)对kNN文本分类器的改进 改进了kNN文本分类器的分类决策规则。近年来,出现了众多的文本分类算法,算法的分类性能各有千秋,其中kNN分类算法被众多的研究者证明是分类性能比较好的方法之一。本文采用模糊分类的思想,通过引入隶属度函数,构建了新的分类决策公式,使kNN的分类性能得到了有效提高,在一定程度上解决了当类分布不均匀时kNN分类器的分类性能下降的问题。 在模糊kNN分类器的基础之上,采用改进的基尼指数算法进行特征加权,进一步提高了模糊kNN分类器的分类性能。(3)对朴素贝叶斯文本分类器的改进 朴素贝叶斯分类器是分类性能较好的文本分类算法之一,本文采用改进的基尼指数算法对朴素贝叶斯的分类决策规则进行改进,设计了新的分类决策公式,有效地提高了朴素贝叶斯文本分类器的分类性能。(4)提出了一种新的文本分类模型 在众多的文本分类算法中,SVM、kNN、朴素贝叶斯分类器经众多的研究者证明是分类性能较好的三种文本分类方法。本文在研究这些算法优、缺点的基础上,提出了基于改进基尼指数的文本分类算法,该算法吸收了上述三种算法的优点,克服了它们的一些缺点,使分类性能得到了有效提高。本文从理论上给出了这种方法可行性的依据,用实验结果验证了这种方法的有效性,是一种非常有前途的文本分类方法。 以上算法的可行性和有效性通过实验都得到了很好的验证。
【学位授予单位】:北京交通大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.1;TP18

【引证文献】
中国期刊全文数据库 前4条
1 黄执航;张启蕊;;高脂血症分类特征选择算法研究[J];电脑知识与技术;2012年15期
2 万中英;王明文;揭安全;万剑怡;;投影寻踪模型中投影指标的改进[J];江西师范大学学报(自然科学版);2013年03期
3 吴波;朱昌杰;任逸卿;;文本分类技术探究[J];宿州学院学报;2012年05期
4 杨霞;董红斌;张海玉;;基于基尼指数的分布估计算法[J];应用科技;2010年09期
中国博士学位论文全文数据库 前1条
1 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
2 崔弘扬;面向学科的文献资源聚类系统研究及应用[D];华中师范大学;2011年
3 吕斐斐;学位论文预审分配管理系统研究[D];哈尔滨工业大学;2010年
4 李丹;基于朴素贝叶斯方法的中文文本分类研究[D];河北大学;2011年
5 曾丽辉;稀疏线性判别分析在文本分类中的应用研究[D];华东交通大学;2011年
6 常景鑫;基于混淆网络的语音文档主题分类研究[D];哈尔滨工程大学;2010年
7 王卓;面向文本分类的改进K近邻的支持向量机算法研究[D];辽宁工程技术大学;2011年
8 杨森;民生信息多分类系统研究与设计[D];山东科技大学;2011年
9 李亚哲;基于数据挖掘技术的求职招聘系统设计与实现[D];河北科技大学;2012年
10 刘祥;基于课程知识的问答系统研究与应用[D];大连海事大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 王建芬,曹元大;支持向量机在大类别数分类中的应用[J];北京理工大学学报;2001年02期
2 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
3 萧嵘,孙晨,王继成,张福炎;一种具有容噪性能的SVM多值分类器[J];计算机研究与发展;2000年09期
4 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
5 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
6 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期
7 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
8 尹中航,王永成,蔡巍;自动分类中的过学习问题与支持向量机[J];计算机工程;2000年S1期
9 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
10 于剑;论模糊C均值算法的模糊指标[J];计算机学报;2003年08期
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
4 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
5 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
6 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
7 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
8 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
9 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
10 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
4 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
5 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
6 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
8 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
9 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
10 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
3 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
4 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
5 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
6 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
7 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
8 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
9 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
10 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 马冉冉;集成学习算法研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
6 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
7 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
8 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
9 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
10 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 彭玉容;杨捧;高媛;;农业搜索引擎的发展现状及关键技术研究[J];安徽农业科学;2010年20期
2 姜智;;知识点关系、知识点结构图与知识点网络的应用研究[J];鞍山师范学院学报;2005年05期
3 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
4 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
5 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
6 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
7 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
8 闭乐鹏;徐伟;宋瀚涛;;基于一类SVM的贝叶斯分类算法[J];北京理工大学学报;2006年02期
9 王涛;樊孝忠;林培光;陈康;;基于复杂特征集的剽窃检测[J];北京理工大学学报;2008年02期
10 何益斌,高景昌,杨亚红,赵君,李小琳;Microsoft SQL Server的索引结构及其优化[J];长春邮电学院学报;2001年Z1期
中国重要会议论文全文数据库 前2条
1 陈志峰;朱巧明;;面向课程教学的中文问答系统研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 苏祺;孙斌;;面向观点挖掘的产品评价特征词识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
5 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
6 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
7 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
8 王珏;粗糙集理论及其应用研究[D];西安电子科技大学;2005年
9 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
10 缑锦;知识融合中若干关键技术研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前10条
1 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
2 牛为秋;基于粗糙集的决策树分类算法[D];西安电子科技大学;2010年
3 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
4 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
5 邓丹君;基于Lucene的垂直搜索引擎关键技术研究[D];武汉理工大学;2011年
6 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
7 宋庆;基于领域本体的智能检索技术应用研究[D];中国农业科学院;2011年
8 秦勉;电子商务网上支付系统探析[D];西南财经大学;2000年
9 刘念伯;网络考试系统的设计与实现[D];电子科技大学;2001年
10 张社广;网上教学系统的设计与实现[D];北京工业大学;2001年
【二级引证文献】
中国期刊全文数据库 前7条
1 何学文;张磊;;基于局部敏感哈希算法的语音文档主题分类[J];大众科技;2012年03期
2 蔡泽廷;姜梅;;基于权限的朴素贝叶斯Android恶意软件检测研究[J];电脑知识与技术;2013年14期
3 张燕平;刘超;曲永花;;WCBVSM与SACA结合的文本分类模型[J];计算机工程与应用;2012年11期
4 袁轶;王新房;;一种基于方差的文本特征选择算法[J];计算机工程;2012年12期
5 艾海麦提江·阿布来提;吐尔地·托合提;艾斯卡尔·艾木都拉;;基于Naive Bayes的维吾尔文文本分类算法及其性能分析[J];计算机应用与软件;2012年12期
6 翟继强;王克奇;;依据TRIZ发明原理的中文专利自动分类[J];哈尔滨理工大学学报;2013年03期
7 王霜霜;张太红;冯向萍;陈燕红;马健;;农业网站导航页面识别模型研究[J];新疆农业大学学报;2011年05期
中国博士学位论文全文数据库 前1条
1 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵素娟;基于互联网的人物简历问答系统的研究与设计[D];东北财经大学;2010年
2 李臻;云师大网络故障用户自助排查系统设计与实现[D];电子科技大学;2011年
3 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年
4 张卓;基于语义扩展的信息抽取技术研究[D];哈尔滨工程大学;2011年
5 杨森;民生信息多分类系统研究与设计[D];山东科技大学;2011年
6 马鹏飞;中文文本分类算法研究[D];南京理工大学;2012年
7 陆洋;基于语义分析的文本挖掘研究[D];浙江工业大学;2012年
8 曹庆花;基于领域本体与句型模板的问答系统[D];广西师范大学;2012年
9 夏青松;基于改进哈希算法的快速KNN文本分类方法[D];安徽大学;2012年
10 易路杰;网络文本分类技术研究[D];北方工业大学;2012年
【二级参考文献】
中国期刊全文数据库 前7条
1 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
2 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
3 李晓黎,史忠植;用数据采掘方法获取汉语词性标注规则[J];计算机研究与发展;2000年12期
4 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
5 高新波,谢维信;模糊聚类理论发展及应用的研究进展[J];科学通报;1999年21期
6 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
7 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期
【相似文献】
中国期刊全文数据库 前10条
1 林永民;吕震宇;赵爽;朱卫东;;向量空间模型中特征加权的研究[J];情报杂志;2008年03期
2 吕震宇;林永民;赵爽;朱卫东;;基于同义词词林的文本特征选择与加权研究[J];情报杂志;2008年05期
3 刘海峰;刘守生;汪泽焱;;一种基于类别信息的改进文本特征选择[J];计算机应用与软件;2010年06期
4 刘海峰;赵华;刘守生;;一种基于类别的组合型文本特征选择[J];情报学报;2010年04期
5 林永民;朱卫东;;基尼指数在文本特征选择中的应用研究[J];计算机应用;2007年10期
6 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
7 王卫玲;孔波;初建崇;杨玫;;一种新的用于文本分类的特征选择算法[J];信息技术与信息化;2009年06期
8 龚静;曾莉;;用于文本分类的特征选择方法[J];湖南环境生物职业技术学院学报;2008年03期
9 袁剑锋;张启蕊;;医药信息文本分类系统中特征选择模块的研究[J];电脑知识与技术;2008年30期
10 赵中英;梁永全;纪淑娟;李超;;文本分类中改进的特征加权方法[J];情报杂志;2009年04期
中国重要会议论文全文数据库 前10条
1 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
5 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
7 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
8 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
9 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 周晓娟;TD已过分水岭[N];通信产业报;2008年
2 陆晓枫;我国离现代化还有多远[N];中华合作时报;2004年
3 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
4 侯宁 知名社会学者;“幸福指数”和上证指数的距离有多远?[N];广州日报;2006年
5 吕壮;马路摊点该疏该堵?[N];中华工商时报;2007年
6 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
7 吴南雁;拉美的教训:基尼系数的警示[N];中国财经报;2006年
8 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
9 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
10 刘柯;全民富裕很重要[N];民营经济报;2011年
中国博士学位论文全文数据库 前10条
1 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
2 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
3 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
4 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
5 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
6 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
7 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
8 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
9 郝立柱;汉语文本自动分类[D];吉林大学;2008年
10 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
中国硕士学位论文全文数据库 前10条
1 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
2 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
3 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
4 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
5 孟杰;基于构造性覆盖算法的中文文本分类[D];安徽大学;2007年
6 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
7 陈超;基于支持向量机的中文文本分类的系统研究[D];武汉理工大学;2007年
8 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
9 王生新;基于支持向量机的文本分类研究[D];哈尔滨工程大学;2008年
10 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026