收藏本站
《天津大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于决策树和K最近邻算法的文本分类研究

王煜  
【摘要】: 文本分类是文本挖掘的重要内容,是对信息的一种最基本的认知形式。目前的文本特征降维算法、改进或创造适应文本数据的分类算法、抽取文本分类规则等方面的研究仍远远不能满足实际的需要。本文主要研究了文本特征空间的降维问题、利用决策树抽取文本分类规则问题和改进KNN算法以适应文本分类问题。 本文提出了三种特征降维方法:一种是基于模式聚合和改进χ~2统计量的文本降维方法,有效地降低文本维数并可提高分类精度;一种是基于CHI值原理和粗糙集理论的属性约减的文本降维方法,据此提出的基于决策树的文本分类规则获取方法,可获得分类精度较高且易于理解的文本分类规则;第三种是基于神经网络的特征抽取方法,此方法根据灵敏度将特征进行排序,采用二分法的方式去掉部分特征,降低了神经网络特征提取的计算量。 本文提出了两种基于模糊决策树的模糊文本分类规则抽取方法。第一种方法采用分枝合并减少了分类规则,第二种方法提出了一种基于类信息熵和密度分布函数的数据模糊化方法,降低了数据模糊化的工作量和模糊决策树的规模,减少了分类规则数量。 本文关于KNN算法的改进主要做了三个方面的工作: 欧氏距离中的权重求解问题:提出了两种权重求解方法。一种采用灵敏度方法获得每个文本特征对分类作用的权重,并且在距离公式中又加入了同一特征对不同文本类的分类作用的权重;第二种是基于chi-square距离理论的权重求解方法,首先根据SS-Tree划分的区域查找近似k0个最近邻,根据k0个最近邻和chi-square距离理论计算权重。这两种方法都可以提高KNN算法的分类精度。 提高K个最近邻查找速度:提出了一种快速查找精确K个最近邻的算法TFKNN,预先建立SSR-Tree,SSR-Tree的每个非叶子结点的孩子按照其距父结点中心点的距离排序。根据这棵树进行K个最近邻的查找,只需在满足一定条件内的部分样本中查找K个最近邻,从而减小了查找范围,大大降低了相似度计算量。 裁减样本库:提出了一种KNN算法中的训练样本库的裁减维护方法,首先采用CURE算法对训练样本库进行聚类,获得每个聚类的代表样本组成新的训练样本集合,然后用tabu算法对此样本集合进行进一步维护。此算法不仅极大缩减样本库裁减的工作量,且使KNN算法的分类速度和分类精度都得到了提高。
【学位授予单位】:天津大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:C934

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 尚虎平;;地方政府绩效评估指标设计的研究进展与数据挖掘理论的应用[J];甘肃行政学院学报;2012年02期
2 许珂;蒙祖强;林啓峰;;基于语义关联和信息增益的TFIDF改进算法研究[J];计算机应用研究;2012年02期
中国博士学位论文全文数据库 前3条
1 谭武征;基于知识的概念创新设计系统关键技术的研究[D];上海交通大学;2008年
2 薛洋;基于单个加速度传感器的人体运动模式识别[D];华南理工大学;2011年
3 谢宏威;印刷电路板焊点智能检测算法的研究[D];华南理工大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 王大玲,于戈,鲍玉斌,王国仁;一种基于关联性度量的决策树分类方法[J];东北大学学报;2001年05期
2 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
3 杨学兵,蔡庆生;一种基于概念层次的分类规则挖掘算法研究[J];华中科技大学学报;2001年09期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 潘丹,郑启伦;属性约简自寻优算法[J];计算机研究与发展;2001年08期
6 刘清;《Rough集及Rough推理》[J];计算机研究与发展;2001年11期
7 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
8 和亚丽,陈立潮;Web文本挖掘中的特征选取方法研究[J];计算机工程;2005年05期
9 王明春,王正欧,张楷,郝玺龙;一种基于CHI值特征选取的粗糙集文本分类规则抽取方法[J];计算机应用;2005年05期
10 刘胜军,陆勤,蔡庆生;一种基于泛化的在线分类规则挖掘算法[J];计算机应用研究;2000年06期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
3 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
4 江效尧,胡林生;基于粗糙集的RDT决策树生成算法的研究及应用[J];安徽工程科技学院学报(自然科学版);2004年03期
5 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
6 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
7 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
8 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
9 鲍青青;唐善茂;刘胜峰;陆琳;;基于粗神经网络的旅游需求预测研究[J];安徽农业科学;2006年17期
10 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 刘家国;基于突发事件风险的供应链利益分配与行为决策研究[D];哈尔滨工程大学;2010年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
7 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
8 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
9 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
10 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 黄卓;张力平;陈群星;田民波;;电子封装用无铅焊料的最新进展[J];半导体技术;2006年11期
2 于建玲;臧保将;商朋见;;股市时间序列的多重分形分析[J];北京交通大学学报;2006年06期
3 朱一锟,汪家芸,张津;军用飞机、发动机战技性能评估研究[J];北京航空航天大学学报;1993年01期
4 韩晓建,邓家褆;产品概念设计网络求解的评价算法研究[J];北京航空航天大学学报;2000年03期
5 刘华富;支持向量机Mercer核的若干性质[J];北京联合大学学报(自然科学版);2005年01期
6 赵静娴;杜子平;;基于神经网络和决策树相结合的信用风险评估模型研究[J];北京理工大学学报(社会科学版);2009年01期
7 张俊丽;张帆;;KNN-FCM聚类算法在中文搜索引擎文本过滤中的应用[J];图书与情报;2007年04期
8 刘晓;莫倩;张政;;网络评论观点分类研究[J];北京工商大学学报(自然科学版);2008年03期
9 范亚芹,刘颖,李兴男;Web数据挖掘原理及实现[J];吉林大学学报(信息科学版);2003年04期
10 雷升锴;何嘉;;C4.5算法与粗糙集在数据挖掘中的研究[J];成都信息工程学院学报;2009年01期
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 张燕平;基于商空间的构造性数据挖掘方法及应用[D];安徽大学;2003年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 于洪;Rough Set理论及其在数据挖掘中的应用研究[D];重庆大学;2003年
5 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
6 黄解军;贝叶斯网络结构学习及其在数据挖掘中的应用研究[D];武汉大学;2005年
7 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 刘文军;基于粗糙集的数据挖掘算法研究[D];北京师范大学;2004年
9 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
10 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
【二级引证文献】
中国期刊全文数据库 前6条
1 游晓凌;周光勇;陈阳;;基于技术路线图的技术创新过程研究[J];科技进步与对策;2011年08期
2 邱云飞;王威;刘大有;邵良杉;;基于方差的CHI特征选择方法[J];计算机应用研究;2012年04期
3 李润彤;;新闻网页的视觉识别系统设计[J];科技传播;2012年08期
4 张俊丽;赵乃瑄;冯君;;基于统计频率的文本分类特征选择算法研究[J];现代图书情报技术;2008年11期
5 贾君枝;王永芳;李婷;;面向农民的问答系统问句处理研究[J];现代图书情报技术;2010年05期
6 方莹;;多角度的特征提取方法[J];郑州轻工业学院学报(自然科学版);2010年03期
中国博士学位论文全文数据库 前1条
1 徐敬华;面向变异设计的移植单元检索与融合过程进化技术[D];浙江大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
2 景丽萍,黄厚宽;Web文本挖掘及特征选择[J];电脑与信息技术;2002年01期
3 王磊,潘进,焦李成;免疫算法[J];电子学报;2000年07期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
6 王大玲;于戈;鲍玉斌;王国仁;刘斌武;;基于概念层次树的数据挖掘算法的研究与实现[J];计算机科学;2001年06期
7 王珏,王任,苗夺谦,郭萌,阮永韶,袁小红,赵凯;基于Rough Set理论的“数据浓缩”[J];计算机学报;1998年05期
8 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
9 吴福保,李奇,宋文忠;基于粗集理论知识表达系统的一种归纳学习方法[J];控制与决策;1999年03期
10 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
中国博士学位论文全文数据库 前1条
1 王晓晔;时间序列数据挖掘中相似性和趋势预测的研究[D];天津大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 李笔锋;李富荣;邸亚洲;王小飞;;数据挖掘在航空发动机状态判别中的应用[J];价值工程;2011年19期
2 管昕;;基于补偿模糊神经网络的项目财务评价[J];统计与管理;2010年04期
3 韩飞飞;胡瑞斌;;粗糙集理论在招标资格预审中的应用[J];合作经济与科技;2011年16期
4 郭庆春;孔令军;史永博;崔文娟;张小永;寇立群;;基于神经网络的入境旅游人数预测[J];价值工程;2011年25期
5 林峻青;;采用自学习技术的智能建筑系统[J];科技促进发展(应用版);2010年10期
6 孙海龙;冯超;匙瑞堂;;滚动轴承状态监测[J];工业设计;2011年05期
7 李博;;基于人工智能技术的电子商务辅助教学系统[J];太原城市职业技术学院学报;2011年06期
8 戴宏发;张源原;孙国强;刘成亮;;蚁群算法研究现状及发展[J];科技创新导报;2011年21期
9 郭庆春;孔令军;崔文娟;寇立群;史永博;张小永;;神经网络在农民收入预测中的应用[J];价值工程;2011年24期
10 王锁柱;何朝晖;;基于粗糙集的铁路客运服务质量改善程度评价模型研究[J];数学的实践与认识;2011年13期
中国重要会议论文全文数据库 前10条
1 远俊红;柳青;;软计算研究综述[A];2008年计算机应用技术交流会论文集[C];2008年
2 王刚;张志禹;;数据融合中粗糙集的应用技术研究[A];2006中国控制与决策学术年会论文集[C];2006年
3 王相东;殷鑫;;粗糙集神经网络在酒精性肝病诊断中的应用研究[A];中华中医药学会第九次中医诊断学术会议论文集[C];2008年
4 高钦和;成曙;;软计算的概念及应用[A];1996年中国智能自动化学术会议论文集(上册)[C];1996年
5 董敏;刘才;李国友;;基于模糊神经网络的模式识别研究[A];2004中国控制与决策学术年会论文集[C];2004年
6 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 陈双叶;易继锴;黄显明;郭晋;;基于粗糙集理论的模糊神经网络及其应用[A];2001年中国智能自动化会议论文集(上册)[C];2001年
8 李晓钟;汪培庄;罗承忠;;神经网络与模糊逻辑[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
9 李继良;孙文杰;李鹏;;基于模糊神经网络的专家系统在CGF智能决策中的应用[A];系统仿真技术及其应用(第7卷)——'2005系统仿真技术及其应用学术交流会论文选编[C];2005年
10 刘晓玉;方康玲;;基于模糊行为和神经网络的机器人视觉伺服控制[A];第25届中国控制会议论文集(下册)[C];2006年
中国重要报纸全文数据库 前10条
1 ;神经网络和模糊逻辑[N];世界金属导报;2002年
2 记者 陈青 通讯员 孙国根;揭示神经网络形成新机制[N];文汇报;2011年
3 于翔;数字神经网络中的协同应用[N];网络世界;2009年
4 健康时报特约记者  张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年
5 孙富春 孙增圻;计算智能技术[N];计算机世界;2001年
6 邹丽梅 陈耀群;江苏科大神经网络应用研究通过鉴定[N];中国船舶报;2006年
7 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年
8 通讯员 李丹 本报记者 冯国梧;挺起中国人的脊梁[N];科技日报;2005年
9 孙雅彬;8358所与天津大学开展全面合作[N];中国航天报;2010年
10 记者 马波 赵晖;天津大学喜庆115周年华诞[N];天津日报;2010年
中国博士学位论文全文数据库 前10条
1 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
2 张勇;粗糙集—神经网络智能系统在浮选过程中的应用研究[D];大连理工大学;2006年
3 吴正江;L模糊粗糙集研究[D];西南交通大学;2009年
4 文敦伟;面向多智能体和神经网络的智能控制研究[D];中南大学;2001年
5 刘冬生;基于神经网络方法的自相关过程控制研究[D];天津大学;2007年
6 刘志祥;深部开采高阶段尾砂充填体力学与非线性优化设计[D];中南大学;2005年
7 戴雪龙;PET探测器神经网络定位方法研究[D];中国科学技术大学;2006年
8 马戎;智能控制技术在炼钢电弧炉中的应用研究[D];西北工业大学;2006年
9 吴大宏;基于遗传算法与神经网络的桥梁结构健康监测系统研究[D];西南交通大学;2003年
10 杜文斌;基于神经网络的冠心病证候诊断标准与药效评价模型研究[D];辽宁中医学院;2004年
中国硕士学位论文全文数据库 前10条
1 张亚平;基于粗糙集和神经网络的数据分类技术研究[D];大连理工大学;2008年
2 李军;基于数据离散化和神经网络的暂态稳定评估方法研究[D];华北电力大学(河北);2005年
3 曾建武;粗糙集理论及故障诊断应用研究[D];浙江大学;2006年
4 罗烨;基于数据挖掘技术的电信客户流失预测模型的研究与应用[D];苏州大学;2008年
5 孙虹;车牌图像自动识别系统的研究与实现[D];合肥工业大学;2005年
6 李小亚;基于人工智能的数据融合技术在火灾探测中的应用研究[D];广东工业大学;2005年
7 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
8 钱雪峰;粗糙集理论在变压器故障诊断中的应用研究[D];南京理工大学;2005年
9 廖德贤;神经—模糊基因系统的研究[D];四川大学;2005年
10 吴云志;基于粗糙集与神经网络方法结合的知识发展应用研究[D];合肥工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026