收藏本站
《北京工业大学》 2001年
收藏 | 手机打开
二维码
手机客户端打开本文

基于信息粒度原理的文本分类方法的研究

易靖  
【摘要】: 随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信 息服务,我们需要对网络中纷繁芜杂的信息进行合理的组织与分类。论文以网络 文本信息处理为背景,从理论和应用的角度对文本信息的聚类、分类方法进行了 较为深入的研究。研究的主要内容包括文本信息的描述与特征提取;基于信息粒 度原理的文本聚类/分类方法;概念空间的性质及其在文本聚类、分类中的应用 等。论文取得了以下研究成果: 论文首先设计了自动文本分类系统的总体方案,在总体设计的框架下实现了 基于类中心分类法的文本分类系统,验证了总体设计的正确性和可行性。 论文在研究文本信息描述和特征提取方法的基础上,设计、实现了一种简单 实用的特征提取算法。该算法在文本分类系统中取得了较好的效果。论文研究了 文本描述的权重计算方法,通过权重的迭代收敛性质引入了“概念空间”的概念, 推导了概念空间中文本表示和降维的方法及相关性质。 论文设计并实现了一个基于信息粒度原理的文本聚类/分类系统,从理论和 应用两方面对基于信息粒度原理的文本聚类/分类方法进行了研究。论文运用信 息粒度原理,分析了文本聚类结果与专家先验知识的不一致性的本质,在非均匀 粒度下,统一了专家的先验知识和特征空间中文本的客观描述,从而大大提高了 文本分类的正确率。 论文在概念空间中改进并实现了基于信息粒度原理的文本聚类/分类算法, 对概念空间的性质和特点进行了研究,利用概念空间的正交性,来克服词频空间 特征项之间的相关性,利用概念空间的特征提取性质,来滤除噪声、降低特征维 数,从而提高了分类系统的效果。实验结果表明,在概念空间中应用基于信息粒 度原理的文本聚类/分类方法,无论是分类效率还是分类正确率都高于词频空间 中的结果,有效地改善了文本分类系统的性能。 论文针对文本分类中的兼类问题,设计了一种将模糊逻辑与基于信息粒度原 理的文本聚类/分类方法相结合的模糊模式分类算法。 论文设计、实现的文本分类系统在实际应用中取得了较理想的效果,其研究 成果对文本聚类/分类方法的研究具有参考价值。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2001
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前2条
1 徐海霞;聚类分析在Web文本挖掘中的应用[J];情报杂志;2004年12期
2 盛亮;李弼程;林琛;;基于信息粒度原理的垃圾邮件过滤方法[J];信息工程大学学报;2007年01期
中国重要会议论文全文数据库 前1条
1 张鑫;程学旗;谭建龙;王映;;一种快速的多模式串匹配算法及其在实时汉语文本分类系统中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前10条
1 程英迅;基于军事本体的智能检索引擎研究[D];电子科技大学;2010年
2 杨柳;中文文本分类技术研究[D];河北大学;2006年
3 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
4 郝海涛;基于向量机的校园网文本数据分析与过滤技术研究[D];西北师范大学;2007年
5 呼声波;面向信息检索的智能分类方法研究[D];山东师范大学;2008年
6 梁涛;基于文本分类和相似度的重题检测研究[D];北京理工大学;2008年
7 赖坤锋;基于DHT的P2P复杂搜索机制的设计与实现[D];电子科技大学;2008年
8 梁宏胜;朴素贝叶斯文本分类方法改进研究[D];河北大学;2007年
9 王雅玡;基于朴素贝叶斯和BP神经网络的中文文本分类问题研究[D];云南师范大学;2008年
10 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
【参考文献】
中国期刊全文数据库 前1条
1 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
【共引文献】
中国期刊全文数据库 前10条
1 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
2 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
3 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
4 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
5 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
6 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
7 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
8 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
9 武素华;;基于最小二乘支持向量机的土壤含水量检测的研究与分析[J];安徽农业科学;2009年09期
10 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
3 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
4 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
5 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
6 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
7 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
8 吴静珠;刘翠玲;孙晓容;;支持向量机在近红外光谱检测技术中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
9 尹钟;张建华;;基于支持向量机方法的过程操作员功能状态分类[A];中国自动化学会控制理论专业委员会A卷[C];2011年
10 杨坤;纪志成;;基于峰值识别的改进SVM用电需求预测[A];中国自动化学会控制理论专业委员会B卷[C];2011年
中国博士学位论文全文数据库 前10条
1 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
2 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
5 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
6 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
7 李先锋;基于特征优化和多特征融合的杂草识别方法研究[D];江苏大学;2010年
8 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
9 汪春梅;癫痫脑电信号特征提取与自动检测方法研究[D];华东理工大学;2011年
10 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
3 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
4 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
5 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
6 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
7 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
8 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
9 姜念;区间自适应粒子群算法研究及其应用[D];郑州大学;2010年
10 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 谢宇;张仰森;肖建涛;;规则与统计相结合的汉语词义消歧模型[J];北京机械工业学院学报;2007年03期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 汤世平;樊孝忠;;基于多示例学习的题库重复性检测研究[J];北京理工大学学报;2005年12期
4 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
5 李勇,郭平;Sigmoid传输函数与三层前馈神经网络的映射能力[J];北京师范大学学报(自然科学版);2001年05期
6 何益斌,高景昌,杨亚红,赵君,李小琳;Microsoft SQL Server的索引结构及其优化[J];长春邮电学院学报;2001年Z1期
7 黄绪明;一类改进的遗传算法[J];长沙大学学报;2005年05期
8 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
9 张俐,李晶皎,胡明涵,姚天顺;中文WordNet的研究及实现[J];东北大学学报;2003年04期
10 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
中国重要会议论文全文数据库 前1条
1 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 李俭川;贝叶斯网络故障诊断与维修决策方法及应用研究[D];中国人民解放军国防科学技术大学;2002年
4 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
5 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
6 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
7 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
8 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
9 强保华;异构数据库语义集成技术研究[D];重庆大学;2005年
10 黄茂军;地理本体的形式化表达机制及其在地图服务中的应用研究[D];武汉大学;2005年
中国硕士学位论文全文数据库 前10条
1 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
2 杨昂;文本分类算法研究[D];湖南大学;2002年
3 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
4 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
5 田萱;基于Internet的信息检索若干问题的研究[D];山东师范大学;2003年
6 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
7 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
8 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
9 张红霞;渐进式中文文本分类技术研究[D];河北大学;2004年
10 艾丹祥;基于本体论的知识检索研究[D];武汉大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 满鹏;;海量文档信息的高效检索算法[J];长春大学学报;2008年02期
2 张莹;王耀南;万琴;;参数嵌入算法在文本分类可视化中的应用[J];计算机工程与应用;2009年16期
3 郑军;王巍;杨武;杨永田;;基于类间距离参数估计的文本聚类评价方法[J];计算机工程;2009年09期
4 匡春临;夏清强;;基于SVM-KNN的文本分类算法及其分析[J];计算机时代;2010年08期
5 郭俊荣;杨捧;王紫薇;;一种基于信息粒度的信息检索优化方法[J];计算机仿真;2010年08期
6 袁文生;王晓峰;;基于朴素贝叶斯的中文海事文本多分类器研究[J];计算机与现代化;2011年05期
7 方志龙;;文本特征选择算法MI的改进[J];计算机与现代化;2011年07期
8 王斌;邵华清;刘振;;基于优化类中心分类算法的文本分类研究[J];科技传播;2011年18期
9 王伟;;文本自动聚类技术研究[J];情报杂志;2009年02期
10 孙洁丽;朱智清;;基于数据挖掘技术的检索可视化系统的研究[J];现代情报;2008年03期
中国博士学位论文全文数据库 前2条
1 安海岗;专题新闻文本集信息可视化理论模型研究[D];中国地质大学(北京);2010年
2 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 胡改蝶;中文文本分类中特征选择方法的应用与研究[D];太原理工大学;2011年
2 曾奉尧;基于社会网络的网络舆情挖掘技术与研究[D];电子科技大学;2011年
3 李文俊;基于P2P网络的安全备份系统研究与实现[D];解放军信息工程大学;2010年
4 杨森;民生信息多分类系统研究与设计[D];山东科技大学;2011年
5 翟凤红;商品搜索引擎系统[D];吉林大学;2005年
6 王磊;基于信息熵的中文文本分类算法研究[D];西北师范大学;2007年
7 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
8 任贤;电子邮件个性化过滤系统研究[D];长沙理工大学;2007年
9 王凡毓;搜索2.0理论及其应用研究[D];武汉理工大学;2008年
10 胡建国;基于文本信息过滤技术的短信防火墙系统设计与实现[D];西南交通大学;2008年
【二级参考文献】
中国期刊全文数据库 前1条
1 卢增祥,李衍达;交互支持向量机学习算法及其应用[J];清华大学学报(自然科学版);1999年07期
【相似文献】
中国期刊全文数据库 前10条
1 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
2 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
3 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
4 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
5 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
6 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
7 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
8 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
9 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
10 陈莲娜;姚伏天;;用于文本分类的多核SVM算法研究[J];计算机工程;2007年09期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 ;神经网络和模糊逻辑[N];世界金属导报;2002年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
4 ;DANIELI自动炼钢、连铸、轧钢技术诀窍与成套技术[N];世界金属导报;2006年
5 孙富春 孙增圻;计算智能技术[N];计算机世界;2001年
6 ;马子杂话前言后语[N];天津日报;2004年
7 刘友存 摘译;实现高效 加强环保[N];中国冶金报;2006年
8 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
9 曹卫东;展望未来电梯发展方向[N];广东建设报;2005年
10 詹膑 罗杨;以多变量为基础的现代智能控制[N];光明日报;2000年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
7 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
8 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
9 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
10 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
3 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 闫晨;KNN文本分类研究[D];燕山大学;2010年
6 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
7 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
8 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
9 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
10 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026