收藏本站
《北京工业大学》 2001年
收藏 | 手机打开
二维码
手机客户端打开本文

基于信息粒度原理的文本分类方法的研究

易靖  
【摘要】: 随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信 息服务,我们需要对网络中纷繁芜杂的信息进行合理的组织与分类。论文以网络 文本信息处理为背景,从理论和应用的角度对文本信息的聚类、分类方法进行了 较为深入的研究。研究的主要内容包括文本信息的描述与特征提取;基于信息粒 度原理的文本聚类/分类方法;概念空间的性质及其在文本聚类、分类中的应用 等。论文取得了以下研究成果: 论文首先设计了自动文本分类系统的总体方案,在总体设计的框架下实现了 基于类中心分类法的文本分类系统,验证了总体设计的正确性和可行性。 论文在研究文本信息描述和特征提取方法的基础上,设计、实现了一种简单 实用的特征提取算法。该算法在文本分类系统中取得了较好的效果。论文研究了 文本描述的权重计算方法,通过权重的迭代收敛性质引入了“概念空间”的概念, 推导了概念空间中文本表示和降维的方法及相关性质。 论文设计并实现了一个基于信息粒度原理的文本聚类/分类系统,从理论和 应用两方面对基于信息粒度原理的文本聚类/分类方法进行了研究。论文运用信 息粒度原理,分析了文本聚类结果与专家先验知识的不一致性的本质,在非均匀 粒度下,统一了专家的先验知识和特征空间中文本的客观描述,从而大大提高了 文本分类的正确率。 论文在概念空间中改进并实现了基于信息粒度原理的文本聚类/分类算法, 对概念空间的性质和特点进行了研究,利用概念空间的正交性,来克服词频空间 特征项之间的相关性,利用概念空间的特征提取性质,来滤除噪声、降低特征维 数,从而提高了分类系统的效果。实验结果表明,在概念空间中应用基于信息粒 度原理的文本聚类/分类方法,无论是分类效率还是分类正确率都高于词频空间 中的结果,有效地改善了文本分类系统的性能。 论文针对文本分类中的兼类问题,设计了一种将模糊逻辑与基于信息粒度原 理的文本聚类/分类方法相结合的模糊模式分类算法。 论文设计、实现的文本分类系统在实际应用中取得了较理想的效果,其研究 成果对文本聚类/分类方法的研究具有参考价值。
【关键词】:信息粒度 文本分类 聚类 特征抽取 模式分类 模糊逻辑
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2001
【分类号】:TP391.1
【目录】:
  • 中文摘要3-4
  • 英文摘要4-8
  • 第一章 引言8-17
  • 1.1 文本聚类/分类技术与网络信息处理8-10
  • 1.2 文本分类、检索的主要方法概述10-13
  • 1.3 网络智能信息处理的研究与发展13-14
  • 1.3.1 网络智能信息检索技术13-14
  • 1.3.2 网络信息挖掘技术14
  • 1.4 课题研究的主要内容和取得的主要成果14-17
  • 第二章 文本分类系统总体设计与初步实现17-25
  • 2.1 自动文本分类系统的总体设计17-19
  • 2.2 应用类中心分类法实现文本分类系统19-22
  • 2.2.1 向量空间模型简介19-20
  • 2.2.2 应用类中心分类法实现的文本分类系统20-22
  • 2.3 实验结果与小结22-25
  • 第三章 文本信息的描述及特征提取25-43
  • 3.1 概述25-30
  • 3.2 词频空间特征提取方法设计30-32
  • 3.2.1 特征提取算法设计30-31
  • 3.2.2 特征提取算法实验结果31-32
  • 3.3 文本描述中权重计算的研究32-36
  • 3.3.1 经典的权重计算方法32-33
  • 3.3.2 权重迭代中的性质33-36
  • 3.4 概念空间的研究36-43
  • 3.4.1 从词频空间向概念空间的转换36-40
  • 3.4.2 概念空间中的特征提取40-43
  • 第四章 基于信息粒度原理的聚类/分类算法的研究43-64
  • 4.1 概述43-50
  • 4.1.1 样本的相似系数和距离43-45
  • 4.1.2 系统聚类法45-49
  • 4.1.3 动态聚类法49-50
  • 4.2 信息粒度原理的引入50-54
  • 4.2.1 聚类算法在文本分类中的尝试50
  • 4.2.2 聚类中的粒度原理50-54
  • 4.3 基于信息粒度原理的聚类/分类算法54-56
  • 4.4 基于信息粒度原理的文本聚类/分类系统的实现56-60
  • 4.4.1 系统框图56-59
  • 4.4.2 聚类距离函数的选择59-60
  • 4.5 实验结果及小结60-64
  • 第五章 概念空间在文本聚类/分类算法中的应用64-74
  • 5.1 概念空间64
  • 5.2 概念空间在文本聚类/分类中的意义64-66
  • 5.3 概念空间中文本聚类/分类系统的实现66-69
  • 5.3.1 系统实现66-68
  • 5.3.2 概念空间中特征项的选取68-69
  • 5.4 实验结果及小结69-74
  • 第六章 文本聚类/分类中的模糊模式分类74-81
  • 6.1 模糊模式分类概述74-75
  • 6.2 模糊模式分类在粒度聚类/分类系统中的应用75-81
  • 结束语81-82
  • 参考文献82-85
  • 致谢85

【引证文献】
中国期刊全文数据库 前1条
1 徐海霞;聚类分析在Web文本挖掘中的应用[J];情报杂志;2004年12期
中国重要会议论文全文数据库 前1条
1 张鑫;程学旗;谭建龙;王映;;一种快速的多模式串匹配算法及其在实时汉语文本分类系统中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前5条
1 杨柳;中文文本分类技术研究[D];河北大学;2006年
2 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
3 郝海涛;基于向量机的校园网文本数据分析与过滤技术研究[D];西北师范大学;2007年
4 呼声波;面向信息检索的智能分类方法研究[D];山东师范大学;2008年
5 梁涛;基于文本分类和相似度的重题检测研究[D];北京理工大学;2008年
【参考文献】
中国期刊全文数据库 前1条
1 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
【共引文献】
中国期刊全文数据库 前10条
1 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
2 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
3 王晓红,高洪深;数据挖掘技术在大型超市中的应用研究[J];北方工业大学学报;2003年03期
4 朱宏武,蔡勇,刘自伟;数据库中基于粗糙集的分类和约简[J];兵工自动化;2003年05期
5 刘万春,罗双华,朱玉文,谢世斌;基于聚类分析和支持向量机的布匹瑕疵分类方法[J];北京理工大学学报;2004年08期
6 李宁;孙铭;王磊;刘兴龙;童隆正;;基于支持向量机的肝纤维化CT图像分类[J];北京生物医学工程;2007年01期
7 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
8 徐红敏;杨天行;;基于支持向量机分类算法的湖泊水质评价研究[J];吉林大学学报(地球科学版);2006年04期
9 刘光远;董立岩;苑森淼;李永丽;孙涛;关伟洲;;多策略数据挖掘系统的分析与设计[J];吉林大学学报(信息科学版);2006年06期
10 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
中国重要会议论文全文数据库 前10条
1 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
2 邵信光;杨慧中;石晨曦;;ε不敏感支持向量回归在化工数据建模中的应用[A];江苏省自动化学会七届四次理事会暨2004学术年会青年学者论坛论文集[C];2004年
3 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
4 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
5 汤俊;肖健华;吴今培;;基于支持向量回归的商业银行信贷风险评估[A];中国运筹学会第八届学术交流会论文集[C];2006年
6 侯伟真;潘美芹;;高斯核支持向量机最优模型参数选择搜索算法[A];中国运筹学会第八届学术交流会论文集[C];2006年
7 李志明;孔令富;;用于回归估计的支持向量机[A];广西计算机学会2005年学术年会论文集[C];2005年
8 薛翠红;于明;;用于感兴趣区域图像编码的人脸特征的检测[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
9 王薇;李晓辉;;CDMA系统中基于SVM的多用户检测算法[A];第十九届电工理论学术年会论文集[C];2007年
10 曹健;林涛;;电力系统谐波/间谐波高精度测量方法的比较研究[A];中南七省(区)电力系统专业委员会第二十二届联合学术年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 曾雨辰;转向重复压裂技术研究与应用[D];西南石油学院;2005年
2 唐发明;基于统计学习理论的支持向量机算法研究[D];华中科技大学;2005年
3 王亮;城市快速路交通流采集与控制相关问题研究[D];天津大学;2005年
4 陈世哲;微电子产品视觉检测中关键技术研究[D];哈尔滨工业大学;2006年
5 张文君;滑坡灾害遥感动态特征监测及其预测分析研究[D];西南交通大学;2007年
6 许剑峰;数字视频中的文本分割的研究[D];华南理工大学;2005年
7 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
8 张持健;商空间下模糊系统与模糊控制的问题求解[D];安徽大学;2005年
9 张丽平;粒子群优化算法的理论及实践[D];浙江大学;2005年
10 盛守照;前向神经网络学习问题研究及其在转台控制中的应用[D];南京航空航天大学;2005年
中国硕士学位论文全文数据库 前10条
1 黄辉宇;基于神经网络的不良信息实时监测系统研究[D];燕山大学;2003年
2 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
3 宋彦坡;数据挖掘技术及其在铜转炉吹炼过程优化中的应用[D];中南大学;2005年
4 杨东侯;建筑工程投资估算方法研究[D];中南大学;2005年
5 施健;工业过程统计建模与监控方法研究[D];浙江大学;2006年
6 管军;支持向量机在水质监测信息融合与评价中的应用研究[D];河海大学;2006年
7 沈佳;混沌算法在短期电力负荷预测中的应用[D];河北农业大学;2007年
8 蔡巍伟;基于PCA的人脸识别算法研究[D];浙江工业大学;2005年
9 路志强;建筑施工安全评价体系及预警研究[D];河北农业大学;2005年
10 李鹏;独立分量分析与支持向量机在人脸识别技术中的应用研究[D];青岛科技大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 陆伟,万维雅;基于认知观点的信息检索交互模型[J];中国图书馆学报;2005年02期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 汤世平;樊孝忠;;基于多示例学习的题库重复性检测研究[J];北京理工大学学报;2005年12期
4 李勇,郭平;Sigmoid传输函数与三层前馈神经网络的映射能力[J];北京师范大学学报(自然科学版);2001年05期
5 黄绪明;一类改进的遗传算法[J];长沙大学学报;2005年05期
6 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报(自然科学版);2003年03期
7 张俐,李晶皎,胡明涵,姚天顺;中文WordNet的研究及实现[J];东北大学学报(自然科学版);2003年04期
8 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
9 景丽萍,黄厚宽;Web文本挖掘及特征选择[J];电脑与信息技术;2002年01期
10 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
中国重要会议论文全文数据库 前1条
1 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
3 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 李俭川;贝叶斯网络故障诊断与维修决策方法及应用研究[D];中国人民解放军国防科学技术大学;2002年
6 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
7 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
8 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
9 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
10 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
2 杨昂;文本分类算法研究[D];湖南大学;2002年
3 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
4 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
5 田萱;基于Internet的信息检索若干问题的研究[D];山东师范大学;2003年
6 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
7 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
8 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
9 张红霞;渐进式中文文本分类技术研究[D];河北大学;2004年
10 艾丹祥;基于本体论的知识检索研究[D];武汉大学;2004年
【二级引证文献】
中国硕士学位论文全文数据库 前3条
1 翟凤红;商品搜索引擎系统[D];吉林大学;2005年
2 王磊;基于信息熵的中文文本分类算法研究[D];西北师范大学;2007年
3 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前1条
1 卢增祥,李衍达;交互支持向量机学习算法及其应用[J];清华大学学报(自然科学版);1999年07期
【相似文献】
中国期刊全文数据库 前10条
1 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
2 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
3 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
4 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
5 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
6 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
7 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
8 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
9 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
10 陈莲娜;姚伏天;;用于文本分类的多核SVM算法研究[J];计算机工程;2007年09期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前6条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
3 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
4 希安;微软试水信息检索[N];经济日报;2004年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 应晓敏 窦文华;技术架构[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
7 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
8 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
9 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
10 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
3 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 闫晨;KNN文本分类研究[D];燕山大学;2010年
6 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
7 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
8 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
9 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
10 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026