收藏本站
《重庆大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于关联规则的中文文本自动分类算法研究

杨柯  
【摘要】: 面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决这一问题而产生的研究领域。自90年代产生以来,对数据挖掘的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。由于现实生活中绝大部分信息资源是以非结构化数据的形式存在,而数据挖掘则普遍以结构化数据如关系数据库中的数据为对象,因此如何对非结构化数据进行挖掘成为了一个重要的研究课题。 在常见的非结构化数据如文本、图象、视频中,文本数据是应用最为广泛的一种形式,常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广泛的应用,因而在数据挖掘领域具有较高的商业价值。 本文以文本数据为研究对象,对文本关联分类进行研究,主要包括文本特征提取、选择、表示和文本关联分析、文本关联分类,并提出更有效的文本关联分类算法。本文的研究工作和创新内容包括以下几个方面: ①特征选择、向量空间表示方法研究 目前文本分类中常用的文档表示方法主要有布尔矩阵、词频矩阵等表示形式。采用布尔矩阵表示文档向量,优点在于表示方式简洁且计算效率比较高,缺点在于只是考虑特征在文档中出现与否会使得表示不够精确;而使用词频向量表示虽然表达比较精确,但简洁性相对较低,生成向量空间需要更多的计算。本文提出特征权重阈值的方法来更加准确的表示文本向量空间,从而改善文本分类质量。 ②文本关联分析的研究 文本关联分析中,由于文本集具有高维稀疏的特性,采用Apriori等传统的关联挖掘算法效率比较低,而采用Fp-growth等算法又会使得其挖掘Fp-tree时递归的次数比较多,另外,传统的关联挖掘需要自己指定最小支持度阈值,这在文本关联挖掘中需要反复摸索实验,不好确定。针对以上不足,本文提出根据文本训练集规模动态调整与COFI-tree压缩结构相结合的DL-COFI算法,该算法可以先根据训练文档规模动态确定L的值,再利用COFI算法进行挖掘,动态确定全局最频繁的L个规则。 ③综合置信度与支持度对未知文档分类 传统的CBA、ARC等分类算法对修剪策略与分类预测均考虑得不够全面,在修剪策略方面,很多方法均不能取得满意的效果,本文结合了两种常用修剪策略的优点,提出超规则-J-Measure算法;在对测试文档分类方面,CBA只考虑覆盖样本的第一条规则,ARC只考虑计算覆盖文档某个类的置信度之和,虽然有综合考虑置信度与支持度的研究,但却忽略了二者之间的权重关系。本文权衡置信度与支持度之间的比例关系,提出了两个影响因子进行综合计算类区分度的CDD算法。 最后,利用提出的关联分类算法与原有的传统关联分类算法相比,能够得到较好的查全率、查准率、F1值,达到了提高分类质量与分类效率的目的。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP301.6

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前6条
1 任刚;面向学科相关性分析的文本关联规则挖掘技术研究[D];中南大学;2011年
2 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
3 杨森;民生信息多分类系统研究与设计[D];山东科技大学;2011年
4 黄涛;基于蚁群分类算法的构件检索方法研究[D];哈尔滨工程大学;2009年
5 刘一星;论文投稿系统评审专家自动推荐模型研究[D];重庆大学;2009年
6 万晓鸽;文本关联规则挖掘方法研究与应用[D];西安建筑科技大学;2010年
【参考文献】
中国期刊全文数据库 前6条
1 周水庚,关佶红,胡运发;无需词典支持和切词处理的中文文档分类[J];高技术通讯;2001年03期
2 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
3 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
4 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
5 陈振,郑诚,朱小栋;一种基于关联分类方法的Web用户兴趣预测[J];微机发展;2005年05期
6 王元珍,钱铁云,冯小年;基于关联规则挖掘的中文文本自动分类[J];小型微型计算机系统;2005年08期
【共引文献】
中国期刊全文数据库 前10条
1 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
2 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期
3 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
4 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
5 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
6 郭有强;胡学钢;;基于项目增长法高效求解最大频繁项集[J];安徽科技学院学报;2006年06期
7 张友志;钱萌;程玉胜;;基于关联规则web日志挖掘方法的研究[J];安庆师范学院学报(自然科学版);2006年01期
8 曹丹阳;李晋宏;魏金强;张艳芳;;基于决策树的英语四级成绩分析[J];北方工业大学学报;2007年01期
9 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
10 钟雁;郭雨松;;数据挖掘技术在铁路货运客户细分中的应用[J];北京交通大学学报;2008年03期
中国重要会议论文全文数据库 前10条
1 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
2 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
3 王皓;曹永锋;孙洪;;基于流域变换的聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
4 吴栋;张京华;王玉成;胡伍生;;前兆信息模型在地震预测中的应用[A];数字测绘与GIS技术应用研讨交流会论文集[C];2008年
5 孟少朋;骆红云;李盛;;基于数据挖掘的汽车可靠性分析方法研究[A];2007年全国失效分析学术会议论文集[C];2007年
6 杨纪军;朱培栋;;关联规则挖掘技术在蜜罐系统中的应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
7 朱攀;陈跃新;;Apriori算法在参保人信用度评价中的应用[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
9 郑东健;卢兆辉;;基于时间序列相似性的坝基测压孔水位性态分析[A];全国大坝安全监测技术信息网2008年度技术信息交流会暨全国大坝安全监测技术应用和发展研讨会论文集[C];2008年
10 李佳;芙蓉薇;;基于FP-tree算法的图书推荐服务[A];低碳经济与科学发展——吉林省第六届科学技术学术年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
2 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 金海浩;五行相生间接补法古代应用规律研究[D];南京中医药大学;2011年
5 陈聆;地球化学矿致异常非线性分析方法研究[D];成都理工大学;2011年
6 孟京辉;经营单位级森林经营数据仓库研建及应用研究[D];中国林业科学研究院;2011年
7 任炳昱;高拱坝施工实时控制理论与关键技术研究[D];天津大学;2010年
8 何月顺;关联规则挖掘技术的研究及应用[D];南京航空航天大学;2010年
9 演克武;基于需求预测的机型指派和评价研究[D];南京航空航天大学;2010年
10 韩毅;社会网络分析与挖掘的若干关键问题研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
4 李翠;基于车辆自动识别的智能计重监控系统的研究与设计[D];郑州大学;2010年
5 刘春燕;教学网络DIDS数据分析方法的研究与改进[D];郑州大学;2010年
6 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
7 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
8 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
9 姜雪飞;基于SNMP的网络安全态势可视化技术[D];哈尔滨工程大学;2010年
10 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
2 刘为清;全国高校学报稿件上网评审平台的构建[J];编辑学报;2000年04期
3 张行勇,郭柏寿,李明德;科技期刊管理信息系统的开发及其在因特网上的应用[J];编辑学报;2002年06期
4 吴坚;国外科技期刊审稿的一些特点[J];编辑学报;2004年02期
5 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
6 张福泉;;人工智能在主题搜索策略中的应用[J];重庆科技学院学报(自然科学版);2009年04期
7 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
8 郭玉琴;袁方;刘海博;;基于模糊分类规则树的文本分类(英文)[J];Journal of Southeast University(English Edition);2008年03期
9 王锐;马德涛;陈晨;;数据挖掘技术及其应用现状探析[J];电脑应用技术;2007年02期
10 宁慧;吕志龙;;中文文本分类中特征选择方法的研究[J];电脑知识与技术(学术交流);2007年21期
中国博士学位论文全文数据库 前6条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
3 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
4 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
5 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
6 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 李雪斌;基于粗糙集理论的规则挖掘方法研究[D];江西师范大学;2002年
2 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
3 张友志;数据挖掘中关联规则的研究与应用[D];成都理工大学;2004年
4 汪传建;基于混合模型的文本分类的研究[D];东北大学;2005年
5 刘进锋;动态关联规则的理论与应用研究[D];浙江大学;2006年
6 杨柳;中文文本分类技术研究[D];河北大学;2006年
7 邹庆轩;基于关联规则的文本数据挖掘研究[D];西南石油大学;2006年
8 刘里;中文文本分类中特征描述及分类器构造方法研究[D];重庆大学;2006年
9 马文娟;文本特征降维与分类规则抽取方法研究与应用[D];大连理工大学;2007年
10 邸锦;基于支持向量机的文本分类问题的研究[D];北京交通大学;2008年
【二级引证文献】
中国博士学位论文全文数据库 前1条
1 向东;产品设计中多领域知识表达、获取及应用研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前5条
1 张珍珍;基于本体的构件分层检索机制研究[D];华中师范大学;2011年
2 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
3 渠成建;一种基于刻面描述的构件检索方法研究与实现[D];太原科技大学;2012年
4 魏胜辉;机械领域文本采集和分类的研究与设计[D];西安建筑科技大学;2012年
5 代宏;基于流媒体技术的农村基层党员干部远程教育系统设计与实现[D];电子科技大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
2 贺海军,王建芬,周青,曹元大;基于决策支持向量机的中文网页分类器[J];计算机工程;2003年02期
3 王实,高文,李锦涛;基于分类方法的Web站点实时个性化推荐[J];计算机学报;2002年08期
4 关英春 ,秦蓓;汉语文字自动统计系统CWSS[J];中文信息学报;1986年01期
5 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
6 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
7 李辉,史忠植,许卓群;运用文本领域的常识改善基于支撑向量机的文本分类器性能[J];中文信息学报;2002年02期
8 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期
9 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
10 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
【相似文献】
中国期刊全文数据库 前10条
1 刘培奇;卢麟;廖福燕;宋阳;;基于一次性数据库访问策略的关联规则挖掘算法的研究[J];微电子学与计算机;2010年12期
2 杨启昉;马广平;;关联规则挖掘Apriori算法的改进[J];计算机应用;2008年S2期
3 范黎林;林卫;;矩阵约束下的频繁项集挖掘方法研究[J];计算机工程与应用;2011年21期
4 张月琴;晏清微;;基于粒计算的关联规则挖掘算法[J];计算机工程;2009年20期
5 魏小锐;;基于关联分析的偏离主题探测[J];东莞理工学院学报;2010年05期
6 钱光超;贾瑞玉;张然;李龙澍;;Apriori算法的一种优化方法[J];计算机工程;2008年23期
7 王立希;王建东;汪静;;基于数据挖掘的新词发现[J];计算机应用研究;2006年12期
8 景永霞;王治和;苟和平;;基于分布式数据库的关联规则挖掘算法[J];湛江师范学院学报;2007年06期
9 吴常辉;左春荣;;关联规则挖掘Apriori算法的研究[J];价值工程;2010年02期
10 刘山;孟维芬;廖勇毅;;基于二维表的频繁集组合方法[J];中国民航大学学报;2007年01期
中国重要会议论文全文数据库 前10条
1 王盛;董黎刚;李群;;一种基于逆序编码的关联规则挖掘研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 邓传国;;频繁项集挖掘与学生素质测评应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
3 张鹏;于波;童云海;唐世渭;;基于随机响应的隐私保护关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 方炜炜;杨炳儒;唐志刚;杨君;;基于客观兴趣度的关联规则优化算法研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
5 谷姗姗;秦首科;胡大斌;周傲英;;面向关联规则挖掘的敏感规则隐藏技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 陈晓云;李泽霞;刘幸辉;彭文静;;关联规则挖掘过程中的模糊化方法研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 严澄;胡天磊;陈珂;陈刚;;MARSW:一种高效的基于滑动窗口数据流关联规则挖掘方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 方芳;李建中;潘海为;;脑部医学图像中的关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 潘海为;韩启龙;印桂生;张炜;李建中;;基于领域知识指导的医学图像关联规则挖掘[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 山东省临清市国税局;关联分析现疑点 实地取证露端倪[N];中国税务报;2010年
3 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
4 邱红杰;过去有困难找单位,现在找谁[N];新华每日电讯;2006年
5 记者 曾卫康通讯员 市创卫办;对广州总体卫生状况满意度95% 对创建国家卫生城市支持度98%[N];广州日报;2007年
6 特约评论员 王尔山;奥巴马高支持度的另面[N];21世纪经济报道;2009年
7 ;台媒:许信良支持度超过预期[N];团结报;2011年
8 严宁;挖掘数据寻保险商机[N];网络世界;2007年
9 赵晓涛;SIEM的混乱之治[N];网络世界;2008年
10 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
中国博士学位论文全文数据库 前10条
1 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
2 叶飞跃;关联规则及其元规则挖掘技术研究[D];南京航空航天大学;2006年
3 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年
4 陆介平;描述性规则挖掘若干关键技术研究[D];东南大学;2006年
5 陶然;SIAT8B和PDLIM5基因与中国汉族人精神分裂症发生的关联分析[D];中国科学院研究生院(上海生命科学研究院);2007年
6 奚正蕊;精神分裂症候选基因在中国汉族人群中的关联研究分析[D];上海交通大学;2007年
7 查屹;中国汉族人群转化生长因子β1和β3基因多态性与高度近视的关联研究[D];浙江大学;2008年
8 罗培芬;多巴胺D2受体基因多态性与偏执型精神分裂症的关联研究[D];中国协和医科大学;2008年
9 金如锋;候选基因多态性与慢性苯中毒的关联分析研究[D];复旦大学;2010年
10 刘智;关联规则挖掘方法及其在冠心病中医诊疗中的应用研究[D];大连海事大学;2012年
中国硕士学位论文全文数据库 前10条
1 杨柯;基于关联规则的中文文本自动分类算法研究[D];重庆大学;2007年
2 李永波;基于数据挖掘的军事情报分析系统研究[D];重庆大学;2005年
3 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
4 窦茂生;数据挖掘中关联规则的研究与应用[D];长春理工大学;2009年
5 龚舒;桥吊动态机械性能参数的统计特征分析及关联规则挖掘[D];上海海事大学;2005年
6 刘笑君;关联规则算法在科技查新中的应用研究[D];重庆大学;2007年
7 田卓;基于多个关联规则挖掘算法的新算法的研究与应用[D];吉林大学;2009年
8 袁彩虹;基于粒计算与完全图的关联规则算法研究[D];河南大学;2009年
9 王涛;关联规则算法及并行化研究[D];河北大学;2006年
10 熊金芬;一种高效频繁项集挖掘算法的研究[D];哈尔滨工程大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026