收藏本站
《南京理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类中词共现关系的研究及其应用

章舜仲  
【摘要】: 在网络信息时代,文本分类作为大规模文本处理的技术基础,有着广泛的应用前景。随着研究的深入,文本分类技术日趋成熟,开始进入实用阶段,对于文本分类算法本身的研究越来越难以取得突破性创新。在这种情况下,寻找新的研究切入点,从基础性问题入手,解决关键技术,再逐步展开应用于分类器性能的改进,对于文本分类技术研究的发展具有重要的意义。 本文从分析文本类别特征入手,提出了文本分类中词语共现关系研究的课题,从关联和相关两个方面研究了词语共现关系,然后提出了多种将词关联和词相关应用于文本分类的方法,可概括为直接的基于关联或相关的文本分类模型构建以及间接的其它文本分类模型的改进这样两种应用方式。 关联和相关的概念源于数据挖掘中的规则有趣性度量,本文将其应用于文本分类,又采用了统计学中对于相关的一般性解释,从线性和非线性两个方面分析了词间相关性,其中线性相关分析包括了线性方程参数求解和线性相关系数的计算,而非线性相关则主要分析了基于概率的相关性度量指标计算。 对于关联分析在文本分类中的应用,本文从关联文本分类模型和关联特征选择这两个方面进行研究。关联文本分类模型是一种基于规则的文本分类模型,在分类规则挖掘算法上,我们提出了一种应用于长频繁集挖掘的基于变动邻域搜索的遗传算法(VNS-GA)设计,在文档类别判定方法上,我们提出了基于规则匹配长度计算的文档区分算法。在关联特征选择的研究中,我们总结了文档类别区分能力和文档覆盖率这两个特征选择原则,提出了k项频集的并集的选择方法。在Yahoo中文文本数据集上的实验结果表明本文提出的长频繁集挖掘算法能够有效地应用于关联文本分类模型,而运用关联特征选择的朴素贝叶斯文本分类模型也大大提高了分类性能。 对于相关分析在文本分类中的应用,本文所作研究包括线性最小二乘拟合(LLSF)分类、LLSF和朴素贝叶斯组合分类和基于概率相关性分析的改进贝叶斯分类。在Reuters-21578文本集上的实验结果可得以下结论:首先,LLSF分类器的效果不够理想,说明在文本分类中词间线性关系表现较弱,完全基于线性关系假设的分类器可能存在较大偏差;其次,LLSF和朴素贝叶斯组合分类的性能要好于两种分类器单独使用的性能,说明尽管LLSF分类效果较差,但作为一种成熟分类算法仍有其价值;最后,基于概率相关性分析的改进贝叶斯比朴素贝叶斯分类在评测指标上有着全面的明显的提高,说明了本文提出的词集相关度计算方法用于改进贝叶斯分类的有效性。
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前2条
1 刘杰;互联网舆情信息搜索与分析技术研究[D];电子科技大学;2011年
2 彭俊杰;中文短文本表示及分类的研究与实现[D];河南大学;2012年
【参考文献】
中国期刊全文数据库 前8条
1 王晓峰,王天然,赵越;一种自顶向下挖掘长频繁项的有效方法[J];计算机研究与发展;2004年01期
2 姜远;佘俏俏;黎铭;周志华;;一种直推式多标记文档分类方法[J];计算机研究与发展;2008年11期
3 广凯;潘金贵;;一种基于向量夹角的k近邻多标记文本分类算法[J];计算机科学;2008年04期
4 田宝明;戴新宇;陈家骏;;一种基于随机森林的多视角文本分类方法[J];中文信息学报;2009年04期
5 武建华;宋擒豹;沈均毅;谢建文;;基于关联规则的特征选择算法[J];模式识别与人工智能;2009年02期
6 周远晖,陆玉昌,石纯一;基于克服过早收敛的自适应并行遗传算法[J];清华大学学报(自然科学版);1998年03期
7 路松峰,卢正鼎;快速开采最大频繁项目集[J];软件学报;2001年02期
8 蒋福坤;刘正春;柴惠文;;多维随机变量的线性相关性[J];数理统计与管理;2008年01期
中国博士学位论文全文数据库 前1条
1 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 邓建斌;叶洪江;;基于混沌遗传算法的配电网无功补偿优化[J];安徽电气工程职业技术学院学报;2006年03期
2 乔志杰;程翠翠;;基于遗传算法优化的模糊PID控制研究及其仿真[J];安徽电气工程职业技术学院学报;2009年03期
3 赵群礼;;基于FP-Tree的最大频繁项目集综合更新算法[J];安徽教育学院学报;2006年03期
4 赵群礼;卢朴;;基于T-tree的最大频繁项目集挖掘算法[J];合肥师范学院学报;2009年06期
5 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
6 安振刚,李谋渭,尹显东,于宁,唐伟;遗传神经网络在平整轧制力预报中的应用[J];鞍钢技术;2001年06期
7 华文立;胡学刚;;平衡决策树分类精度与规则简易性研究[J];安徽电子信息职业技术学院学报;2006年04期
8 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
9 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
10 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前10条
1 齐继阳;竺长安;曾议;;基于遗传禁忌混合搜索算法的设备布局研究[A];2004“安徽制造业发展”博士科技论坛论文集[C];2004年
2 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 杨波;秦锋;程泽凯;;一种新的分类学习系统评估度量[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
5 丁婷;崔红涛;;遗传算法在智能天线扇区波束赋形及阵元失效补偿中的应用[A];经济策论(上)[C];2011年
6 程远林;李茂军;;基于小生境遗传算法的配电网电容器优化配置[A];第二十六届中国控制会议论文集[C];2007年
7 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
8 张志华;王莉;刘洪;;最大化网络广告收入的投放决策[A];第二十六届中国控制会议论文集[C];2007年
9 赵瑞艳;李树荣;张晓东;苗荣;;基于混合遗传算法的热传导系统最优控制问题求解[A];第二十七届中国控制会议论文集[C];2008年
10 王清;宋年年;王佳庆;姚菁;;优化自抗扰控制器在主汽温控制系统中的应用[A];第二十七届中国控制会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李佳;载人潜器阻力性能的数值和试验预报及外形优化研究[D];哈尔滨工程大学;2010年
3 张亚娟;适应性企业战略协同机制研究[D];哈尔滨工程大学;2010年
4 谭枫;介入式文化算法及其应用研究[D];哈尔滨工程大学;2010年
5 陆满君;通信辐射源个体识别与参数估计[D];哈尔滨工程大学;2010年
6 刘家国;基于突发事件风险的供应链利益分配与行为决策研究[D];哈尔滨工程大学;2010年
7 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
8 李晚龙;六自由度Stewart平台分散智能控制研究[D];哈尔滨工程大学;2010年
9 董慧群;代建制项目风险预警管理研究[D];辽宁工程技术大学;2010年
10 许爱德;开关磁阻电机在船舶电力推进中的应用研究[D];大连海事大学;2010年
中国硕士学位论文全文数据库 前10条
1 梅俊;数据挖掘中关联规则算法的研究及应用[D];安徽工程大学;2010年
2 万成;动态环境下的元胞遗传算法研究[D];南昌航空大学;2010年
3 李坤;参数参与进化的自适应遗传算法研究[D];南昌航空大学;2010年
4 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
5 马冉冉;集成学习算法研究[D];山东科技大学;2010年
6 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
7 马水松;多目标遗传算法与非支配集的构造研究[D];山东科技大学;2010年
8 李臻;城市公交车辆智能调度优化研究[D];山东科技大学;2010年
9 朱国凯;泰安市农村公路典型路面结构研究[D];山东科技大学;2010年
10 纪二云;基于改进遗传算法的电力系统无功优化的研究[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张立;刘云;;网络舆论传播的无标度特性及其衰减模型的研究[J];北京交通大学学报;2008年02期
2 金兼斌;;网络舆论的演变机制[J];传媒;2008年04期
3 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
4 郭光华;论网络舆论主体的“群体极化”倾向[J];湖南师范大学社会科学学报;2004年06期
5 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
6 王实,高文,李锦涛,谢辉;路径聚类:在Web站点中的知识发现[J];计算机研究与发展;2001年04期
7 黄松,刘晓明,宋自林;基于归纳化会话的网络用户的聚类[J];计算机研究与发展;2001年10期
8 李晓明,朱家稷,闫宏飞;互联网上主题信息的一种收集与处理模型及其应用[J];计算机研究与发展;2003年12期
9 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
10 王鹏;樊兴华;;中文文本分类中利用依存关系的实验研究[J];计算机工程与应用;2010年03期
中国博士学位论文全文数据库 前5条
1 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
2 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
3 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
4 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
5 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
中国硕士学位论文全文数据库 前7条
1 潘文锋;基于内容的垃圾邮件过滤研究[D];中国科学院研究生院(计算技术研究所);2004年
2 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
3 李若鹏;互联网舆情信息管控关键技术研究与实现[D];上海交通大学;2008年
4 王展;新闻事件命名研究[D];安徽大学;2010年
5 崔爱香;复杂网络演化模型分析[D];电子科技大学;2010年
6 陈旭;基于社会网络的WEB舆情系统的研究与实现[D];电子科技大学;2010年
7 张学清;规则与统计相结合的音乐领域命名实体识别[D];电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
2 姜远;周志华;;基于词频分类器集成的文本分类方法[J];计算机研究与发展;2006年10期
3 薛晓冰;韩洁凌;姜远;周志华;;基于多示例学习技术的Web目录页面链接推荐[J];计算机研究与发展;2007年03期
4 王晓峰;王天然;;基于双空间搜索的频繁项挖掘方法[J];计算机科学;2002年04期
5 李辉,史忠植,许卓群;运用文本领域的常识改善基于支撑向量机的文本分类器性能[J];中文信息学报;2002年02期
6 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
7 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
8 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
9 陈治纲,何丕廉,孙越恒,郑小慎;基于向量空间模型的文本分类系统的研究与实现[J];中文信息学报;2005年01期
10 代六玲,黄河燕,陈肇雄;一种文本分类的在线SVM学习算法[J];中文信息学报;2005年05期
【相似文献】
中国期刊全文数据库 前10条
1 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
2 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
3 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
4 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
5 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
6 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
7 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
8 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
9 陈莲娜;姚伏天;;用于文本分类的多核SVM算法研究[J];计算机工程;2007年09期
10 王倩倩;段震;张燕平;;基于交叉覆盖算法的文本分类[J];计算机技术与发展;2007年06期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
3 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
4 希安;微软试水信息检索[N];经济日报;2004年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 应晓敏 窦文华;技术架构[N];计算机世界;2003年
7 梁晶;“成都故事”演绎公共文化品牌[N];中国文化报;2007年
8 本报记者 王刚;水利事业:润泽万民灌良田[N];祁连山报;2007年
9 王取发;长江航道将全线使用太阳能一体化航标灯[N];中国交通报;2008年
10 王取发;一年可节约费用上千万[N];中国水运报;2008年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
7 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
8 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
9 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
10 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
2 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
3 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
4 闫晨;KNN文本分类研究[D];燕山大学;2010年
5 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
6 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
7 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
8 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026