收藏本站
《重庆大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于贝叶斯模型的文档分类及相关技术研究

古平  
【摘要】: 随着Internet的迅猛发展和电子文档信息的不断丰富,文档自动分类日益成为信息检索和自然语言处理领域的研究热点。基于贝叶斯模型的文档分类具有简单、直观、性能稳定的优点,但面对复杂的文档分类问题,仍然存在许多急待解决的问题。本文将针对贝叶斯文档分类的几个关键问题进行深入研究和探索,具体内容和创新成果概括如下: (1)对以朴素贝叶斯模型、半朴素贝叶斯模型、树形增强朴素贝叶斯模型为代表的广义朴素贝叶斯模型在网络结构、分类原理、学习方法等方面的异同进行理论分析,证明通过有效的贝叶斯结构改进,可以提高模型的文档分类性能。这为进一步提升贝叶斯模型提供了理论依据。 (2)提出一种基于关联特征扩展的特征选择算法。特征选择对文档分类的性能影响很大,即便是同样的分类器在不同的特征集上的性能也会有很大的差异。论文通过对现有特征选择算法的分析,总结出现有特征选择算法的三个问题:特征空间不完备;特征集中信息冗余明显;特征选择的效率不高。针对这些问题,论文提出先利用关联特征对原始特征集进行扩展,再利用改进的相关性分析测度和启发式规则进行冗余检测和特征选择的方法。由于算法避免了对所有特征对之间的相关性分析,因此具有O ( NlogN)的算法时间复杂度,同时通过冗余分析和排除,增加了特征集的信息量。 (3)提出一种贝叶斯潜在语义模型。与传统贝叶斯模型相比,该模型最大的特点在于不仅考虑了词条在文档中的统计特征,而且对每个词条在不同上下文中的语义进行了辨析。通过将概念特征引入到贝叶斯模型中,建立起传统特征与概念,概念与类别之间的映射关系,借助这种映射关系可以更好的利用词频和词义进行文档分类。对模型训练时面临的数据缺失和效率问题,论文采用了改进的EM算法和特征优化、概念选择等预处理,提高了潜在语义模型的分类精度和学习效率。 (4)提出一种新的半监督语义分类模型。模型以语义支持向量机和贝叶斯潜在语义模型为基础,利用大量无标记样本和协同训练算法Co-models,对模型在少量标记样本集中的性能加以改进。与传统协同算法Co-training不同,算法Co-models不对文档集有任何依赖和限制,而是利用不同模型间的固有差异,反复对无标记样本进行分类和样本集扩充,并借此逐步提高协同模型对无标记样本的分类精度。通过在文档集Reuters-21578和20NG上的实验,证明该模型在少量标记样本集中同样可以取得较好的泛化性能。 (5)提出一种语言独立的贝叶斯集成分类模型。现有文档分类模型一般只针对
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP18

【引证文献】
中国期刊全文数据库 前3条
1 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
2 孟海东;张炼;吕海林;;基于图模型的文本分类方法的研究[J];计算机与现代化;2010年09期
3 唐进;;BETSY在自动作文评分中的原理与应用[J];当代外语研究;2011年01期
中国硕士学位论文全文数据库 前6条
1 伍红亮;基于最小风险的贝叶斯邮件过滤算法研究[D];华南理工大学;2010年
2 何文涛;基于分类文本库的文本分类系统的应用研究及实现[D];中国地质大学(北京);2011年
3 刘成帅;中文领域术语自动获取方法的研究[D];南京邮电大学;2011年
4 张炼;基于图模型的Web文档分类方法研究[D];内蒙古科技大学;2010年
5 张倩;基于信息增益的贝叶斯数据挖掘算法在垃圾邮件过滤中的应用[D];浙江工业大学;2012年
6 赵行;SVM分类器置信度的研究[D];北京邮电大学;2010年
【参考文献】
中国期刊全文数据库 前7条
1 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
2 宫秀军,孙建平,史忠植;主动贝叶斯网络分类器[J];计算机研究与发展;2002年05期
3 陈治平,林亚平,童调生;基于N层向量空间模型的信息检索算法[J];计算机研究与发展;2002年10期
4 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
5 宫秀军,刘少辉,史忠植;一种增量贝叶斯分类模型[J];计算机学报;2002年06期
6 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
7 解冲锋,李 星;基于序列的文本自动分类算法[J];软件学报;2002年04期
【共引文献】
中国期刊全文数据库 前10条
1 陈景年;黄厚宽;杨莉萍;田凤占;;基于分布不完整数据选择性分类器[J];北京交通大学学报;2008年02期
2 陈景年;黄厚宽;徐力;伊传环;;利用增益率构建混合型选择性不完整数据分类器[J];北京交通大学学报;2009年05期
3 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
4 张小平;周雪忠;黄厚宽;冯奇;陈世波;焦宏官;;一种改进的LDA主题模型[J];北京交通大学学报;2010年02期
5 王中锋;王志海;付彬;;贝叶斯网络分类器结构与变量分布的差异性分析[J];北京交通大学学报;2011年02期
6 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
7 赖英旭;杨震;;改进贝叶斯算法在未知恶意软件识别中的研究[J];北京工业大学学报;2011年05期
8 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
9 赵悦;穆志纯;董洁;付冬梅;何伟;;基于QBC主动学习方法建立电信客户信用风险等级评估模型[J];北京科技大学学报;2007年04期
10 马勇;仝瑶瑶;程玉虎;;一种改进的最大相关最小冗余选择性贝叶斯分类器[J];北京科技大学学报;2012年01期
中国重要会议论文全文数据库 前10条
1 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 杨波;秦锋;程泽凯;;一种新的分类学习系统评估度量[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 赵越岭;王英丽;;基于粗糙集感应电动机故障诊断决策规则分析[A];第二十七届中国控制会议论文集[C];2008年
4 ;Gas Thickness On-line Monitoring Instrument Design Based on BP Neural Network[A];第二十七届中国控制会议论文集[C];2008年
5 ;Fault Diagnosis Based on Bayesian Networks for the Data Incomplete Industrial System[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 居胜峰;王中卿;李寿山;周国栋;;情感分类中不同主动学习策略比较研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 舒宁;陶建斌;;面向土地利用分类的多源遥感数据混合贝叶斯网络分类器[A];全国农业遥感技术研讨会论文集[C];2009年
8 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
9 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
10 ;A Recursive Method of Learning Bayesian Network for Rule Extraction Based on Information Theory[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 刘家国;基于突发事件风险的供应链利益分配与行为决策研究[D];哈尔滨工程大学;2010年
2 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
3 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
4 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
5 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
6 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
7 江悦;场景图像内容表述和分类研究[D];国防科学技术大学;2010年
8 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
9 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
10 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 娄铮铮;sIB算法在图像无监督分类中的应用研究[D];郑州大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
5 赵八一;基于概率图模型的图像分类和注释[D];大连理工大学;2010年
6 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
7 孔健;基于半监督学习的社团划分算法研究[D];辽宁师范大学;2010年
8 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
9 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
10 赵群;极小化标注的音频分类和句子切分的研究[D];中国海洋大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 刘明川,彭长生;基于贝叶斯概率模型的邮件过滤算法探讨[J];重庆邮电学院学报(自然科学版);2005年05期
2 朱良,谈香如;一种用决策树对XML文档进行分类的方法[J];长沙电力学院学报(自然科学版);2004年02期
3 汪志圣;李龙澍;;Web文档分类方法的比较与分析[J];滁州学院学报;2007年06期
4 张长君;邮件服务器中基于地址的一种电子邮件过滤方法[J];大连大学学报;2002年02期
5 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
6 李星;田莹;段海新;;中文垃圾邮件过滤系统的实现和评估[J];大连理工大学学报;2005年S1期
7 张卫丰;徐宝文;崔自峰;徐峻岭;;一种基于粗糙集角分类神经网络的文档分类方法(英文)[J];Journal of Southeast University(English Edition);2006年03期
8 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
9 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
10 潘国清;;一种向量空间模型中对特征项的改进方法及应用[J];湖南工程学院学报(自然科学版);2009年02期
中国重要会议论文全文数据库 前2条
1 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 肖诗斌;乔春庚;李渝勤;施水才;;基于未标注语料的领域词汇自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
2 陈海霞;面向数据挖掘的分类器集成研究[D];吉林大学;2006年
3 王朝勇;支持向量机若干算法研究及应用[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 夏菁;多层前向神经网络推广性研究及其应用[D];西北工业大学;2003年
2 张丽;基于多分类器动态组合的手写体数字识别[D];南京理工大学;2003年
3 樊建聪;使用贝叶斯方法的数据挖掘及应用研究[D];山东科技大学;2003年
4 骆昌日;基于统计方法的中文文本自动分类研究[D];华中师范大学;2004年
5 刘建舟;术语自动抽取系统的设计及关键技术研究[D];华中师范大学;2004年
6 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
7 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
8 肖靓;基于支持向量机的图像分类研究[D];同济大学;2006年
9 谢芳;特定领域术语的自动获取[D];华中师范大学;2006年
10 张勇;中文术语自动抽取相关方法研究[D];华中师范大学;2006年
【二级引证文献】
中国期刊全文数据库 前2条
1 吴波;朱昌杰;任逸卿;;文本分类技术探究[J];宿州学院学报;2012年05期
2 祝清松;冷伏海;;自动术语识别存在的问题及发展趋势综述[J];图书情报工作;2012年18期
中国硕士学位论文全文数据库 前4条
1 李风云;隧道塌方风险预测与控制研究[D];中南大学;2011年
2 刘小荣;基于聚类分析的图模型文本分类[D];内蒙古科技大学;2011年
3 王明涛;英语作文智能评阅系统中高分作文判别模型的研究[D];北京邮电大学;2012年
4 刘小荣;基于聚类分析的图模型文本分类[D];内蒙古科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前4条
1 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
2 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
3 刘芳,卢正鼎;有效地检索HTML文档[J];小型微型计算机系统;2000年09期
4 战学刚,林鸿飞,姚天顺;Infolite中文检索系统[J];小型微型计算机系统;2000年09期
【相似文献】
中国期刊全文数据库 前10条
1 马蕾;汪西莉;;基于支持向量机协同训练的半监督回归[J];计算机工程与应用;2011年03期
2 蔡晰;郭躬德;黄添强;;基于半监督技术的多分类器融合策略研究[J];计算机工程与应用;2009年25期
3 缪志敏;赵陆文;胡谷雨;王琼;;基于单类分类器的半监督学习[J];模式识别与人工智能;2009年06期
4 潘志松;严岳松;缪志敏;倪桂强;张晖;;基于半监督学习的单类分类器[J];解放军理工大学学报(自然科学版);2010年04期
5 徐敏;张丽萍;朱梧檟;;基于ART半监督在线学习的文档分类[J];西南交通大学学报;2006年03期
6 李昆仑;张伟;代运娜;;基于Tri-training的半监督SVM[J];计算机工程与应用;2009年22期
7 蔡月红;朱倩;程显毅;;基于Tri-training半监督学习的中文组织机构名识别[J];计算机应用研究;2010年01期
8 古平;朱庆生;何希平;李云峰;;基于关联特征扩展的特征选择算法[J];计算机工程;2007年16期
9 赵涛涛;洪宇;华震威;赵明明;姚建民;;基于Tri-training算法的中文短语翻译自由度计算[J];广西师范大学学报(自然科学版);2010年03期
10 孙晓燕;任洁;巩敦卫;;基于半监督学习的变种群规模区间适应值交互式遗传算法[J];控制理论与应用;2011年05期
中国重要会议论文全文数据库 前10条
1 张杰;吴亚平;于衔翌;;永平铜矿爆破振动衰减规律及其相关性分析[A];全国岩石边坡、地下工程、地基基础监测及处理技术学术会议论文选集[C];1993年
2 闫绪奇;高雨;张惠梓;白鸽;;管理层持股与公司绩效的研究——基于中国上市公司的实证分析[A];中国会计学会2006年学术年会论文集(中册)[C];2006年
3 王刚;罗森波;温晶;;广州市亚运期间空气污染的逐时变化规律[A];第27届中国气象学会年会大气物理学与大气环境分会场论文集[C];2010年
4 冯涛;赵性泉;芦林龙;张璇;刘萍;张蓉;王拥军;;Hohen-Yahr 3-4期帕金森病的脑多巴胺转运体代谢与短时程多巴反应的相关性分析[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
5 冯涛;赵性泉;芦林龙;张璇;刘萍;张蓉;王拥军;;早期帕金森病脑多巴胺转运体代谢和葡萄糖代谢的相关性分析[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
6 王和平;赵陇;夏薇;腊胜明;;支气管哮喘与家族史、IgE水平相关性分析[A];第一届全国变态反应学术研讨会论文汇编[C];2001年
7 张中念;;脑卒中急性期精神障碍的预后与年龄的相关性分析[A];继往开来 与时俱进——2003年康复医学发展论坛暨庆祝中国康复医学会成立20周年学术大会论文集[C];2003年
8 何永贵;乞建勋;;城市化进程与区域经济发展相关性分析[A];2004年中国管理科学学术会议论文集[C];2004年
9 梁文德;毛茂南;王孝林;;环境空气自动监测系统与连续监测系统监测数据的比较[A];四川省第十次环境监测学术交流会论文集[C];2005年
10 吕春兰;周东海;王金枝;;糖尿病中医证型演变规律与检验指标相关性分析[A];第五次全国中青年检验医学学术会议论文汇编[C];2006年
中国重要报纸全文数据库 前10条
1 张新兵 唐廷刚 赵荣;兵种专业“结亲”夯实协同训练基础[N];中国国防报;2009年
2 熊华明 李跃芳 韦君;军地联合征召 结对协同训练[N];中国国防报;2009年
3 记者 李学勇 特约记者 代宗锋;赴远海开展协同训练[N];解放军报;2010年
4 吴学东;抓好交通保障的要素化协同训练[N];中国国防报;2011年
5 文雅 丁猛 王方靖;某部多法并举解决协同训练难题[N];战士报;2008年
6 本报特约记者 方立华 特约通讯员 曹结余 某潜艇支队支队长 支天龙;从“预先合成”走向“机动编组”[N];解放军报;2009年
7 张超 孙书亮 特约记者周承强;“零”纪录是这样实现的[N];战士报;2010年
8 姜俊玉、特约通讯员 王绍波;依托基地开展诸兵种协同训练[N];解放军报;2004年
9 苏俊杰、特约通讯员 王宇;一批协同训练课目成重点[N];中国国防报;2006年
10 民生期货 冯莉 贺文胜;原油与日胶的相关性分析[N];期货日报;2008年
中国博士学位论文全文数据库 前10条
1 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
2 孔怡青;半监督学习及其应用研究[D];江南大学;2009年
3 王娇;多视图的半监督学习研究[D];北京交通大学;2010年
4 张邦佐;基于正例和无标记样例学习研究[D];吉林大学;2009年
5 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
6 张博锋;面向内容安全的文本分类研究[D];国防科学技术大学;2007年
7 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
8 徐雪;样本的几何信息在半监督学习中的应用研究[D];中国科学技术大学;2010年
9 桂杰;基于图的半监督学习和维数约简方法及其应用研究[D];中国科学技术大学;2010年
10 潘俊;基于图的半监督学习及其应用研究[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 卢加磊;半监督学习中协同训练与多视图方法的比较及改进[D];中国海洋大学;2010年
2 褚镇飞;基于半监督学习的物体识别[D];上海交通大学;2010年
3 马蕾;基于半监督学习的渭河水质定量遥感研究[D];陕西师范大学;2010年
4 余养强;半监督学习若干问题的研究[D];福建师范大学;2010年
5 宿洪禄;结构半监督学习算法及其应用研究[D];苏州大学;2010年
6 徐庆伶;基于半监督学习的遥感图像分类研究[D];陕西师范大学;2010年
7 林晨;面向战略的流程企业绩效指标体系研究[D];同济大学;2006年
8 刘宏君;大鼠臂丛神经根的生物力学研究[D];吉林大学;2007年
9 江延球;机械制造业营销人员胜任力模型研究[D];湖南大学;2006年
10 彭芳梅;工业化与服务业的相关性分析[D];华中师范大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026