收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

贝叶斯网络研究

黄友平  
【摘要】: 贝叶斯网络是研究不确定性问题的重要方法之一。它基于概率和统计理论,具有坚实的数学基础。由于具有自然的表达方式、强大的推理能力和方便的决策机制等许多优点,贝叶斯网络在许多领域得到了广泛的应用。本文在贝叶斯网络基础理论框架的基础上,主要研究了以下几个方面的内容:基于信息几何理论的贝叶斯网络研究、朴素贝叶斯分类器的提升、规则方法与贝叶斯网络结合文本信息抽取研究、层次贝叶斯网络文本分类器。本文的主要贡献如下: (1)分析了贝叶斯网络这一特殊类型的概率分布簇所对应的统计流形的特点:由于贝叶斯网络引入了条件独立性,从而降低了流形的维度,简化了统计流形上的Riemman度量矩阵。提出了基于信息几何理论的不完备数据条件下贝叶斯网络的参数学习算法:贝叶斯网络的自然梯度学习算法(NGBN)。推导出了离散型、连续型、条件Gaussian网、父节点连续而子节点离散等不同的贝叶斯网络类型其自然梯度的计算公式。通过理论分析和试验,说明了自然梯度学习比欧式梯度学习更合理,更快速。 (2)提出了一种通过在原有属性的基础上重新构造属性集,从而提高属性间的条件独立性的方式来提高朴素贝叶斯分类器性能的新方法:基于Fisher分构建朴素贝叶斯分类器(FS-NBC)。新属性集的分量为贝叶斯网概率分布函数的对数对每个分布参数的偏微分。我们证明了在一定条件下,经过Fisher分映射后得到的新属性集是条件独立的,并从理论上分析了对于无先验信息的多项分布和原属性集已经是条件独立的情况下新属性集的独立性。试验表明该方法较好地提高了朴素贝叶斯分类器的性能。 (3)提出了一种新的文本信息抽取算法:结合规则的动态贝叶斯信息抽取网(RDBIEN)。在半结构化文本抽取任务中,主要有两种技术手段:一种是基于规则的方法,另一种是基于概率的方法。基于规则的方法是处理确定性问题的重要手段,它具有充分吸取专家经验和更为直观、更易于获得的优点。而基于概率的方法则更鲁棒,性能更高。我们把规则方法与贝叶斯网络相结合,既保持了概率方法的鲁棒性等优点,又结合了规则方法在吸取专家经验等方面的优点。试验表明该算法具有较高的抽取性能。 (4)提出了基于主题词树的贝叶斯文本层次分类算法。对于Web文本分类问题,存在文本的类别数太多、相对获得大量有标注的训练数据成本较高、特征维数太高从而使模型训练非常复杂等难点。本算法通过对同一主题词的子主题词的合并,有效地降低了文本特征词的维数,强化了关键维的作用。此算法不仅降低了训练的复杂度,而且有效提高了样本的质量,降低了噪声数据对分类的影响,从而可以在类别数太多而样本数相对较少的情况下获得较满意的分类精度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 朱学昊;王儒敬;;隐含语义索引技术在供求信息分类中的应用[J];计算机工程与应用;2007年14期
2 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期
3 魏顺平;何克抗;;文本智能处理技术在远程教育元研究中的应用[J];中国远程教育;2007年08期
4 于琨;管刚;周明;王煦法;蔡庆生;;基于双层级联文本分类的简历信息抽取[J];中文信息学报;2006年01期
5 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
6 张璇;左敏;;一种改进的朴素贝叶斯分类器在文本分类中的应用研究[J];北京工商大学学报(自然科学版);2009年04期
7 代磊;马卫东;王凌楠;马建国;;基于权重的朴素贝叶斯分类器设计与实现[J];情报理论与实践;2008年03期
8 赖英旭;许昕;杨震;;基于尾项加权的自适应文本分类方法研究[J];中国科学技术大学学报;2011年07期
9 白莉媛;肖乐;黄晖;丁伟;;基于Bootstrap Averaging的贝叶斯分类算法[J];计算机应用与软件;2007年09期
10 万狄飞;樊兴华;王国胤;;基于朴素贝叶斯和遗传算法的两类文本分类方法[J];计算机科学;2008年04期
11 白莉媛;黄晖;刘素华;阎秋玲;;基于自助平均的朴素贝叶斯文本分类器[J];计算机工程;2007年15期
12 刘静,尹存燕,陈家骏;一种规则和贝叶斯方法相结合的文本自动分类策略[J];计算机应用研究;2005年07期
13 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
14 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
15 高金勇;徐朝军;冯奕竸;;基于迭代的TFIDF在短文本分类中的应用[J];情报理论与实践;2011年06期
16 周雪忠;吴朝晖;;文本知识发现:基于信息抽取的文本挖掘[J];计算机科学;2003年01期
17 刘华;;网页信息抽取及建库系统C#实现[J];计算机工程;2006年16期
18 唐洋运;李荣陆;胡运发;;使用层次结构改善平面文本分类器的性能[J];计算机应用与软件;2007年01期
19 李渝勤,孙丽华;基于规则的自动分类在文本分类中的应用[J];中文信息学报;2004年04期
20 栾虹;HTML文档分类中的词元权重算法[J];山东师范大学学报(自然科学版);2005年02期
中国重要会议论文全文数据库 前10条
1 房一飞;张冬茉;;基于boosting的文本分类在股市领域信息抽取系统中的应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 王岩;;基于内容的垃圾邮件过滤技术[A];中国通信学会第六届学术年会论文集(中)[C];2009年
3 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 黄友平;贝叶斯网络研究[D];中国科学院研究生院(计算技术研究所);2005年
2 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
3 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
4 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年
5 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
6 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
7 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
8 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
9 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
10 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 曲杰涛;基于DOM的智能网页信息抽取技术研究[D];中国海洋大学;2009年
2 郭峰;面向行业搜索引擎的WEB文本挖掘技术研究[D];兰州大学;2006年
3 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
4 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
5 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
6 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
7 郭叶;中文句子情感倾向分析[D];北京邮电大学;2010年
8 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
9 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
10 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 希安;微软试水信息检索[N];经济日报;2004年
3 彭芳;搜索也专业[N];中国计算机报;2004年
4 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
5 特约记者 张勇;魅力荣州焕新颜[N];自贡日报;2009年
6 华中科技大学社会信息科学研究中心 陈少华;陈少华:社区信息化应坚持整体性规划和多元化建设[N];通信信息报;2007年
7 关世春;宁夏干部交流分层次分类别推进[N];中国人事报;2005年
8 董振东;到用户中去[N];中国计算机报;2003年
9 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
10 记者 杨晓冬;六百六十九万人去年通过人才市场成功求职[N];中国人事报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978