收藏本站
《北京大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

图和词典模型的统计方法及应用

邓柯  
【摘要】: 通过对观测或实验数据的积累和分析来了解对研究对象的行为,是现代科学研究的重要方法。随着科学的发展、技术的进步,人们研究客观世界的范围越来越广。在许多新兴的研究领域,人们的经验或先验知识往往非常有限,常常需要运用数据挖掘的方法,通过对大量数据的分析来发现系统的内在规律和潜在模式,并在此基础上对系统行为进行推断、预测或控制。本文对这一领域进行了研究,在前人工作的基础上进一步发展了与“图模型”有关的理论和方法,并对一类新型数据挖掘问题提出了“广义词典模型”的新方法。 作为进行多变量数据分析的重要手段,“图模型”近年来得到了人们的广泛关注,并被应用于许多重要领域。关于图模型的研究主要包括两大方面:图模型的结构学习和基于图模型的统计推断。虽然人们已经在这些方面进行了许多研究,但仍有许多重要问题有待解决。例如,在小样本下的图模型结构学习和大规模图模型上的统计推断就是两类一直未能很好解决的重要问题。在本文中,我们对这两个问题分别进行了研究。对前一类问题,我们利用相互信息量(mutual information)的性质,提出了通过寻找各节点的邻居来构建整个网络的启发式方法,部分地解决了这一难题。对于后一类问题,我们从计算机通讯研究中的一个实际问题——delay tomography出发,抽象出了一个非常重要的基于图模型的统计推断问题——“树结构上的大尺度反卷积问题”,并创造性地提出了可以完全解决这一问题的重要方法——“序贯填补EM算法”。该方法的提出,丰富了缺失数据分析的理论和方法,对大规模图模型分解计算的研究有着积极的推动作用。 图模型虽然可以简洁清晰地描述变量之问的复杂关系,但是一旦这些关系具有明显的层次性,在现有图模型的框架下却难以得到很好的处理。为了弥补这种不足,较好地解决具有复杂层次性关系的数据挖掘问题,我们提出了“广义词典模型”的方法。在该方法中,我们将系统中的各种潜在模块编制成“词典”,并用一个概率模型来描述这个词典的行为;在此基础上,我们分别使用EM算法和模型选择等统计技术来估计模型参数、更新模型结构,从而得到了一种可以有效识别复杂层次性关系的数据挖掘算法。该算法准确度高,反应灵敏,具有一系列很好的性质。在理论上,该方法和双向聚类(bi-clusters)、独立成分分析(independent component analysis)和图模型等统计方法有着密切的内在联系,很有可能推动这些已有方法的进一步发展;在应用上,新方法可以有效解决中医学、社会学、生物学、文本挖掘、网络搜索等众多领域中一系列非常重要的问题,具有相当的应用价值。
【学位授予单位】:北京大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:O157.5

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 蓝昊慧;;中医方剂与图集的转换方法[J];计算机时代;2012年11期
2 谭从娥;邓柯;倪青;王米渠;徐全壹;;运用广义词典模型分析糖尿病证候的分布特征[J];时珍国医国药;2012年03期
中国硕士学位论文全文数据库 前1条
1 隋澈;高维伊辛模型结构学习及其应用研究[D];东北师范大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 范生万;王浩;;贝叶斯网络在高职英语应用能力考试中的应用研究[J];安徽工程科技学院学报(自然科学版);2007年04期
2 范生万;;贝叶斯网络分类模型在教育中的应用研究[J];安徽建筑工业学院学报(自然科学版);2008年01期
3 张星星;陆翔;;新安医家创方选择标准的制定[J];安徽中医学院学报;2012年02期
4 杨有龙,吴艳;基于进化算法的贝叶斯网络度量[J];兵工学报;2004年05期
5 李开灿,耿直;条件独立性的三种形式及其相互关系[J];北京大学学报(自然科学版);2002年05期
6 许静,郑忠国;有向非循环图的可反向边集合的结构与判定[J];北京大学学报(自然科学版);2003年01期
7 郑建军,刘玉树,陈立潮;Self-Organizing Genetic Algorithm Based Method for Constructing Bayesian Networks from Databases[J];Journal of Beijing Institute of Technology(English Edition);2003年01期
8 何德琳;程勇;赵瑞莲;;基于MMHC算法的贝叶斯网络结构学习算法研究[J];北京工商大学学报(自然科学版);2008年03期
9 汤小虎;邓中甲;刘兴隆;吴师国;;配伍环境对桂枝散寒解表功效的影响[J];中华中医药杂志;2009年02期
10 任永欣,彭成,姚干;头风饮对实验性偏头痛动物模型c-fos、c-jun基因表达的影响[J];成都中医药大学学报;2000年03期
中国重要会议论文全文数据库 前3条
1 刘振;代进进;王毅;;贝叶斯网络推理与算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
2 沈海峰;梁曼君;;基于贝叶斯网络的数据挖掘技术[A];全国第十四届计算机科学及其在仪器仪表中的应用学术交流会论文集[C];2001年
3 李刚;童頫;;基于复合计算智能方法的图模型参数学习[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
中国博士学位论文全文数据库 前10条
1 于定荣;以慈航丹方药探讨含挥发性成分复方用“半仿生提取法”研究的模式[D];山东中医药大学;2010年
2 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
3 张建华;适用于连续域多变量耦合问题的分布估计算法研究[D];兰州理工大学;2010年
4 陶长戈;附子干姜组分配伍的胃肠吸收动力学研究[D];成都中医药大学;2011年
5 陈西平;影响黄连在复方中功效发挥方向的多因素研究[D];成都中医药大学;2011年
6 周滢;控制山药在复方中功效发挥方向的多因素研究[D];成都中医药大学;2011年
7 李文华;乌头类常用中药配伍规律的文献研究[D];山东中医药大学;2011年
8 薛远亮;闭合性骨折中药外治文献证治规律研究[D];山东中医药大学;2011年
9 陈明;桂枝汤及其加减方方证数据挖掘研究[D];南京中医药大学;2010年
10 缑葵香;基于贝叶斯理论的基因调控网络建模研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 郑伟;MDL算法用于时间梯度设计试验猪骨骼肌基因调控网络分析上的研究[D];华中农业大学;2010年
2 罗嘉;一类基因调控网络的定性分析[D];武汉科技大学;2010年
3 高晓利;基于贪婪搜索的贝叶斯网络结构学习算法[D];西安电子科技大学;2011年
4 刘鹏飞;电信客户忠诚度预测模型研究和系统实现[D];吉林大学;2011年
5 高倩;基于贝叶斯网络预测的故障诊断的应用与研究[D];华北电力大学(北京);2011年
6 苌健;基于灵敏性分析的贝叶斯网络扰动学习方法研究[D];合肥工业大学;2011年
7 黄灿均;慢性肺源性心脏病的中医药治疗相关古代文献研究[D];广州中医药大学;2011年
8 颜丽;食品安全风险过程控制的贝叶斯统计与知识发现[D];华南理工大学;2011年
9 徐畅;益气温阳方治疗慢性心力衰竭心阳虚衰型的临床疗效观察[D];辽宁中医药大学;2011年
10 魏木金;基于信息论的定性概率网无冲突推理[D];云南大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 杨晓恝;蒋维;郝文宁;;基于本体和句法分析的领域分词的实现[J];计算机工程;2008年23期
2 王连心;孟庆刚;;开放的复杂巨系统及其方法在中医药领域中的应用[J];北京中医药大学学报;2008年02期
3 潘明政;李玲;李鲲;;糖尿病患者中医证候特点及其相关因素探讨[J];北京中医药大学学报(中医临床版);2006年04期
4 李国春;吴勉华;周学平;叶放;金妙文;邓柯;;基于机素和机元中医病机创新理论的辨证规律研究[J];南京中医药大学学报;2010年02期
5 赵慧;郑忠国;;图模型及其在统计建模中的应用[J];数理统计与管理;2007年03期
6 谭从娥;倪青;王米渠;张辉;;基于多元统计分析的糖尿病肾虚证的分布特征研究[J];时珍国医国药;2010年09期
7 刘青;;糖尿病中医证型客观化研究近况与展望[J];浙江中医杂志;2006年07期
8 张志东;;伊辛模型的研究进展简介[J];自然杂志;2008年02期
9 刘德麟;邓柯;耿直;刘军;梁菊生;;中药方剂的核心突破[J];自然杂志;2008年04期
10 吴红铃;朱梅林;;扶正通络汤治疗糖尿病周围神经病变临床观察[J];中国中西医结合杂志;2007年05期
中国博士学位论文全文数据库 前2条
1 王晓飞;图模型的结构、分解和可压缩性[D];东北师范大学;2010年
2 刘秉辉;图模型中的分解性和可压缩性研究[D];东北师范大学;2010年
中国硕士学位论文全文数据库 前1条
1 方鸷飞;中文文本体裁的自动分类机制[D];大连理工大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 孙大飞,陈志国,刘文举;基于EM算法的极大似然参数估计探讨[J];河南大学学报(自然科学版);2002年04期
2 杨红磊;彭军还;李淑慧;师芸;;基于对数-主成分变换的EM算法用于遥感影像分类[J];测绘学报;2010年04期
3 吕王勇;吴耀国;马洪;;基于EM算法的对数正态分布参数估计[J];统计与决策;2007年12期
4 王娜;李新海;;关于对数正态分布参数极大似然估计的讨论[J];北华大学学报(自然科学版);2007年05期
5 张香云;张秀伟;;基于EM算法隐Markov模型参数估计[J];大学数学;2008年03期
6 田玉柱;何建伟;陈平;;带截尾数据的混合广义指数分布的参数估计[J];重庆工学院学报(自然科学版);2008年10期
7 王泽文;奇异值检验中的混合模型及EM算法[J];武汉大学学报(信息科学版);1990年01期
8 孙晓武,陈启光;不完全资料下logistic回归模型参数估计的EM算法[J];数学的实践与认识;1994年02期
9 郑明,杨艺,郑宇;基于分组数据的Weibull分布的参数估计[J];高校应用数学学报A辑(中文版);2003年03期
10 王源,陈亚军;基于高斯混合模型的EM学习算法[J];山西师范大学学报(自然科学版);2005年01期
中国重要会议论文全文数据库 前10条
1 白应甫;孙茵;;地震相模式识别[A];1992年中国地球物理学会第八届学术年会论文集[C];1992年
2 谢波;冯地清;;Hopfield神经网络在核爆炸方式识别中的应用[A];第7届全国核电子学与核探测技术学术年会论文集(三)[C];1994年
3 黄雪梅;唐治德;;BP网络研究及其在肺癌诊断系统中的应用[A];电工理论与新技术2004年学术研讨会论文集[C];2004年
4 张会林;简献忠;;光电混合目标识别系统中振幅补偿匹配滤波器设计[A];2005年中国光学学会全息与光学信息处理专业委员会年会暨建会20周年纪念会[C];2005年
5 李永明;史忠科;;用模糊子集度确定模糊似然函数的二种方法[A];1998年中国智能自动化学术会议论文集(上册)[C];1998年
6 郭培源;李刚;曲世海;;基于神经网络的肉类新鲜度智能检测研究[A];2005中国控制与决策学术年会论文集(下)[C];2005年
7 颜志国;王志中;任晓梅;;独立分量分析和小波熵在动作模式分类中的应用[A];2005年上海市生物医学工程学会学术年会论文集[C];2005年
8 陈玲玲;杨鹏;祖丽楠;张腾宇;李立峰;;基于Hilbert-Huang变换的表面肌电信号分析与模式识别[A];2009中国控制与决策会议论文集(3)[C];2009年
9 曾黄麟;袁曾任;;模式识别特征评选与简化的一种新方法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
10 赵鑫;王福绵;;起重机械安全状况综合评价方法研究与新技术工程应用[A];中国力学学会学术大会'2009论文摘要集[C];2009年
中国重要报纸全文数据库 前10条
1 吴加录;胡启恒:科技界需要润物细无声[N];中国计算机报;2006年
2 陈瑜唐婷;让计算机会看、会听、会说、会思考[N];科技日报;2007年
3 记者 左常睿;应重视互联网模式识别的研究[N];科技日报;2005年
4 本报记者 贾婧;宗成庆:做科研也要为师立范[N];科技日报;2007年
5 河北 宁海征;常见多频彩显的模式识别与控制电路[N];电子报;2003年
6 记者 刘垠;首届中美视觉夏令营开营[N];大众科技报;2009年
7 ;通用数字视觉平台JVISION-500[N];科技日报;2003年
8 比尔·盖茨   ;新的工作世界[N];中国计算机报;2005年
9 大海 张弦;Autonomy:传统搜索终结者?[N];计算机世界;2005年
10 本报记者:段世文 ;林奇:演绎商用搜索引擎传奇[N];经济参考报;2005年
中国博士学位论文全文数据库 前10条
1 邓柯;图和词典模型的统计方法及应用[D];北京大学;2008年
2 刘云鹏;电力变压器局部放电的电气定位及诊断[D];华北电力大学(河北);2005年
3 游峰;智能车辆自动换道与自动超车控制方法的研究[D];吉林大学;2005年
4 鲁绯;腐乳发酵机理、品质改进和模式识别研究[D];中国农业大学;2005年
5 程昌秀;3S技术在县级土地利用变更调查中的应用研究[D];中国农业大学;2001年
6 吴德文;遥感与地面观测数据的找矿信息提取和处理技术及应用[D];中国地质大学(北京);2006年
7 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
8 朱臻宇;模型传递对仪器间采样差异的评估和消除[D];第二军医大学;2005年
9 薛跃;基于RMTS的上市公司虚假财务报告识别及其扩展应用研究[D];南京理工大学;2005年
10 魏连鑫;多小波理论及其在虹膜识别技术中的应用[D];吉林大学;2006年
中国硕士学位论文全文数据库 前10条
1 冉延平;基于混合模型的聚类算法及其稳健性研究[D];中国人民解放军信息工程大学;2005年
2 丁春忠;学生成绩评价中的因子分析[D];苏州大学;2004年
3 林鸿;EM算法的改进及其在基因序列分析中的应用[D];福州大学;2006年
4 孙兰;有限混合模型及其应用的研究进展[D];东北师范大学;2006年
5 韩雄振;基于统计学的预测结构域间相互作用方法的研究[D];吉林大学;2006年
6 赵红;对含有缺失基因型数据的家系进行单倍型推断的EM方法[D];东北师范大学;2006年
7 茹正亮;基于状态空间模型的金融时间序列预测方法[D];河海大学;2007年
8 涂庆;中小样本的拟合优度检验[D];华中师范大学;2007年
9 张智勇;基于GMDH的缺失数据插补方法研究[D];四川大学;2007年
10 刘妍;混合连接函数模型及其在风险度量中的应用[D];中国人民大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026