收藏本站
《天津大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于信息几何的高阶纯相关模型及其应用

何亮  
【摘要】:在统计模型研究中经常需要分析多个随机变量之间的关联。本文以信息几何的理论为基础定义了多个随机变量的高阶“纯”相关性,提出了一种新颖的高阶纯相关变量的提取方法,并在具体的文本处理任务中进行了验证。 信息几何是指采用微分几何方法研究概率统计模型,它把一族概率分布看作高维空间里的一个黎曼流形,通过微分几何方法分析流形的几何结构,以期得到关于概率分布的深入结论。本文基于信息几何中坐标正交性的理论,得出一种可以恰当表示多个变量间的纯关联性的“混合坐标系”,以此为依据提出了检验高阶纯相关变量的方法,并对算法里参数的设置提供了理论上的依据。另外,从理论上分析出了几种不同的高阶关联之间的蕴含关系,为进一步的研究提供了理论基础。 在具体的文本处理任务中,每个单词在一篇文本的出现与否可以看作一个布尔随机变量。朴素的模型一般假设各个变量之间是完全独立的或者仅有某种简单的低阶关联,但这种假设在很多情况下并不合理。本文基于信息几何理论,提出了一种有效的挖掘高阶纯相关词组的启发式算法,并利用滑动窗口、迭代增量等手段,有效地提高了算法的时间效率。本文通过在Reuters-21578和20 newsgroups数据集上进行文本分类的结果,以及用高阶纯相关改进N-gram模型的具体实验,证明了高阶纯相关算法的有效性和实用性。
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
5 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
6 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
7 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期
8 李卓远,吴为民,王旸,洪先龙;一种新的光学临近校正方法(英文)[J];半导体学报;2003年12期
9 王一丁;杨虹;;基于多目标线性规划的人脸识别方法[J];北方工业大学学报;2009年01期
10 梁万路;;代价敏感支持向量机的投影次梯度求解方法[J];兵工自动化;2011年04期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 颜七笙;;基于PCA-SVM的动态联盟候选伙伴绩效评价方法[A];第十三届中国管理科学学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
3 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
4 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
7 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
8 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
9 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
10 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
3 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
4 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
5 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
6 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
7 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年
8 韩艳;基于支持向量机的发酵过程建模研究[D];大连理工大学;2010年
9 马稳;基于支持向量机的模拟电路故障诊断研究[D];大连理工大学;2010年
10 梁怀志;基于嵌入式的车型分类系统的设计与实现[D];大连理工大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 刘蕴辉,罗四维,李爱军,俞翰斌;基于凸规划观点的神经网络学习[J];北京交通大学学报;2004年05期
2 戴宪华;基于信息几何的统计回馈神经网络非线性自适应预测控制[J];自动化学报;1999年05期
3 孙延风,梁艳春;支持向量机的数据依赖型核函数改进算法[J];吉林大学学报(理学版);2003年03期
4 王德吉;李广才;栗卫军;;基于信息几何的卷烟焦油SVM(支持相量机)预测[J];中国烟草学报;2009年04期
5 周瑛;刘政怡;;覆盖算法在文本分类中的应用[J];情报理论与实践;2006年01期
6 罗四维,温津伟;神经场整体性和增殖性研究与分析[J];计算机研究与发展;2003年05期
7 安文森;孙彦广;;一种新的支持向量回归核函数构建方法[J];信息与控制;2006年03期
8 朱建鸿;邵信光;杨慧中;姜永森;;一种基于信息几何的支持向量回归模型选择新标准[J];江南大学学报(自然科学版);2006年04期
9 刘蕴辉;罗四维;李爱军;黄华;;神经网络的层次化学习机制探讨[J];模式识别与人工智能;2004年03期
10 王德吉;关柯;熊范纶;;基于信息几何的混沌支持向量机预测[J];小型微型计算机系统;2008年01期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 小非;汉王“文本仪”瞄准行业[N];计算机世界;2007年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 实习生 陈欢 记者 徐园 ;低价电脑,“下乡”之路并不浪漫[N];浙江日报;2004年
4 杨昆;固网业务创新呼唤终端全面革新[N];人民邮电;2006年
5 随风潜入夜;文件批量整理的利器[N];中国电脑教育报;2003年
6 熊建;字,你今天写了吗?[N];人民日报海外版;2009年
7 重庆 CampReal;利器还是垃圾[N];电脑报;2005年
8 山东 杭箴良;再说Excel中数据的输入[N];中国电脑教育报;2005年
9 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
10 实习记者 蓝有林;小社领跑 大社跟进[N];中国图书商报;2002年
中国博士学位论文全文数据库 前10条
1 庄德文;高维仿生信息几何理论与应用研究[D];浙江工业大学;2010年
2 肖潇;高维仿生信息几何学研究及其在模式识别中的应用[D];浙江工业大学;2012年
3 黄友平;贝叶斯网络研究[D];中国科学院研究生院(计算技术研究所);2005年
4 安文森;支持向量回归机理论及其工业应用研究[D];中国科学技术大学;2006年
5 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
6 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
7 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
8 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
9 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
10 杨天池;单站定位的散射信息几何构造法[D];解放军信息工程大学;2009年
中国硕士学位论文全文数据库 前10条
1 何亮;基于信息几何的高阶纯相关模型及其应用[D];天津大学;2010年
2 杨真真;基于信息几何的FSVM理论及算法研究[D];南京邮电大学;2011年
3 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
4 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
5 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
6 闫晨;KNN文本分类研究[D];燕山大学;2010年
7 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
8 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
9 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
10 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026