收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

分类数据中高维列联表可压缩性研究

孙红艳  
【摘要】:分类数据的统计分析方法是分析名义数据和有序数据的重要工具,在分类数据分析中,用列联表对数据进行分析是一种常用、直观的方法,例如,医学研究者按年龄和性别对病例进行分类建立列联表:教育工作研究人员按年龄、性别和家庭背景对学生进行分类建立列联表;经济研究者按照行业、地区、初始投资对企业成败进行分类建立列联表:市场研究者按年龄、性别和对商品的消费倾向进行分类建立列联表等。 传统的分类数据分析方法主要是对列联表进行独立性检验,随着对数线性模型的提出以及广泛应用,使得分类数据分析方法经常用于分析高维列联表,但是国内外文献中缺少对高维列联表的详细分析方法。由于高维列联表数据资料的复杂性,在分析高维列联表的时候为了更好地分析数据中变量的相关性,需要通过一些方式对列联表进行降维,也即对列联表中变量进行压缩,但不合理的压缩会导致辛普森悖论、虚假相关、虚假独立三种现象的产生,这就增大了分析列联表的难度,所以研究列联表可压缩性的方法非常重要,国内外学者对三维列联表已经有些研究,但仍缺少对高维列联表的可压缩性方面的研究。 本文通过基于交互作用与互信息、信息熵三种角度对列联表的可压缩性进行分析研究,深入探讨高维列联表可压缩的条件和实现途径,研究发现: 1、对于三维列联表只要满足变量之间存在条件独立列联表就可压缩,但对于四维列联表,尽管变量之间存在条件独立并不能保证列联表可压缩; 2、基于交互作用的对数线性模型与基于互信息的线性信息模型之间存在等价条件,两种模型分析的结果可以互相利用; 3、给出了线性信息模型设定条件变量与不设定条件变量的模型选择方法,发现所拟合的线性信息模型比对数线性模型更加简洁,在交互作用下的模型显示不可压缩,但在互信息下的模型显示可以压缩; 4、给出了基于互信息和信息熵列联表变量可压缩的方法,发现基于互信息的可压缩性方法是在考虑了变量相关性的角度对列联表进行的压缩,在压缩过程中允许损失部分不显著的相关信息;基于信息熵的可压缩性方法是在考虑变量含有不确定信息的多少而对列联表进行的压缩,在压缩的过程中不允许损失变量的任何信息; 5、给出了两种分别基于互信息和信息熵对列联表变量重要性的排序方法,发现从列联表可压缩性的角度,基于互信息的变量重要性排序方法更加准确。而从变量含有的不确定信息多少的角度,基于信息熵的变量重要性排序方法更加准确。 研究的成果对分类数据分析方法的研究深入发展做出新的贡献,对高维列联表的可压缩性方法提供了一些重要可实现的途径。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王国梁,齐雁云,于世祥;分类数据的x~2检验及Logistic回归[J];统计与信息论坛;1996年S1期
2 隗金水,潘慧文;对r×C列联表的若干问题探讨[J];广州体育学院学报;2000年03期
3 丛玉华;殷烁;王丹;;系别对外语成绩影响的统计分析[J];通化师范学院学报;2007年12期
4 陈上珠,张奕,徐敏;多元对应分析在抽样调查分析中的应用[J];数理统计与管理;2001年04期
5 范霄文;朱建平;;基于粗糙集流向图的多维定性数据分析方法[J];科技导报;2007年16期
6 唐先勇;3—维列联表中对数线性模型的选择策略[J];零陵学院学报;2003年S1期
7 王勇;;聚焦新课程高考中的独立性检验问题[J];中学数学杂志;2011年03期
8 李秀英;戴晔;;师范与非师范教师教学效果比较分析[J];统计教育;2007年10期
9 赵铁山;;独立性检验问题例析[J];中学生数理化(高二版);2011年06期
10 高核;李金凤;;国内市场手机消费偏好的研究[J];消费导刊;2008年13期
11 邓正林,姚圣虎,孙建华;问卷调查中定性数分析方法及其应用[J];江苏统计;2002年12期
12 孙凤;;职业代际流动的对数线性模型[J];统计研究;2006年07期
13 徐聪;;独立性检验解题初探[J];高中生学习(高二版);2011年02期
14 柯惠新;关于调查问卷中多项选择问题的实用统计分析法探讨[J];数理统计与管理;1992年05期
15 黄宁;预科部新疆班学生参加HSK考试的定量分析[J];中央民族大学学报(自然科学版);1998年02期
16 魏登云;杨亚莉;;体育科研中定性数据的统计分析问题辨析[J];体育科学;2010年06期
17 赵黎明,黄卫华;资本结构行业特征的列联表检验[J];北京科技大学学报(社会科学版);2005年02期
18 彤季;统计学入门(Ⅺ)[J];数理统计与管理;1984年05期
19 王克亮;卢伟峰;;综合题新编选登[J];数学通讯;2008年15期
20 胡彬;;剖析独立性检验的基本思想[J];新高考(高二版);2009年03期
中国重要会议论文全文数据库 前10条
1 冷庚;谢晴;王彬;杨嘉伟;但德忠;;环境例行定性分析或快速筛选分析结果的不确定度[A];四川省第十一次环境监测学术交流会论文集[C];2010年
2 王位泰;;干旱与冬小麦和玉米产量关系的分析[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(下册)[C];2001年
3 陈慎仁;林学群;;系统性红斑狼疮诊断标准的统计分析[A];中华医学会第七次全国内科学术会议论文汇编[C];1995年
4 倪海真;;VCAM-1 NF-KB在下肢慢性静脉功能不全中的表达及相关性分析[A];2008年浙江省血管外科年会论文汇编[C];2008年
5 毕伯钧;魏军;宋仁锋;;辽东山区气象灾害变化发展趋势及其前兆强信号研究[A];中国气象学会2006年年会“灾害性天气系统的活动及其预报技术”分会场论文集[C];2006年
6 刘向阳;周国庆;郭亮;;环境事件数据建模分析[A];第九届全国岩石力学与工程学术大会论文集[C];2006年
7 邹君;;中国虚拟水战略区域划分初步研究[A];中国地理学会百年庆典学术论文摘要集[C];2009年
8 毕伯钧;魏军;李震;;辽东山区气象灾害变化发展趋势及其前兆强信号研究[A];全国农业气象与生态环境学术年会论文集[C];2006年
9 刘钢;刘顺忠;;我国软件产业技术创新特征研究[A];2008中国服务创新研讨会论文集[C];2008年
10 韩雷;王洪庆;;基于雷达数据的风暴体识别、追踪及预警的研究进展[A];中国气象学会2006年年会“首届研究生年会”分会场论文集[C];2006年
中国博士学位论文全文数据库 前9条
1 韩宏;条件确切推断完全排列算法研究及医学应用[D];山西医科大学;2005年
2 綦甲福;人际距离的跨文化研究[D];北京外国语大学;2007年
3 袁敏;关联分析中的统计方法研究[D];中国科学技术大学;2009年
4 李德辉;证券投资基金业绩持续性研究[D];中国科学技术大学;2006年
5 邱世芳;流行病学研究中有关风险差的若干问题研究[D];云南大学;2010年
6 李明;长白山龙门峰高陡边坡岩体质量评价[D];吉林大学;2012年
7 唐先勇;基于投资者过度自信行为分析的资产定价问题研究[D];武汉大学;2010年
8 刘永刚;深海固体矿产资源相关数据处理分析及定量评价方法[D];中国海洋大学;2011年
9 金洲;基于约束学习的观测数据因果关系发现研究[D];中国科学技术大学;2014年
中国硕士学位论文全文数据库 前10条
1 孙红艳;分类数据中高维列联表可压缩性研究[D];厦门大学;2014年
2 左珊珊;基于Winbugs软件在含结构零的2×2列联表中风险差和风险比的贝叶斯置信区间的计算及样品量的确定[D];云南财经大学;2011年
3 王鹏;定性资料与列联表的统计分析[D];陕西师范大学;2001年
4 张则方;我国出生人口性别比的分析与思考[D];南京理工大学;2008年
5 金吕鹏;我国乳制品供应链体系中原奶安全问题的经济分析[D];扬州大学;2009年
6 王继琳;我国火电建设项目安全预评价结果的统计分析[D];首都经济贸易大学;2007年
7 崔朝杰;含有缺失数据的两值吸毒数据分析[D];东北师范大学;2009年
8 王耀华;流行病学中剂量反应关系的建模及其趋势类型的统计推断[D];东北师范大学;2011年
9 万岩;S-P表在教学评价中的应用及其计算机实现[D];华中师范大学;2008年
10 张海燕;针对当前人们购房心理变化问题的调查问卷设计与分析[D];黑龙江大学;2012年
中国重要报纸全文数据库 前3条
1 军事医学科学院生物医学统计学咨询中心 胡良平;处理科研资料之前应考察资料是否值得分析[N];中国医药报;2011年
2 军事医学科学院生物医学统计学咨询中心 胡良平;自相矛盾的统计分析结果是如何产生的[N];中国医药报;2011年
3 军事医学科学院生物医学统计学咨询中心 胡良平;临床科研中常犯的统计学错误[N];中国医药报;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978