收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于交叉验证的AUC度量的置信区间的研究

赵晓艳  
【摘要】:在统计机器学习研究中,算法性能度量贯穿于模型评估和模型选择的整个过程,因此算法性能度量的研究是该领域一个非常重要的研究方向。一般而言,常用的算法性能度量主要包括三大类,一是基于错误率的算法性能度量,二是基于混淆矩阵的算法性能度量,三是基于统计显著性检验的算法性能度量。其中,基于混淆矩阵的算法性能度量在实际应用中尤为广泛使用。基于混淆矩阵的常用算法性能度量包括准确率、召回率、F_1度量、敏感度、特异度等。然而,这些度量指标或是基于单个阈值给出,易受到类别不均衡和分类错分代价不同等的影响,或是可能会出现一个度量指标高,而另一个度量指标低的矛盾情形。为此,文献中提出了对分类变化不敏感的ROC曲线以及基于ROC曲线面积的AUC度量。鉴于被广泛应用于各个领域的AUC度量的优越性,本篇论文对AUC度量的置信区间进行了详细研究。特别地,注意到AUC度量的研究往往只是考虑它的点估计问题,这样会因为没有考虑其方差,导致结果的不稳定。同时,注意到大多数文献中皆基于Wilcoxon-Mann-Whitney检验方法来进行AUC度量的估计,然而Wilcoxon-Mann-Whitney检验是一种非参数统计方法,它没有假定数据分布,从而易导致结果不准确。因此,本篇论文通过考虑AUC度量的近似分布进行了AUC度量的置信区间的研究,具体的工作和创新点如下:1.提出了给定单个阈值和多个阈值两种情形下基于不同交叉验证(K折交叉验证、组块3×2交叉验证)的AUC度量。本文充分考虑AUC度量的原始定义并结合交叉验证技术,通过逐个增加阈值个数的方法,给出了给定单个阈值和多个阈值两种情形下基于不同交叉验证的AUC度量,实验分析论证了该度量的准确性和合理性。2.在给定单个阈值和多个阈值两种情形下,分别提出了基于交叉验证Beta分布的AUC度量的置信区间。传统AUC度量的置信区间常常是基于正态假定构造的,比如基于交叉验证t分布的AUC度量的置信区间,基于校正的交叉验证t分布的AUC度量的置信区间等。很显然这些置信区间是对称的,然而通过分析发现AUC度量的分布实际上是(0,1)区间上的偏态分布,此时简单地利用对称分布去近似AUC度量的分布是不合适的,且由它构造的AUC度量的对称置信区间往往表现出低的置信度或长的区间长度。另外,由对称分布构造的AUC度量的置信区间对AUC度量的估计很可能会超出(0,1)区间范围,从而容易导致错误的统计推断结果,本文的实验结果也论证了这一点。因此,本文在给定单个阈值和多个阈值两种情形下,分别提出了基于交叉验证Beta分布的AUC度量的置信区间。进一步,通过大量的模拟和真实数据实验验证了,相对于传统的基于交叉验证t分布以及校正的交叉验证t分布的AUC度量的对称置信区间,本文提出的方法具有更短的区间长度和更高的置信度。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 杜春双;焦建杰;包乐纹;王晨;宋晓坤;娄建石;;卡铂按不同AUC给药对晚期卵巢上皮癌患者药动学参数的影响[J];中国药房;2013年28期
2 储大同,罗扬,李峻岭,郝学志,张湘茹,李雅玲;卡铂按AUC给药对小细胞肺癌疗效和毒性的影响[J];中国肿瘤临床;2001年01期
3 葛庆仁,康仕芳;用非等温法研究AUC在氮气流中的热分解动力学[J];中国核科技报告;1986年00期
4 葛庆仁,康仕芳;用非等温法研究AUC在氮气流中的热分解动力学[J];中国核科技报告;1987年S1期
5 王钰;赵晓艳;杨杏丽;李济洪;;基于K折交叉验证Beta分布的AUC度量的置信区间[J];系统科学与数学;2020年09期
6 孙源;胡志军;;基于高频词和AUC优化的随机森林文本分类模型[J];数学的实践与认识;2020年01期
7 秦锋;罗慧;程泽凯;任诗流;;一种新的基于AUC的多类分类评估方法[J];计算机工程与应用;2008年05期
8 康仕芳,陈松,赵君;制备近似球形AUC结晶的初步研究[J];原子能科学技术;2001年04期
9 黄惠涛;郝洁;张瑞;;卡铂按AUC计算剂量的计算方法研究进展[J];现代药物与临床;2020年11期
10 王彦光;朱鸿斌;徐维超;;AUC统计特性概述[J];电子世界;2021年13期
11 黎志万;莫远坤;姜淮;;AUC沉淀废液除铀工艺研究[J];铀矿冶;2016年02期
12 李秋洁;茅耀斌;;基于数据重平衡的AUC优化Boosting算法[J];自动化学报;2013年09期
13 龚道坤;黄召;王英;;AUC煅烧生产UO_2煅烧炉加热功率的研究[J];铀矿冶;2015年04期
14 李苏,张力,廖海,姜文奇;HPLC法测定血浆中卡铂的AUC[J];中国临床药理学杂志;2002年04期
15 潘英,高棣华,卢怀昌;AUC 及 UO_2的微观结构研究[J];核动力工程;1992年01期
16 陈潮;郑青山;李禄金;李雪;许羚;;药代动力学非房室模型AUC计算方法比较[J];中国临床药理学与治疗学;2020年12期
17 刘庭辉;刘舜;徐维超;;基于功率谱角度的AUC变点检测算法[J];电子世界;2017年07期
18 宋和梅;孙增先;;Jackknife分析法在环孢素AUC_(0-12)预测模型中的应用[J];中国新药与临床杂志;2013年12期
中国重要会议论文全文数据库 前20条
1 林力;刘建勋;张颖;段昌令;林成仁;付建华;;从药代参数AUC值探讨中药复方双参通冠的配伍[A];第九届全国药物和化学异物代谢学术会议论文集[C];2009年
2 林力;刘建勋;张颖;段昌令;林成仁;付建华;;从AUC值角度探讨中药复方双参通冠配伍的药代动力学机制[A];中药药效提高与中药饮片质量控制交流研讨会论文集[C];2009年
3 张震;;安全度量:量化分析网络安全工作效能[A];中国通信学会第六届学术年会论文集(上)[C];2009年
4 柯大观;;一类特殊的复杂性度量[A];浙江生物医学工程学会第九届年会论文汇编[C];2011年
5 吕欣;;信息安全度量理论和方法研究[A];全国计算机安全学术交流会论文集(第二十二卷)[C];2007年
6 荆丽;刘巍;;曲线下面积(AUC)在肿瘤化疗中的作用[A];第四届中国肿瘤学术大会暨第五届海峡两岸肿瘤学术会议论文集[C];2006年
7 罗传文;王刚;;一个新的混沌度量指数及其应用[A];庆祝中国力学学会成立50周年暨中国力学学会学术大会’2007论文摘要集(下)[C];2007年
8 张尧庭;;如何选择度量金融风险的指标[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(上册)[C];2002年
9 徐俊武;;国外关于共享式增长及其度量方法的研究综述[A];第十一届中国制度经济学年会论文汇编(上)[C];2011年
10 杜兴强;;政治联系的度量及对公司业绩的影响综述[A];当代会计评论(第3卷第2期)[C];2012年
11 李留洋;陈剑荣;钱俊;赵明;李民;郭颖;陈桦;石向华;胡建敏;;肾移植受者霉酚酸血浆药物浓度监测及C0与AUC的相关性研究[A];2012中国器官移植大会论文汇编[C];2012年
12 王汉生;;效用度量的新方法及其度量结果[A];陕西省外国经济学说研究会2010年年会“西部大开发10年”专题研讨会论文集[C];2010年
13 万广华;;不平等的度量与分解[A];经济学(季刊)第8卷第1期[C];2008年
14 修保新;吴孟达;;模糊信息粒的适应性度量及其在边缘检测中的应用[A];中国系统工程学会模糊数学与模糊系统委员会第十一届年会论文选集[C];2002年
15 谷千军;;信息流的度量分析[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
16 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
17 张东生;徐曼;刘妍;;管理度的度量及应用[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
18 郑子牧;赵海;雷芸;于岛;王巍;;间隙不对称置信区间快速估算方法[A];2021中国汽车工程学会年会论文集(5)[C];2021年
19 熊振宇;吴文虎;徐明星;;置信度计算方法的比较和结合[A];第六届全国人机语音通讯学术会议论文集[C];2001年
20 陈敬;陈钇帆;金石;吴昊;杨顶辉;;基于二次Wasserstein度量的地震定位方法[A];2017中国地球科学联合学术年会论文集(二十五)——专题50:地震波传播与成像[C];2017年
中国博士学位论文全文数据库 前20条
1 侯红;基于度量的软件过程管理方法与分析技术的研究[D];西北大学;2006年
2 张跃忠;关于图的度量维数及其相对设计的研究[D];河北师范大学;2020年
3 邹洋杨;(α,β)-度量的广义独角兽问题和重要共形性质[D];西南大学;2014年
4 张延丽;非平稳度量方法及其在生物医学图像与信号处理中的应用[D];哈尔滨工业大学;2013年
5 汤丹;中国核心通货膨胀的度量研究[D];华侨大学;2012年
6 潘秋菱;基于过程和度量的软件质量管理方法研究[D];合肥工业大学;2002年
7 赵俐俐;关于某些特殊的射影平坦Finsler度量[D];浙江大学;2006年
8 丁剑洁;软件生产线度量技术应用研究[D];西北大学;2012年
9 王金;基于度量学习的行人重识别方法研究[D];华中科技大学;2017年
10 李本伶;关于某些重要的Finsler度量[D];浙江大学;2007年
11 闫亮;测量误差模型中的信仰广义推断[D];北京理工大学;2017年
12 段重阳;配对设计率差及率比置信区间构建新方法[D];南方医科大学;2017年
13 陈硕;稳健回归与度量学习方法研究[D];南京理工大学;2020年
14 刘小莉;商业银行信用风险与利率风险的联合度量研究[D];复旦大学;2006年
15 王微;融合全局和局部信息的度量学习方法研究[D];中国科学技术大学;2014年
16 计春雷;全功能点方法和功能规模度量统一模型的研究与应用[D];华东理工大学;2011年
17 田萍;金融风险存在与度量最新进展研究[D];吉林大学;2005年
18 李文斌;基于度量的小样本图像分类[D];南京大学;2019年
19 祝晓春;增强型软件项目中测试工作量度量研究[D];浙江大学;2010年
20 王瑜;知识工程中知识度量、推理与融合的若干关键技术研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前20条
1 赵晓艳;基于交叉验证的AUC度量的置信区间的研究[D];山西大学;2021年
2 陈迪;卵巢癌患者多西紫杉醇AUC与毒副反应的相关因素的分析[D];郑州大学;2019年
3 李燕;万古霉素峰、谷浓度与AUC评价临床疗效及急性肾损伤的作用研究[D];中国人民解放军海军军医大学;2021年
4 马毓敏;包含异常值检测的最大化AUC的正例未标注分类及其增量算法[D];江南大学;2021年
5 彭燕;仿真置信度度量方法研究[D];电子科技大学;2011年
6 陶然;半参数时依AUC方法在弥漫大B细胞淋巴瘤患者预后评价中的应用[D];山西医科大学;2017年
7 刘佳宁;晚期结直肠癌患者5-FU药代动力学参数AUC与不良反应及近期疗效的相关性分析[D];郑州大学;2016年
8 刘洋玺;基于在线学习的直接优化AUC算法研究[D];安徽大学;2020年
9 吴学龙;基于AUC的变点检测[D];广东工业大学;2015年
10 杨智强;四角比度量与拟共形映射[D];汕头大学;2021年
11 杨淋淋;基于度量学习的行人再识别研究[D];电子科技大学;2017年
12 李威;基于用户上下文的服务信誉度度量方法研究与设计[D];北京邮电大学;2015年
13 唐子婷;关于局部对偶平坦广义(α,β)-度量[D];浙江大学;2014年
14 李强;入侵检测系统运行安全度量研究[D];解放军信息工程大学;2010年
15 刘瑞杰;模型驱动业务流程度量及应用[D];西北大学;2011年
16 油桂芳;流程度量建模中度量资产库的研究与实现[D];西北大学;2010年
17 王鹏云;《度量之书》研究[D];西北大学;2009年
18 郑重;评价软件可靠性的度量的选择及应用[D];北京交通大学;2008年
19 段春生;关于一类特殊的(α,β)-度量的性质[D];西南师范大学;2003年
20 宋新星;软件柔点操控难度度量过程的研究[D];燕山大学;2013年
中国重要报纸全文数据库 前14条
1 ;幸福的度量[N];第一财经日报;2012年
2 记者 郑亚丽 通讯员 朱智翔 贾佳;“绿色标尺”度量发展与保护[N];浙江日报;2021年
3 记者 王宙洁;“悬峙”与度量[N];上海证券报;2016年
4 记者 范玉蕾 通讯员 吴志坚;可度量 可考核 可追究[N];石家庄日报;2010年
5 记者 陈佳莹;浙商的幸福感可度量[N];浙江日报;2016年
6 王晋朝 四川日报全媒体记者 王国平 雷倢;公园城市工作有了“度量标尺”[N];四川日报;2020年
7 本报记者 陈青青 赵觉珵;百度量产的无人巴士怎么样[N];环球时报;2018年
8 本报记者 王海峰;法者天下之度量[N];哈密报(汉);2008年
9 本报记者 王瑜;以广袤田野为考卷 以农民意愿为度量[N];农民日报;2013年
10 本报记者 申兴 段寅燕;招行停卖平安保险产品 银保蛋糕重新度量[N];经济观察报;2009年
11 谢四平 特约记者 熊湘平;思想上有根“度量绳”[N];人民武警报;2012年
12 本报记者 霍娜;中国银行软件中心研发成本度量有道[N];中国计算机报;2013年
13 杜沂蒙 中国青年报·中青在线记者 章正 实习生 陆梦颖 马赛;青年方案,度量“青年发展”的样子[N];中国青年报;2017年
14 本报驻哈萨克斯坦记者 黄文帝;战争带来的灾难无法度量[N];人民日报;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978