收藏本站
《华中科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

主动学习算法及其在心血管疾病诊断中的应用研究

杨艳屏  
【摘要】:医疗机构每天都会有海量的未标记的样本数据产生,医学诊断如果只使用那些有标记的样本,训练出的辅助诊断系统往往很难具有较强的泛化能力,同时造成大量未标记样本的浪费。为此,研究将主动学习算法应用于医学辅助诊断中,希望选择最有利于提高诊断性能的未标记样本或属性进行类别标记或属性填充,从而从整体上减少所要标记的样本数量。 在实际应用中,当前的主动学习算法还存在如下不足和值得改进的地方:(1)目前的主动学习算法要么基于最近边界的方法来选取不确定性样本,要么基于最远边界的方法来选取确定性样本,或者二者结合。因没有考虑样本数据集的结构分布,所以容易陷入局部最优;(2)针对属性缺失的主动特征学习以单一的误分类代价最低为目标,不符合现实中存在的多种代价的实际情况(如查询代价);(3)主动学习算法在不平衡数据问题方面研究仅仅采用选择决策边界附近的相同数量的少数类和多数类样本,这样分类器所能分析的样本数量就会更少。 为了避免陷入局部最优,研究了基于层次化聚类的探索数据集结构分布的策略,并采用兼顾探索和发掘的平衡策略,给出了一种对数据样本决策边界自动定位的新方法。 考虑到现实生活中存在的多代价情况,针对属性缺失数据的主动特征学习,给出了一种兼顾误分类代价和查询代价的学习方法。该学习方法以适合增量采样的基于最大期望改变的预测误差算法为基础,引入了特征不确定性度量,以追求训练所得的分类器分类精度和综合代价均为最优。另外,为了避免引入过多的无用的新特征,使用适合处理属性缺失值的属性相关性度量方法进行属性选择。 在处理类间不平衡问题时,概念复杂度、训练样本规模会影响分类器的准确率。因此,采用随机子空间算法来降低概念复杂度,利用主动学习采样和添加人工数据样本来提高训练样本集的规模,并通过对少数类的误分类赋予较高的权值来引导算法对少数类的关注。 采用主动学习算法针对心血管疾病进行致病因素分析和诊断,并用湖北省疾病控制预防中心的真实的高血压疾病数据进行了实验。同时也针对公共数据集UCI中的医学数据进行了分析和诊断。 实验结果表明,基于层次化聚类的主动学习算法具有快速、准确确定样本决策边界位置的能力,考虑综合代价的主动特征学习算法不仅能发掘相关属性的能力,也使得分类器具有更高的分类精度。面向医学领域的非均衡数据样本时,仍能得到较高的预测精度。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.13;R54

【参考文献】
中国期刊全文数据库 前6条
1 白玉峰,耿美英,连江宏,罗志昌,张松,杨文鸣;逐步Bayes判别分析在心血管功能评定中的应用[J];北京工业大学学报;1994年01期
2 吕晓燕,郭建军,李祥生;一种基于模糊聚类分析的疾病电脑预测诊断方法[J];电脑开发与应用;2003年12期
3 瞿爱珍,庄天戈;计算机辅助医学诊断系统的数据挖掘和知识发现研究[J];国外医学.生物医学工程分册;2002年03期
4 杨涛,骆嘉伟,王艳,吴君浩;基于马氏距离的缺失值填充算法[J];计算机应用;2005年12期
5 廉飞宇;付麦霞;王植存;;一种基于粗糙集理论的心血管功能辅助诊断方法[J];生物医学工程研究;2007年02期
6 贾亚莉,左翔,周典;数据挖掘在心血管病住院患者病情分析中的应用研究[J];中国农村卫生事业管理;2005年06期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
3 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
4 刘婷婷;;基于支持向量机的水稻纹枯病识别研究[J];安徽农业科学;2011年28期
5 高闯;王立东;周世宇;;基于支持矢量机的宫颈细胞分类[J];辽宁科技大学学报;2009年03期
6 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
7 钟尚平;林静;;一个基于TSVM的GIF图像通用隐写检测方法[J];北京交通大学学报;2009年02期
8 尚磊;刘风进;;基于支持向量机的手写体数字识别[J];兵工自动化;2007年03期
9 胡淑燕;郑钢铁;;应用支持向量机的眼睑参数疲劳预测[J];北京航空航天大学学报;2009年08期
10 王自强;段爱玲;张德贤;;基于自适应核函数的支持向量数据描述算法[J];北京化工大学学报(自然科学版);2008年02期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
6 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
7 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
9 刘英林;刘洪鹏;査星云;宋扬;;基于SVM的热轧钢卷性能分析[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
10 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
6 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
7 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
8 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
9 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
10 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 马冉冉;集成学习算法研究[D];山东科技大学;2010年
4 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
5 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
6 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
7 左国辉;基于子空间方法的人脸识别技术研究[D];哈尔滨工程大学;2009年
8 杨欣颖;潜器光视觉目标识别技术的研究与设计[D];哈尔滨工程大学;2010年
9 平金玉;基于组合核与主动学习的蛋白质交互关系抽取[D];大连理工大学;2010年
10 方宇;小波支持向量机在交通流预测中的应用研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 栾丽华,吉根林;决策树分类技术研究[J];计算机工程;2004年09期
2 张朝晖,陆玉昌,张钹;利用神经网络发现分类规则[J];计算机学报;1999年01期
3 孙晨,周志华,陈兆乾;神经网络规则抽取研究[J];计算机应用研究;2000年02期
4 黄飞雪,周东清,孙万军,冯青;基于神经网络的数据采掘技术[J];计算机应用研究;2000年09期
5 廉飞宇;王植存;张元;;脉图诊断仪的研制[J];生物医学工程研究;2006年02期
6 楚扬杰;王先甲;方德斌;吴秀君;;基于粗糙集相关矩阵的属性约简算法[J];武汉理工大学学报;2006年02期
7 楼伟进,孔繁胜;软件组件技术与知识发现系统[J];微型电脑应用;1999年12期
8 莫娟,王雪,董明,严璋;基于粗糙集理论的电力变压器故障诊断方法[J];中国电机工程学报;2004年07期
9 范逢曦,张海,卢轶郎,张士儒,李详生,吴燕萍,李茹香,张水旺,刘卓敏,李运乾,田芳,陈涛;急性心肌梗塞急性期预后专家系统的研究[J];中国生物医学工程学报;1992年01期
10 李昂;模糊数学与颈椎病的分型诊断[J];中医正骨;1996年03期
【相似文献】
中国期刊全文数据库 前10条
1 ;数据集N2[J];材料工程;1959年09期
2 李铁,邹立尧,国世友;东北地区低温气象资料数据集及其质量控制[J];应用气象学报;2004年S1期
3 王照,任雁铭;IEC 61850数据集模型的应用[J];电力系统自动化;2005年02期
4 ;《中国常用人口数据集》出版[J];人口研究;1994年04期
5 Alfred Poor ,伍颖文;传真、电话、声音和数据集于一卡[J];个人电脑;1995年07期
6 谷斌;CAD/CAM/CAI的质量控制[J];航空标准化与质量;1998年04期
7 赖志斌,程承旗;元数据和数据集一体化管理模型及应用研究[J];测绘通报;2001年05期
8 杨帆;国际数据集团[J];出版参考;2001年01期
9 赖志斌,夏曙东,王浒,承继成;基于元数据和数据集管理的应用模型研究[J];地理科学进展;2002年04期
10 王小军;李永森;;海南基础地理信息数据集的设计[J];江西测绘;2007年02期
中国重要会议论文全文数据库 前10条
1 张琦;乔卫勇;;RACF介绍[A];第二次计算机安全技术交流会论文集[C];1987年
2 梁一平;邓左祥;周小平;;一种多关系数据挖掘中元组ID传播的设计与实现[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
3 周晓云;孙志挥;张柏礼;胡文瑜;;一种基于单调递减阈值函数的高维数据集聚类算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 何增有;徐晓飞;邓胜春;宋玉福;;dNumber:超大范畴数据集的一个快速聚结算法(英文)[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 周晓峥;刘勘;孟波;周洞汝;;基于自组织映射的多维数据集的可视化及聚簇分析[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
6 李金玖;熊贇;朱扬勇;;不确定数据集上的k-Skyline查询[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 吴京生;封秀燕;;浙江自记降水数据集的制作过程[A];第四届长三角科技论坛论文集(下册)[C];2007年
8 张重生;冯海军;陈红;梁思维;李翠平;;一种分布式数据集上top-n异常点挖掘的高效算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 周永吉;祖雪梅;;黑龙江省行业站地面资料数据集[A];黑龙江省气象科技交流会论文集[C];2007年
10 杜兆辉;彭慧珍;沈佳妮;沈小波;;社区电子健康档案数据集的遴选实践与体会[A];自主创新与持续增长第十一届中国科协年会论文集(3)[C];2009年
中国重要报纸全文数据库 前10条
1 山水;艾斯本与NIST集合数据集[N];中国石化报;2007年
2 李宇;上市预披露将成市场常规[N];中国证券报;2008年
3 郭立;荣昌猪实现数字化[N];中国畜牧兽医报;2005年
4 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年
5 秦笃烈;解读 中国造女性数字人[N];健康报;2006年
6 李宇;港交所明年试验上市预披露计划[N];中国证券报;2007年
7 上海 陈纯;初识T-SQL,恋情的开始[N];电脑报;2004年
8 周青 编译;CDP:与快照相得益彰[N];计算机世界;2006年
9 本报记者 周仲全 实习生 蔡为伟;数字虚拟人:为承受人类苦痛而来[N];辽宁日报;2005年
10 本报记者  郝宗强;为社会和谐作贡献[N];人民日报;2006年
中国博士学位论文全文数据库 前10条
1 吴毅;数字人全身分割数据集的建立及人体胸腔与盆腔的数字化研究[D];第三军医大学;2012年
2 郭晓君;关联课程数据组织及知识管理研究[D];武汉大学;2012年
3 纳赛尔 阿里 穆罕默德 巴拉卡特;复杂化学数据的知识发现新型化学计量学算法研究[D];湖南大学;2005年
4 杜乃乔;过程感知信息系统的负载生成技术[D];清华大学;2012年
5 马洁;蛋白质组肽段鉴定质量控制方法的研究与应用[D];中国人民解放军军事医学科学院;2010年
6 黄浩;基于近邻关系的稀有类挖掘[D];浙江大学;2012年
7 丁淑妍;进化分析与结构预测中的若干问题研究[D];大连理工大学;2012年
8 冀进朝;针对多维混合属性数据的聚类算法研究[D];吉林大学;2013年
9 余雳;虚拟可视鼠样品制备技术研究[D];华中科技大学;2006年
10 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
中国硕士学位论文全文数据库 前10条
1 王春玉;非平衡数据集分类方法研究及其在电信行业中的应用[D];浙江大学;2011年
2 纪丽敏;基于机器学习的蛋白质相互作用预测精度与数据集关系的研究[D];华南理工大学;2013年
3 王彬;基于序列与支持向量机预测蛋白质相互作用的数据集构造与精度分析[D];华南理工大学;2013年
4 张杰;基于支持向量机和蛋白质全序列的蛋白质—蛋白质相互作用预测[D];郑州大学;2010年
5 范先念;数据不平衡分类问题研究[D];中国科学技术大学;2011年
6 孟军;不平衡数据集分类算法的研究[D];南京理工大学;2014年
7 孟中楼;入侵检测中的数据集生成和使用技术研究[D];华中科技大学;2004年
8 王灿伟;类别不平衡数据的集成分类研究[D];山东师范大学;2012年
9 赵淑娟;基于非对称加权和核方法的不平衡数据集算法研究[D];南京邮电大学;2013年
10 曾聪;膜蛋白分类的特征提取算法和数据集构建技术研究[D];国防科学技术大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026