收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于启发式搜索的生物特征辨识算法研究

解瑞飞  
【摘要】:肿瘤是影响人类健康的主要的疾病。而基因微阵列和蛋白质质谱等生物技术的出现为疾病的诊断和治疗提供了新的方法,开辟了新的途径。但由于数据具有高维、小样本等特性,常规的模式识别方法已不再适用。针对此类数据,如何剔除冗余特征、如何从海量的数据中挖掘出隐藏在数据背后的有用的生物信息成为研究识别和分类问题的关键。 而目前常用的特征识别方法根据子集获取的方式,可以分为基于随机搜索和非随机搜索策略的特征选择算法;从机器学习角度,特征选择算法又可以分为:过滤法和缠绕法。过滤法独立于分类器,分类精度无法保证;缠绕法在挑选过程中需要反复调用内嵌分类器以评估基因的分类性能,造成极高的计算量。除此之外,数据的高维、高噪声的特点增加了过拟合的风险。近年来,Micha Draminski等人结合随机搜索策略和决策树,提出Monte Carlo featureselection(简称MC)算法,它是一种随机搜索的特征选择算法,不仅降低了搜索时间,而且避免结果陷入局部最优的风险,对高维数据具有较强的适应性。MC算法中所用的判别准则—决策树,它综合考虑了分类率及变量的重要性,避免过度依赖分类率,使得最终结果对于不同的分类器具有较强的鲁棒性;决策树中所用的判别指标不同于传统单纯的分类率,其可以减低样本不平衡问题所造成的影响。但是,MC方法在搜索变量空间过程中没有合理规划,并且不同的迭代间相互独立不相关,没有相互的“通信”,没有合理利用历史成绩和当前排名,造成搜索效率低,结果受随机次数影响较大。在MC算法基础上,结合职业网球选手排名机制,提出基于职业网球选手排名的基因随机选择算法(Feature Selection Algorithm based onProfessional Tennis Players Ranking, PTPR)。 PTPR算法保留了MC算法的精髓,即随机选择及决策树判别,同时借鉴职业网球赛的排名机制,引入了“种子变量”、实时滚动更新排名,优化了搜索过程,提高了搜索效率,保持了结果稳定。在迭代过程中,PTPR算法不同的迭代间,通过“记忆”列表,实现了“信息互通”,利用当前最优变量更新种子变量并排名,然后在下一次迭代中对种子变量的性能进行重新的评估,重新提取当前最优变量,如此迭代循环,直至达到最终可接受范围的最优解。在搜索变量的同时,对已发现的变量“记忆”,在下一次迭代中对其重新验证和评价,不仅提高了搜索效率,而且最终所得的最优变量是多次评估的结果,而非单调一次循环所得,体现了公平公正原则。 通过在Leukemia、Colon、Glioma、Prostate、Lung和Ovarian数据集上从四个不同的角度对PTPR的性能进行了评估,即变量排名的收敛性、变量的重复率、样本的分类率及AUC。通过变量排名的收敛性和变量的重复的实验中可以看出,PTPR算法相对于MC算法,变量排名变化幅度明显低于MC,并以较少的迭代次数收敛到稳定的变量排名,并且PTPR多次实验所得到的结果相似性明显高于MC,受外界因素影响较小。通过分类率和AUC实验表明,PTPR所得到的特征变量在独立的测试集上获得了较高的分类,并保持稳定,而MC却动荡变化。综上可知,PTPR算法在搜索变量的过程中,能够快速有效的收敛到稳定的变量排名,在不同的数据集上所得到的变量集合在不同的分类器上保持了较高的分类率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王旭旭;;浅析农业语音服务电话关键实现技术[J];河北旅游职业学院学报;2011年03期
2 欧阳林艳;;八数码问题的搜索算法比较[J];洛阳师范学院学报;2011年08期
3 唐良玉;徐吉力;林菁;;基于一致性度量属性约简的决策树构建优化研究[J];计算机与现代化;2011年09期
4 雷炜;叶东毅;;基于决策树技术分析动态图形数据的研究与实现[J];福州大学学报(自然科学版);2011年04期
5 陈海宇;郭晓伟;;数据挖掘在高职院校就业指导中的应用研究[J];湖南工程学院学报(自然科学版);2011年02期
6 旷岭;;电信客户流失数据分析方案设计与应用研究[J];中南林业科技大学学报;2011年06期
7 张晓;;基于C4.5算法的高校财务预警系统的研究[J];电脑编程技巧与维护;2011年16期
8 张小峰;张志旺;逄珊;;基于通信系统的决策树构造算法[J];山东大学学报(工学版);2011年04期
9 韩幸才;;基于心血管疾病的分类挖掘[J];医学信息(上旬刊);2011年07期
10 孙胜耀;聂利颖;;基于数据挖掘的高校学生信息海量数据处理[J];电脑知识与技术;2011年24期
11 李胜;张培林;佟若雄;;基于多类AdaBoost的故障诊断算法[J];电子测量技术;2011年08期
12 利珊;;数据挖掘在就业分析中的应用[J];兰州工业高等专科学校学报;2011年04期
13 王璇;裴丽鹊;;基于数据挖掘的大学生心理测评系统设计与实现[J];兰州工业高等专科学校学报;2011年04期
14 马伟杰;;数据挖掘在高校学生工作中的应用[J];软件导刊;2011年08期
15 周志伟;郑烇;王嵩;;内容分发网络中基于数据挖掘的影片热度预测[J];计算机应用;2011年07期
16 黄维维;叶建伟;张宏莉;;基于ID3决策树的木马动态检测技术研究[J];智能计算机与应用;2011年03期
17 胡可;王宏远;;基于粗糙集的决策树雷达辐射源识别方法[J];计算机仿真;2011年08期
18 丁慧;;决策树ID3算法及其改进算法研究[J];赤峰学院学报(科学教育版);2011年04期
19 特列克·巨马夏力甫;阿依兵·哈子太;;基于教材文本的本体学习方法研究[J];电脑知识与技术;2011年16期
20 吕伟忠;;一种改进决策树剪枝算法的研究[J];微型电脑应用;2011年05期
中国重要会议论文全文数据库 前10条
1 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
2 张守娟;周诠;;空间数据挖掘决策树算法在遥感图像分类中的应用研究[A];中国遥感应用协会2010年会暨区域遥感发展与产业高层论坛论文集[C];2010年
3 卜亚杰;胡朝举;;一种改进的ID3算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
4 黄冬梅;花强;高印芝;;产生模糊决策树的一个新算法[A];模糊集理论与应用——98年中国模糊数学与模糊系统委员会第九届年会论文选集[C];1998年
5 丁鹏;徐波;;基于决策树的海量语音数据处理与建模[A];第六届全国人机语音通讯学术会议论文集[C];2001年
6 田松;;面向属性归纳的决策树算法在壁画病害信息提取方面的应用[A];2009`中国地理信息产业论坛暨第二届教育论坛就业洽谈会论文集[C];2009年
7 黄冬梅;孙国基;王熙照;哈明虎;;决策树生成过程中模糊数值属性的处理(英文)[A];中国系统工程学会模糊数学与模糊系统委员会第十一届年会论文选集[C];2002年
8 桑明茜;;决策树在财务报表分析中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
9 曹阳;黄泰翼;;基于统计方法的汉语连续语音中声调模式的研究[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
10 张少元;姚富强;;基于决策树的自适应跳频通信系统的研究[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 朱晓荣;基于决策树的洞庭湖湿地信息提取技术研究[D];中国林业科学研究院;2012年
2 李春艳;分级防火墙系统中动态访问控制技术研究[D];哈尔滨工程大学;2004年
3 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
4 王曙燕;医学图像智能分类算法研究[D];西北大学;2006年
5 李明诗;基于ASTER遥感数据的建湖县杨树信息提取的研究[D];南京林业大学;2005年
6 温兴平;基于多分类器组合的高光谱遥感数据分类技术研究[D];中国地质大学;2008年
7 盛立新;虚拟物流企业伙伴选择研究[D];国防科学技术大学;2009年
8 王萍;遥感土地利用/土地覆盖变化信息提取的决策树方法[D];山东科技大学;2004年
9 邵华;基于决策树的海量时序不均衡数据下预测系统的研究[D];东北大学;2005年
10 刘洋;成像侦察卫星动态重调度模型、算法及应用研究[D];国防科学技术大学;2004年
中国硕士学位论文全文数据库 前10条
1 黄海龙;面向CRM的分类算法及应用研究[D];重庆大学;2002年
2 刘宇;NERMS中基于决策树算法的用户特征分类设计与实现[D];吉林大学;2004年
3 宫生文;数据挖掘算法研究及其在旅游业中的应用[D];青岛大学;2004年
4 李永;模糊决策树系统的设计与实现[D];河北大学;2004年
5 贾亚莉;基于粗糙集的多变量决策树的应用研究[D];合肥工业大学;2005年
6 王永生;数据挖掘在考试系统中的应用[D];北京工业大学;2005年
7 王振华;基于决策树的分布式分类算法研究[D];郑州大学;2005年
8 余传义;实时手势识别在人机交互中的应用[D];上海海事大学;2005年
9 李晶;基于决策树技术的日前市场清算电价预测[D];合肥工业大学;2005年
10 迟庆云;基于决策树的分类算法研究和应用[D];山东师范大学;2005年
中国重要报纸全文数据库 前10条
1 陈芝蓉;举棋不定时 试试决策树[N];健康报;2004年
2 何志高;一“枝”一“节”总关情[N];医药经济报;2001年
3 程鸿兴 张宇;启发式搜索对信息化建设的价值[N];中国计算机报;2008年
4 内蒙古建设银行包头分行 薛志强;体会宽度优先搜索[N];网络世界;2002年
5 徐筱舫;新法治脑转移指南成“决策树”[N];健康报;2008年
6 孙涤;祈愿刍议(一)[N];南方周末;2007年
7 ;选择合适的数据挖掘算法[N];计算机世界;2007年
8 赵焕焱;企业成败源于决策[N];中国企业报;2004年
9 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
10 刘宝 胡善联;六大问题待解决[N];医药经济报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978