基于SVM的肺结节自动识别方法研究
【摘要】:肺癌是当今对人类生命健康危害最大的恶性肿瘤之一,在世界的许多地区肺癌是癌症死亡的主要原因。早期发现与诊断肺癌是提高患者存活率的关键,如何有效地诊断肺癌成为全人类关心的课题。肺癌早期的表征形式为肺结节,因此肺结节的正确检测与智能识别是非常关键的。
肺结节计算机辅助诊断(Computer-Aided Diagnosis,CAD)系统为肺癌早期检测和诊断提供了帮助,一方面减轻了医生的工作量,能有效地帮助医生对潜在的肺癌进行早期检测和特征描述;另一方面使医学影像诊断更客观,提高了诊断的效率和准确率,最大程度上避免了漏诊和误诊。但目前已有的CAD系统仍存在两个主要的问题:①CAD系统对肺结节检测的敏感度不高而特异性过高;②目前已有的研究主要是针对孤立型肺结节和粘连型肺结节,而缺乏对磨玻璃型(Ground-Glass Opacity, GGO)肺结节和邻近肺壁的微小结节的研究。针对上述两个问题,本文对智能识别肺结节的方法进行了改进,取得了令人满意的结果。
论文的主要研究内容包括:
1.在基于本文设计的肺结节自动识别的平台基础上详细介绍了图像的预处理和候选感兴趣区域(Regiongs of Interested, ROIs)的分割,并且为了能够正确分割出CT图像中磨玻璃型肺结节区域,在候选ROIs的分割中采用自适应阈值的分割算法,实验证明此算法对各种类型的肺结节的分割都是有效的。
2.提取候选ROIs的灰度,形态和位置特征,加入具有旋转不变性和抵抗噪声能力的纹理特征,然后用主成分分析(Principle Component Analysis, PCA)的方法对特征优化选择。首先分析肺结节的临床病理特征和在CT图像上的医学征象;然后结合国内外学者的研究成果及专家的经验知识,根据相关知识定量地把主要能代表肺结节的灰度、形态、位置和纹理的17个特征以数学的形式表示出来,为肺结节的识别奠定基础;最后针对提取的特征之间的互相关联的问题,用PCA的方法对特征集优化选择和降维处理,使得到的新特征集彼此之间无关联,以提高分类器的分类性能和训练效率。
3.针对不同类型的肺结节,分别提出不同的分类器以识别候选ROIs中的肺结节。首先针对邻近肺壁的微小结节,根据医学知识和候选ROI的位置特征提出一种基于知识的分类器识别此类微小结节;其次比较肺结节和非结节样本的每一个特征的可分度,根据8个可分度大的特征,提出一种基于规则的分类器以区分结节和非结节;最后为进一步提高对肺结节识别的准确率,提出一种结合PCA和支持向量机(Support Vector Machine, SVM)方法的分类器对剩余候选ROIs分类。实验证明基于知识的分类器完全可以识别邻近肺壁的微小结节,结合规则、PCA与SVM方法的分类器对肺结节的检测要优于结合PCA与SVM方法的分类器。
4.针对实际提取的数据集Lung-nodule中肺结节和非结节样本之间数目的不平衡,合成少数过采样技术(Synthetic Minority Over-sampling Technique, SMOTE)的不稳定性及代价敏感的支持向量机(Cost-sensitive SVM, CSVM)分类器的局部最优问题,本文提出两种解决方法:一种是采用集成支持向量机(Ensemble SVM, ESVM)分类器对不平衡数据集进行重采样处理;另一种是基于网格搜索的CSVM分类器。分析比较基于规则、结合PCA与SVM方法、结合规则、PCA与SVM方法、ESVM和基于网格搜索的CSVM分类器的分类性能,得出无论是平衡数据集还是不平衡数据集,基于网格搜索的CSVM分类器的分类性能都要优于其它几种分类器。基于网格搜索的CSVM分类器可以在保持高特异性的同时,敏感度也能达到100%,而且对SVM/CSVM分类器本身来说,交叉验证的网格搜索寻优SVM/CSVM的参数能够使SVM/CSVM性能达到全局最优。