基于Hadoop的医疗辅助诊断系统的设计与实现
【摘要】:我国医院大范围建设以电子病历为重点的信息系统已进行了10多年。电子病历、实验室信息系统、医学影像传输和存储系统等信息系统已被引入到医院中,这使得医院积累了丰富的医疗数据资源。以上海交通大学医学院附属瑞金医院为例,每年产生的临床数据约在60TB。医疗数据包括了临床诊断、检验检查结果等类型,具有数据量大、数据形式多元、数据变化快、数据价值高的“大数据”特征。如何利用这些数据为临床医疗诊断提供数据支持、让医生更好地为病人服务,是信息化建设的更高要求。论文结合《基于瑞金医院的临床大数据平台建设和深度应用》实际项目,研究了基于大数据处理平台Hadoop的医疗辅助诊断系统。首先分析了医疗数据的特点,综述了数据挖掘相关技术。针对糖尿病人处方数据,研究了基于关联规则的药品推荐,并通过改进算法提高效率满足了医疗诊断的及时性要求。针对甲亢病人的检验数据,研究了基于逻辑回归的并发症预测,结合医疗数据特点,分析了数据清洗、集成、转换以及预测结果的评估相关技术。使用MapReduce和Spark两种计算模型,论文对医疗辅助诊断系统的药品推荐和并发症预测功能进行了实现,验证了课题研究方法和技术的有效性。论文的主要工作有以下几个方面。(1)研究了基于关联规则的药物推荐。利用数据挖掘中的关联规则算法,找出医疗处方数据中的频繁处方项集,并从频繁处方项集中寻找有意义的处方关联信息,在医生开具处方时提供辅助诊断作用。为了满足药品推荐的及时性需求,论文对关联规则的经典Apriori算法进行改进,提出基于前缀项集的Apriori算法,并在实际医疗处方数据上证明了改进算法的有效性。(2)研究了基于逻辑回归的并发症预测。针对病人的各种检验指标数据,结合数据挖掘中的逻辑回归算法建立分类模型,通过该模型对未来病人的患病情况进行判断,从而达到为医生提供辅助诊断的效果。在预测功能具体实现中,本文使用了1~99分位极值处理、基于熵的数值离散化、针对不平衡数据的模型评估方法等技术以保证最终预测模型的准确性。(3)在Hadoop平台上使用MapReduce计算模型,实现了药品推荐功能,并通过实验比较分析了经典和改进的Apriori算法的性能,验证了改进算法的有效性;使用Spark计算模型,实现了并发症预测功能,并以原发性甲状腺机能亢进症病症为例,详细分析了功能的实现过程,给出了预测结果。