药品不良反应信号检测中重复报告的识别及消除
【摘要】:研究背景:自发呈报系统数据库是药品不良反应监测的重要依据,是实现有效药物警戒的基石,随着时间的推移、数据的积累以及国家对药品安全性问题的重视,上报至国家药品不良反应监测中心的不良反应报告日益增多,至2017年底我国自发呈报系统收集到的报告已超过1100万份。由于《药品不良反应报告和监测管理办法》要求药品生产企业、经营企业和医疗机构发现药品不良反应均应进行上报,以及录入跟踪报告时与之前的首次报告未进行关联等原因,故难以避免重复报告的问题。且近期国家食品药品监督管理总局颁布《关于药品上市许可持有人直接报告不良反应事宜的公告》,要求药品上市许可持有人必须报告药品不良反应,又会带来新的重复报告问题。重复报告的存在会引起假阳性或假阴性不良反应信号,从而影响药品不良反应信号检测的准确性。如何利用统计学方法从海量的不良反应数据中有效地识别并去除其中的重复报告,从而为之后的不良反应信号检测提供可靠的数据,是当前亟待解决的问题。研究目的:本研究以我国药品不良反应自发呈报系统数据库为依托,主要探索两部分内容。首先对我国不良反应数据库重复报告现状进行初步分析,构建适用于我国数据库结构的变量匹配模型、概率匹配模型和编辑距离法模型,经过比较筛选出去除重复报告的最优模型。其次使用最优模型识别并剔除我国不良反应数据库中的重复报告,重新检测不良反应信号,探索重复报告对信号检测的影响程度,为下一步药品不良反应信号检测提供高质量数据。研究方法:方法学研究:首先,按照报告日期随机抽取一个月的数据,使用变量匹配法找出疑似重复报告,然后通过双人分开对比报告中的其他变量,找出其中的重复报告,获得重复报告金标准数据库,为模型评判做准备;其次,以重复报告金标准数据库为依托,将三种方法运用到该数据中,从姓名、性别、出生日期、药品名称、不良反应、不良反应发生日期六个变量中,选择不同变量组合,组成四种情境(情境1:姓名、性别、出生日期、药品名称、不良反应、不良反应发生日期;情境2:姓名、出生日期、药品名称、不良反应、不良反应发生日期;情境3:姓名、性别、药品名称、不良反应、不良反应发生日期;情境4:姓名、药品名称、不良反应、不良反应发生日期),以查全率与查准率组成的综合指标F1-Measure为评判指标,构建最优的变量匹配模型、概率匹配模型和编辑距离模型。为了提高运行效率,概率匹配模型和编辑距离模型使用多次查找技术。实例应用:将三种模型应用到2014年国家药品不良反应数据中,识别其中的重复报告,将重复报告剔除后重新进行信号检测,并与未去除重复的信号检测结果进行比较,分析重复报告去除前后的新增信号和消失信号,将新增和消失信号与已知的不良反应数据库进行比对,对结果进行解释。研究结果:1.方法学研究:(1)重复报告金标准数据库本研究从2014年数据库中,按照报告日期,抽取3月份86882份报告,使用纳入不同变量的变量匹配法(出生日期、药品名称、不良反应、ADR日期;姓名、性别、出生日期、ADR日期;姓名、药品名称、不良反应),找到疑似重复报告1280组。经过双人分开对比民族、体重、电话、疾病史、病历号、报告人、就医单位等其他变量,确定重复报告359组。(2)模型结果经过4种情境的比较,变量匹配模型在情境4,纳入姓名、药品名称、不良反应、不良反应发生日期四个变量时,F1-Measure最高,为58.82%,查全率和查准率分别为57.10%和60.65%。概率匹配模型在情境2,纳入姓名、出生日期、药品名称、不良反应、不良反应发生日期五个变量,且阈值为38.5时,F1-Measure最高,为74.93%,查全率和查准率分别为71.59%和78.59%。而编辑距离模型在情境4,纳入姓名、药品名称、不良反应、不良反应发生日期四个变量,且阈值为3.85时,F1-Measure最高,为75.96%,查全率和查准率分别为74.37%和77.62%。变量匹配模型、概率匹配模型和编辑距离模型分别检测出205、257和267组真阳性重复组合。2.实例应用本研究基于国家药品不良反应自发呈报系统2014年1322641份数据,采用变量匹配模型、概率匹配模型和编辑距离模型分别筛选重复报告。变量匹配模型共发现4191组重复报告,重复报告发生率为0.35%,但对于姓名缺失的报告,其真实性令人怀疑。概率匹配模型共发现5230组重复报告,发生率为0.36%。但对于仅不良反应发生日期不同的高度重复报告中,该模型不能很好的进行识别,比如白细胞减少和骨髓抑制不良反应报告。编辑距离模型发现4309组重复报告中,发生率为0.32%,与变量匹配模型相比,编辑距离模型不仅将完全相同的两条报告筛选出来,同时也将存在微小差异的两条报告筛选出来;与概率匹配模型相比,编辑距离模型精确度更高,更值得信任。去除重复报告前ROR、PRR和IC三种方法分别检测出29921、32428和21994个药品不良反应信号,使用变量匹配模型、概率匹配模型和编辑距离模型去除重复报告,ROR方法得到三种模型结果分别为28803、28612、28739,PRR为31248、31086、31201,IC分别为21242、21050和21155,信号数量有一定的减少,但前后变化较小,说明现阶段重复报告对不良反应信号检测影响有限。将去除重复之后得到的信号检测结果与去除重复之前进行比较,发现消失的信号中90%以上都是假阳性信号。研究结论:综上所述,本研究建议使用变量匹配模型(姓名、药品名称、不良反应及其发生日期)或者编辑距离模型(姓名、药品名称、不良反应及其发生日期,阈值为3.85)去除我国药品不良反应数据库中的重复报告,并且需要进一步通过人工来确定模型筛选出的重复报告。虽然现阶段我国药品不良反应重复报告发生率不足1%,但由于《关于药品上市许可持有人直接报告不良反应事宜的公告》的存在,重复报告的发生率必将上升,因此一定要重视数据库中的重复报告。