公安犯罪案件文本挖掘关键技术研究
【摘要】:
由于信息技术的快速发展,公安信息系统中积累了海量的业务信息。面对着日益庞大的公安信息量,迫切需要应用人工智能的相关技术,对数据进行深层次的分析并研究各类信息的规律和关系,以更好地打击犯罪、防控犯罪。因此,将数据挖掘技术有效地应用于犯罪分析是目前公安工作的迫切需要。文本挖掘技术是近几年来数据挖掘领域的一个新兴的分支。而在海量案件信息中,除了规范化程度很强的数据库数据外,还有大量的案件叙述性文本描述。对这些大量的案件文本进行相关文本挖掘技术研究和应用是非常有意义的。
本文主要针对公安领域中大量的犯罪案件文本信息,对其中的案情文本挖掘相关技术进行研究和应用。本文论文的工作包括以下几点:
(1)在文本预处理方面。结合实际应用需要,对公安业务中的一些术语建立专业词库;同时针对案件文本的特征,提出了具有针对性的特殊预处理方法。
(2)在案件特征选择方面。根据实际应用的需求,研究了六种特征选择算法,并通过比较六种特征选择算法,确定了对案情文文本挖掘有利的特征选择算法。
(3)在案件分类挖掘方面。提出了案件属性信息抽取方法和同义词语义分析方法,并在此基础上提出了改进的案件相似度计算方法;根据犯罪案件文本类别不均衡的特征,改进了朴素贝叶斯中的多变量贝努里模型,提出了面向不均衡类别的改进朴素贝叶斯案件文本分类方法。
(4)在应用系统设计方面。设计和实现了一个典型三层C/S结构的犯罪案件文本挖掘系统,实现了相似犯罪案件文本检索模块和犯罪案件文本分类模块。