汉语文本作者识别方法的研究与实现
【摘要】:
计算机技术的发展推动了人们在识别技术方面的研究,各种各样的识别技术不断被应用于公安工作实践中。汉语文本作者识别方法的研究成果应用于公安工作实践中,可以有效地辅助解决公安工作实践中遇到的文本作者识别问题。
本文提出了一个基于序贯最小优化算法的多层面混合的汉语文本作者识别模型(SM-CTAI),该模型从字符、词和句子三个层面提取特征对文本进行表示,并在其组成的向量空间进行文本作者识别。基于上述模型的文本作者识别系统由训练模块和识别模块组成,文本在经过预处理后,对其进行分词和词性标注,根据处理的结果在字符、词和句子三个层面对提取的特征进行统计、计算和归一化处理,从而把文本表示成三个层面混合的向量空间中的一个向量。在训练集中的文本均表示成向量空间的向量之后,利用序贯最小优化方法建立识别模型。对于将要进行识别的文本,亦按上述的方法将其表示为一个向量,并利用已建立的识别模型对其进行识别。实验表明,该模型相对于基于单一层面特征的文本作者识别方法有更好的召回率和精确率。
本文在三个方面提出了新的想法:第一,提出了在字符层面提取文本高维特征进行文本表示。这种方法基于汉语的自身特点,提取出了汉语字符层面的有用信息。第二,提出了将字符、词和句子三个层面的特征混合使用,与单一层面特征相比,这种方法能够提取出文本更多的信息。第三,将多层面混合的汉语文本作者识别方法应用于对公安工作实践中遇到的文本作者识别问题的解决,积极运用所学知识解决公安工作中遇到的实际问题。