面向领域的文本分类与挖掘关键技术研究
【摘要】:大量文本以电子形式存在,人们需要对大量的文本信息资源进行有效的组织和管理,因此文本分类引起人们的高度重视。近年来,关于文本分类技术的研究取得了很大进展,并被应用于众多领域。本文深入研究了文本分类与挖掘中的一些关键技术,同时在对政府公文分类、文本观点极性分析以及专利挖掘任务进行深入分析的基础上,将文本分类与挖掘技术应用到上述领域,提出了相应的解决方案,并通过大量实验证明了这些方案的有效性。主要工作包括:
(1)特征独立性假设在文本处理领域被普遍应用,它虽然能大大简化文本计算,但与实际情况不符。本文首次将独立分量分析技术应用到文本处理领域,进行面向文本分类的独立特征抽取,并对其中遇到的由于数据稀疏和维数过高造成的收敛速度慢,稳定性差的问题进行了解决;将独立分量分析技术与传统的特征选取方法相结合,在通用数据集上进行了文本分类实验,实验结果验证了这种技术的优越性。
(2)政府公文均带有主题词,而主题词携带了大量的类别信息。如何利用这些信息帮助文本分类?首先本文针对主题词不足的问题,根据Bootstrapping学习框架构建了一个主题词相关词的自动获取模型—KWB模型,用于对政府公文主题词集合的扩展;然后运用随机关键词产生技术,将公文文本表示成主题词空间的条件概率,这样也同时实现了文本特征空间的降维;将KWB模型与随机关键词产生技术相结合进行了公文文本分类实验,结果证明该方法能充分利用主题词的类别信息,提高分类性能。
(3)针对主观句子判别正确率不高的问题,应用文本分类技术,提出了三类训练、两类判别的分类框架。并在公开语料MPQA上进行了实验,结果证明在语料中间接主观句子极少的情况下,该框架也能有效提高主观句子判别的准确率。针对训练语料不足以及对实体多方面的观点极性分析的需要,提出了一种基于弱指导学习的分析技术,实现句子级的实体方面特征识别和实体多方面观点的极性分析。实验证明该方法取得了较好的准确率。
(4)通过深入分析NTCIR-7中专利挖掘任务的训练数据及任务难点,提出kNN分类框架是完成此任务的很好选择;针对训练数据分布极端不均衡的问题,提出在Ranking决策时加惩罚因子的方法解决该问题;研究了多种相似度计算方法,并在此基础上提出、改进了多种Ranking决策方法:如带有大类惩罚因子的Weak方法、NVote方法等。为了提高系统性能,应用机器学习中的Log-linear和Rank-SVM模型提出了基于系统融合的结果链表二次调序方法。该方法使系统性能得到了很大提升,在NTCIR-7的评测中取得了第一名的好成绩。
总之,本文面向一些特殊领域,对文本分类中的特征抽取、分类器组合、小样本问题以及样本不均衡等关键技术进行了深入的理论分析和大量的实验验证,提出了一系列的解决方案,并以实验结果证明了这些方案的有效性。这些算法和模型对今后研究文本分类以及其它文本处理问题将有很大的参考价值和借鉴作用。