面向招标项目名称的中文短文本分类技术研究
【摘要】:无论是短信、电子商务的商品评价,还是微博消息,都呈现爆炸式增长的趋势,说明用简短的文字表达信息即短文本在我们传递信息的过程中起着越来越重要的作用。但是,短文本欠缺长文本所具有的丰富的语义特征,其稀疏的特征矩阵导致我们很难对短文本进行分类和深度的信息挖掘。主题模型用于长文本挖掘的技术已经相对成熟,但是短文本处理却始终处于长文本处理的框架下。很多的研究都致力于借助相关外部信息扩充短文本,然后使用主题模型。但这种方法在搜索短文本的相关信息时存在难度,且依赖于搜索到的相关信息的质量,不具有通用性。招标项目名称是典型的中文短文本数据,近年来,依赖人工采集处理的招投标网站不能满足日渐激烈的市场环境,亟需自动化处理的网站。与本文相关的网站可以实现对项目名称自动化的采集、处理和分析,本文着重分析项目名称的分类问题,针对特征较为稀疏的短文本数据集,即招标网站获取的项目名称,展开具体的实验。首先,本文在基于统计的特征选取方法中,选择TF-IDF、IG分别与贝叶斯结合,根据评价指标F-measure比较项目名称的分类结果,选择对信息增益进行进一步优化,提出了基于规则的特征选取方法:1.整个短语,2.删除整个短语中首个特征词前的词语,3.将所有词根据位置加权。其中,分类效果最好的是基于“位置加权规则”的信息增益方法,但这种方法得出的结果的准确率提高而召回率有所降低。接着,改进了主题模型LDA方法,将主题模型LDA的结果与信息增益的结果融合后,再进行分类结果的预测。通过具体的实验证实,将信息增益的结果与LDA的结果融合的方法得出的准确率比用基于位置加权的信息增益得出的准确率高,且召回率也有所提高,验证了此方法的有效性。结合招标项目短文本的实验结果,我们能够得出,此方法可以推广到相关中文短文本数据集的分类实践中。