收藏本站
收藏 | 论文排版

面向招标项目名称的中文短文本分类技术研究

施欢欢  
【摘要】:无论是短信、电子商务的商品评价,还是微博消息,都呈现爆炸式增长的趋势,说明用简短的文字表达信息即短文本在我们传递信息的过程中起着越来越重要的作用。但是,短文本欠缺长文本所具有的丰富的语义特征,其稀疏的特征矩阵导致我们很难对短文本进行分类和深度的信息挖掘。主题模型用于长文本挖掘的技术已经相对成熟,但是短文本处理却始终处于长文本处理的框架下。很多的研究都致力于借助相关外部信息扩充短文本,然后使用主题模型。但这种方法在搜索短文本的相关信息时存在难度,且依赖于搜索到的相关信息的质量,不具有通用性。招标项目名称是典型的中文短文本数据,近年来,依赖人工采集处理的招投标网站不能满足日渐激烈的市场环境,亟需自动化处理的网站。与本文相关的网站可以实现对项目名称自动化的采集、处理和分析,本文着重分析项目名称的分类问题,针对特征较为稀疏的短文本数据集,即招标网站获取的项目名称,展开具体的实验。首先,本文在基于统计的特征选取方法中,选择TF-IDF、IG分别与贝叶斯结合,根据评价指标F-measure比较项目名称的分类结果,选择对信息增益进行进一步优化,提出了基于规则的特征选取方法:1.整个短语,2.删除整个短语中首个特征词前的词语,3.将所有词根据位置加权。其中,分类效果最好的是基于“位置加权规则”的信息增益方法,但这种方法得出的结果的准确率提高而召回率有所降低。接着,改进了主题模型LDA方法,将主题模型LDA的结果与信息增益的结果融合后,再进行分类结果的预测。通过具体的实验证实,将信息增益的结果与LDA的结果融合的方法得出的准确率比用基于位置加权的信息增益得出的准确率高,且召回率也有所提高,验证了此方法的有效性。结合招标项目短文本的实验结果,我们能够得出,此方法可以推广到相关中文短文本数据集的分类实践中。


知网文化
【相似文献】
中国期刊全文数据库 前16条
1 董立岩;李真;周灵艳;;特定信息增益决策森林分类器研究[J];计算机工程与应用;2010年26期
2 孟保成,苏莉华;应用综合信息增益法提取短期地震前兆[J];华南地震;1998年04期
3 沈萍,冯国政;信息增益在地震趋势估计中的应用[J];中国地震;1996年04期
4 李丹华;袁晔;王帅军;;基于数字几何信息增益的服装3D人体特征识别[J];北京服装学院学报(自然科学版);2016年02期
5 范艳峰;杨志晓;;可信网络中基于动态信息增益的多维属性决策[J];计算机应用研究;2012年01期
6 陈彤生;胡雪琴;李绍滋;周昌乐;;以信息增益模式探讨在高维数据上的多类别证型分类[J];心智与计算;2007年03期
7 张永兵;杨理伟;吴永丽;张永飞;;利用熵信息增益分析疾病诊断因子作用[J];中国卫生统计;2006年06期
8 白云晖;;基于信息增益特征选取和覆盖的中文文本分类[J];福建电脑;2008年07期
9 邱宁佳;高鹏;王鹏;陶跃;;基于改进信息增益的ACO-WNB分类算法研究[J];计算机仿真;2019年01期
10 王亚东,郭茂祖,钱国良;一种基于信息增益与费用评价函数的特征选择准则[J];计算机研究与发展;1999年07期
11 刘亚琦;;基于属性相关分析中的信息增益计算——五年制高职与三年制高职教育的比较[J];科技创新导报;2008年27期
12 任永功;杨荣杰;尹明飞;马名威;;基于信息增益的文本特征选择方法[J];计算机科学;2012年11期
13 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
14 任永功;杨雪;杨荣杰;胡志冬;;基于信息增益特征关联树的文本特征选择算法[J];计算机科学;2013年10期
15 潘若愚,韩晓峰;一种基于信息增益的产品评价系统模型[J];合肥工业大学学报(自然科学版);2003年S1期
16 李虹利;蒙祖强;;运用信息增益和不一致度进行填补的属性约简算法[J];计算机科学;2018年10期
中国重要会议论文全文数据库 前5条
1 戚犇;王梦迪;;基于信息增益的贝叶斯态势要素提取[A];第32次全国计算机安全学术交流会论文集[C];2017年
2 王孟;白清源;谢丽聪;谢伙生;张莹;;基于信息增益规则排序的关联文本分类[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 陈晶晶;;C4.5经典分类算法的研究与改进[A];荆楚学术2016年第四期 (总第五期)[C];2016年
4 覃朗;朱建军;衣柏衡;周新民;;非均衡数据下基于信息增益的SMOTE改进SVM模型研究[A];第十八届中国管理科学学术年会论文集[C];2016年
5 邓宾;余正涛;韩露;车文刚;郭剑毅;;基于信息增益改进贝叶斯词义消歧模型[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前3条
1 潘谦红;分布式信息检索的研究与应用[D];中国科学院研究生院(计算技术研究所);1999年
2 武斌;面向俄文信息处理的机器翻译实验研究[D];中国人民解放军外国语学院;2007年
3 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 施欢欢;面向招标项目名称的中文短文本分类技术研究[D];南京财经大学;2017年
2 李菲菲;基于信息增益的软件特征技术研究[D];郑州大学;2014年
3 张方钊;基于改进的信息增益和LDA的文本分类研究[D];吉林大学;2018年
4 辛雅斐;蚁群算法中基于信息增益的信息素值的分析与改进[D];暨南大学;2008年
5 亓孟雅;基于信息增益的决策树算法的分析与改进[D];华中科技大学;2015年
6 邓蓓蓓;基于信息增益的量化算法及其在决策树中应用的研究[D];广东工业大学;2016年
7 贾娴;基于分类分析的入侵动态取证模型研究[D];山东师范大学;2012年
8 从世源;LDA模型在文本分类中的应用研究[D];辽宁工程技术大学;2016年
9 李美玲;基于MCEM算法的LDA模型[D];厦门大学;2017年
10 勒孚刚;基于LDA模型的专利文本分类及演化研究[D];江西理工大学;2017年
中国重要报纸全文数据库 前4条
1 本报记者 詹媛;让机器“说”中文面临哪些新挑战[N];光明日报;2016年
2 本报记者 陈方;中文信息 期待精品[N];光明日报;2000年
3 记者 李琳;中国C网:誓做自主全中文信息网[N];厂长经理日报;2000年
4 本报记者 刘亚东;网络犯罪防不胜防吗?[N];科技日报;2000年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978