收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于多源异构数据融合的概念层次体系构建及其应用研究

张晓勇  
【摘要】:领域专家构建丰富的领域概念层次体系,将领域知识自顶向下、逐层分类,方便用户检索与获取信息。同时,概念层次体系构建还能为自动问答、机器翻译等研究提供支持。目前,传统的手工构建与半自动构建方法效率低、成本高、跨平台使用难度大;而自动构建方法则往往依赖于单一语料,抽取出的概念不够准确,层次关系比较单一。为此,本论文结合半结构化的专业语料库与非结构化的用户生成内容(User Genetrated Conent,UGC),利用多源异构数据融合的方法构建概念层次体系。一方面,利用专业领域语料库,初步构建概念层次体系;另一方面,针对非结构UGC,分别进行关键词抽取、词语相似度计算、概念层次体系构建等三个方面的研究。首先,在关键词抽取研究中,本文结合模式匹配、统计特征排序、序列标注等多种关键词抽取策略,提出一种基于种子词扩展的关键词抽取方法。首先,基于模式匹配与统计特征排序的策略获得种子词;其次,基于条件随机场(Conditional Random Fields,CRFs)模型扩展种子词。本文通过与 TF*IDF、TextRank、NC_value、CRFs 等算法进行对比试验,证明本文策略不仅可以摆脱统计特征抽取对高频词的依赖,还能在一定程度上解决句法模板的限制,获得更高的召回率。其次,在词语相似度计算研究中,本文提出一种基于多源知识融合的词语相似度计算方法。首先,分别基于语词知识体系(同义词词林、知网)、大规模语料资源(微博语料、新闻语料)、搜索引擎资源(百度、必应),通过单独的算法计算词语相似度;其次,基于支持向量机回归机(Support Vector Regression,SVR)集成多个算法的计算结果,获得最终的词语相似度。实验结果表明,当训练集数据量足够大时,本文方法在性能及算法稳定性上,都要远高于其他几种单独的算法。最后,在概念层次体系构建研究中,本文通过Kmeans聚类算法获得概念间的层次关系。由于不同聚类算法获得的聚类结果存在较大差异,因此,本文对比相似性传播算法(Affinity Propagation,AP)、层次聚类算法(Hierarchical Clustering),通过聚类评估量化评价其聚类效果,并据此确定合适的聚类算法。本文将基于UGC的概念层次体系与基于专业领域语料库的概念层次体系进行融合,最终得到的该领域的概念层次体系。为了评价该概念层次体系的质量,本文使用外部评估方法,即通过应用来评价概念层次体系的质量。通过情感分析任务的实验表明,基于概念层次体系扩充情感向量空间维度,可以显著提升情感分析系统的性能,同时也证明本文构建的概念层次体系的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 胡江滔,汪卫,周傲英;基于抽样的概念层次挖掘算法[J];计算机应用与软件;2001年03期
2 温春;石昭祥;张霄;;本体概念层次获取方法综述[J];计算机应用与软件;2010年09期
3 李颖,丁华东,许世蒙,罗九林,黄曾阳;概念层次网络中对偶性设计[J];装甲兵工程学院学报;2002年01期
4 王丽珍,周丽华,陈红梅;基于概念层次树的例外挖掘方法研究[J];计算机工程与应用;2002年11期
5 杨学兵,蔡庆生;连续值属性的概念层次自动提取算法[J];华中科技大学学报(自然科学版);2003年12期
6 温春;石昭祥;张亮;;中文领域本体概念层次获取方法对比研究[J];计算机应用研究;2009年08期
7 田凤珍;韩宪忠;陈晨;王克俭;;基于概念层次树的用户特征挖掘技术[J];微型机与应用;2011年05期
8 张锦;冯嘉礼;史小宏;;基于定性映射模型的概念层次树构建方法[J];计算机辅助工程;2006年01期
9 宣士斌;;基于概念相容性的概念树自动生成算法[J];计算机工程与应用;2007年06期
10 杨学兵;基于概念层次的关联规则挖掘算法[J];安徽工业大学学报(自然科学版);2003年04期
11 刘胜军,杨学兵,蔡庆生;关系数据库中概念层次自动提取算法研究[J];计算机应用研究;1999年12期
12 韩杰;杨洋;滕至阳;;基于概念层次网络理论的问句分析研究[J];计算机工程与设计;2007年10期
13 温有奎;文本知识分析中的概念层次网络方法[J];情报科学;2002年03期
14 韩家新;何华灿;;基于抽象度的概念层次上的推理方法[J];计算机工程与设计;2007年03期
15 姜跃;基于云有序概念层次树的时间序列距离计算模型[J];云南大学学报(自然科学版);2003年02期
16 章瑾;;大型数据库相关联的多概念层次规则的探索[J];电脑知识与技术(学术交流);2007年10期
17 李波;一种基于取样的概念层次数据挖掘新算法[J];计算机工程与科学;2002年03期
18 李波;;基于抽样的概念层次数据挖掘算法[J];计算机科学;2002年07期
19 杨引霞,谢康林,朱扬勇,左子叶;电子商务网站推荐系统中关联规则推荐模型的实现[J];计算机工程;2004年19期
20 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
中国重要会议论文全文数据库 前5条
1 陈晓云;杨晓娟;张彦哲;;离散化与概念层次的产生[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 ;HNC(概念层次网络)理论[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
3 黄娴;陶宁薇;;基于概念层次网络(HNC)理论的省略恢复研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 陈红梅;王丽珍;;对象概念层次树的构造[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
5 熊亮;;优先排除全局动词假设的策略研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
中国硕士学位论文全文数据库 前4条
1 周璐;云环境中基于语义特征的加密文档检索方案研究[D];南京信息工程大学;2015年
2 张晓勇;基于多源异构数据融合的概念层次体系构建及其应用研究[D];南京理工大学;2017年
3 陈逸凡;基于概念层次的网络挖掘技术[D];上海交通大学;2008年
4 肖娟;基于概念层次树的数据挖掘算法及在CRM中的应用[D];浙江工业大学;2004年
中国重要报纸全文数据库 前1条
1 记者郑千里;火眼金睛识别红黑网络信息[N];科技日报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978