基于多源异构数据融合的概念层次体系构建及其应用研究
【摘要】:领域专家构建丰富的领域概念层次体系,将领域知识自顶向下、逐层分类,方便用户检索与获取信息。同时,概念层次体系构建还能为自动问答、机器翻译等研究提供支持。目前,传统的手工构建与半自动构建方法效率低、成本高、跨平台使用难度大;而自动构建方法则往往依赖于单一语料,抽取出的概念不够准确,层次关系比较单一。为此,本论文结合半结构化的专业语料库与非结构化的用户生成内容(User Genetrated Conent,UGC),利用多源异构数据融合的方法构建概念层次体系。一方面,利用专业领域语料库,初步构建概念层次体系;另一方面,针对非结构UGC,分别进行关键词抽取、词语相似度计算、概念层次体系构建等三个方面的研究。首先,在关键词抽取研究中,本文结合模式匹配、统计特征排序、序列标注等多种关键词抽取策略,提出一种基于种子词扩展的关键词抽取方法。首先,基于模式匹配与统计特征排序的策略获得种子词;其次,基于条件随机场(Conditional Random Fields,CRFs)模型扩展种子词。本文通过与 TF*IDF、TextRank、NC_value、CRFs 等算法进行对比试验,证明本文策略不仅可以摆脱统计特征抽取对高频词的依赖,还能在一定程度上解决句法模板的限制,获得更高的召回率。其次,在词语相似度计算研究中,本文提出一种基于多源知识融合的词语相似度计算方法。首先,分别基于语词知识体系(同义词词林、知网)、大规模语料资源(微博语料、新闻语料)、搜索引擎资源(百度、必应),通过单独的算法计算词语相似度;其次,基于支持向量机回归机(Support Vector Regression,SVR)集成多个算法的计算结果,获得最终的词语相似度。实验结果表明,当训练集数据量足够大时,本文方法在性能及算法稳定性上,都要远高于其他几种单独的算法。最后,在概念层次体系构建研究中,本文通过Kmeans聚类算法获得概念间的层次关系。由于不同聚类算法获得的聚类结果存在较大差异,因此,本文对比相似性传播算法(Affinity Propagation,AP)、层次聚类算法(Hierarchical Clustering),通过聚类评估量化评价其聚类效果,并据此确定合适的聚类算法。本文将基于UGC的概念层次体系与基于专业领域语料库的概念层次体系进行融合,最终得到的该领域的概念层次体系。为了评价该概念层次体系的质量,本文使用外部评估方法,即通过应用来评价概念层次体系的质量。通过情感分析任务的实验表明,基于概念层次体系扩充情感向量空间维度,可以显著提升情感分析系统的性能,同时也证明本文构建的概念层次体系的有效性。
|
|
|
|
1 |
胡江滔,汪卫,周傲英;基于抽样的概念层次挖掘算法[J];计算机应用与软件;2001年03期 |
2 |
温春;石昭祥;张霄;;本体概念层次获取方法综述[J];计算机应用与软件;2010年09期 |
3 |
李颖,丁华东,许世蒙,罗九林,黄曾阳;概念层次网络中对偶性设计[J];装甲兵工程学院学报;2002年01期 |
4 |
王丽珍,周丽华,陈红梅;基于概念层次树的例外挖掘方法研究[J];计算机工程与应用;2002年11期 |
5 |
杨学兵,蔡庆生;连续值属性的概念层次自动提取算法[J];华中科技大学学报(自然科学版);2003年12期 |
6 |
温春;石昭祥;张亮;;中文领域本体概念层次获取方法对比研究[J];计算机应用研究;2009年08期 |
7 |
田凤珍;韩宪忠;陈晨;王克俭;;基于概念层次树的用户特征挖掘技术[J];微型机与应用;2011年05期 |
8 |
张锦;冯嘉礼;史小宏;;基于定性映射模型的概念层次树构建方法[J];计算机辅助工程;2006年01期 |
9 |
宣士斌;;基于概念相容性的概念树自动生成算法[J];计算机工程与应用;2007年06期 |
10 |
杨学兵;基于概念层次的关联规则挖掘算法[J];安徽工业大学学报(自然科学版);2003年04期 |
11 |
刘胜军,杨学兵,蔡庆生;关系数据库中概念层次自动提取算法研究[J];计算机应用研究;1999年12期 |
12 |
韩杰;杨洋;滕至阳;;基于概念层次网络理论的问句分析研究[J];计算机工程与设计;2007年10期 |
13 |
温有奎;文本知识分析中的概念层次网络方法[J];情报科学;2002年03期 |
14 |
韩家新;何华灿;;基于抽象度的概念层次上的推理方法[J];计算机工程与设计;2007年03期 |
15 |
姜跃;基于云有序概念层次树的时间序列距离计算模型[J];云南大学学报(自然科学版);2003年02期 |
16 |
章瑾;;大型数据库相关联的多概念层次规则的探索[J];电脑知识与技术(学术交流);2007年10期 |
17 |
李波;一种基于取样的概念层次数据挖掘新算法[J];计算机工程与科学;2002年03期 |
18 |
李波;;基于抽样的概念层次数据挖掘算法[J];计算机科学;2002年07期 |
19 |
杨引霞,谢康林,朱扬勇,左子叶;电子商务网站推荐系统中关联规则推荐模型的实现[J];计算机工程;2004年19期 |
20 |
马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期 |
|