收藏本站
收藏 | 论文排版

基于实体属性关联及领域感知的真值发现研究与应用

吕航  
【摘要】:随着移动互联网的兴起,社会已经进入大数据时代。数据通常是描述一个对象的信息,比如珠穆朗玛峰的高度,我们可以从不同的数据源收集这些信息。然而,并非所有的数据源都是一样可信的,它们提供的数据中难免存在噪声,因此,大数据的真实性亟待分析。人工进行标记来解决数据冲突,需要消耗大量的时间和人力,这对于海量大数据显然是不现实的。因此,为了自动地从多源数据中识别正确信息,真值发现作为一个重要的基础研究课题出现了。目前,针对数据集成的真值发现技术有两个研究需要完善:(1)基于实体属性关联的真值发现问题,实体属性之间存在着各种关联,这些关联会影响真值发现结果的准确性。(2)基于领域感知的真值发现问题,数据源在不同的领域可靠性存在差异,通过细粒度划分数据源的可靠性,能进一步提升真值发现结果的准确性。本文利用数据挖掘的相关理论、技术和方法,对以上两个问题进行了系统研究,主要研究内容如下:首先,针对实体属性关联的真值发现问题,本文提出了一种基于图嵌入关联感知的真值发现模型GETD,该模型采用图嵌入的方式在真值发现的同时捕捉了实体属性间的关系。通过构建四种异构网络,包括数据源-数据源、数据源-实体属性值、实体属性-实体属性和实体属性-实体属性值网络,对数据之间的关系建模。接着将这些网络嵌入到低维空间中,使得可靠的数据源和可靠的属性值彼此接近,实体属性之间的关系反映在属性值上,从而进行真值发现推理。在两个真实世界数据集上的实验结果验证了GETD算法优于现有的真值发现算法。其次,针对领域感知的真值发现问题,本文提出了一种基于领域感知的真值发现模型DTD,该模型将数据源的可靠性进行了细粒度的划分。此外,针对现有真值发现算法性能受限于数据源统一权重初始化的问题,本文还提出了一种基于数据源领域信息丰富度的细粒度权重初始化方法。本文将基于领域感知的真值发现视为一个最优化问题,其中数据源的可靠性和声明值的可信度定义为两个未知变量,目标函数定义为声明值和真值之间的距离加权聚合,同时为了求解最优化模型,采用两步迭代更新方法,一步更新数据源权重,一步更新声明值可信度,使用不同的损失函数处理不同的数据类型。在两个真实世界数据集上的实验结果验证了DTD算法优于最新的真值发现方法。最后,设计开发了一个真值发现原型系统。该系统集成了本文提出的两种算法以及其他真值发现算法,主要实现了数据集上传、真值发现算法选择、真值发现结果下载等功能。用户可以通过该系统上传数据集,并且选择不同真值发现算法进行数据集成工作,最后下载完成真值发现步骤的数据集。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 魏恒;纪芳;李儒梦;;基于实体属性抽取的植物问答系统的研究[J];教育教学论坛;2020年01期
2 苏丰龙;谢庆华;邱继远;岳振军;;基于深度学习的领域实体属性词聚类抽取研究[J];微型机与应用;2016年01期
3 刘新安,桑毓域;档案实体属性的研究及其意义[J];浙江档案;2001年11期
4 李瑰华;;指导性案例的概念之辨[J];西北大学学报(哲学社会科学版);2010年03期
5 宋睿;陈鑫;洪宇;;探究复述策略对获取实体属性槽“源信息”的意义[J];中文信息学报;2019年07期
6 刘丽佳;郭剑毅;周兰江;余正涛;邵发;张金鹏;;基于LM算法的领域概念实体属性关系抽取[J];中文信息学报;2014年06期
7 刘施然;杨英杰;徐永杰;;装备维修保障系统实体属性建模[J];计算机与数字工程;2012年08期
8 王巍;王玉玫;;计算机仿真的实体属性动态获取技术研究[J];计算机工程与设计;2008年19期
9 肖海青,向华政,孙星明;基于实体属性特征分析的编码方案及其在MIS中的应用[J];株洲工学院学报;2004年02期
10 刘倩;刘冰洋;贺敏;伍大勇;刘悦;程学旗;;基于同义扩展的在线百科中实体属性抽取[J];中文信息学报;2016年01期
11 唐小刚;谭石强;;一种实体属性非确定的关系数据库设计方法[J];湘南学院学报;2006年02期
12 任占营;AutoCAD中几个命令的改进应用[J];露天采矿技术;2004年01期
13 王光明;钱宁芳;;数据库模型智能化构造[J];黑龙江商学院学报(自然科学版);1992年04期
14 张如良;;论人对事物属性需求的虚拟满足[J];山西财经大学学报;2009年S1期
15 宫云宝;甘亮;黄九鸣;;基于概率软逻辑模型的实体解析[J];计算机工程;2017年08期
16 李德胜;刘冬梅;;关于“新样态学校”建设的若干思考[J];内蒙古教育;2018年17期
17 刘倩;伍大勇;刘悦;程学旗;庞琳;;结合全局特征的命名实体属性值抽取[J];计算机研究与发展;2016年04期
中国博士学位论文全文数据库 前1条
1 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前12条
1 吕航;基于实体属性关联及领域感知的真值发现研究与应用[D];东华大学;2022年
2 杨峰宇;基于知识图谱的用户意图理解研究[D];国防科学技术大学;2016年
3 尚琪;特定领域实体属性关系抽取方法研究[D];昆明理工大学;2017年
4 冯二波;领域实体属性及事件抽取技术研究[D];哈尔滨工业大学;2008年
5 刘丽佳;领域实体属性关系抽取方法研究[D];昆明理工大学;2015年
6 张元波;基于实体属性信息知识图谱表示学习研究[D];吉林大学;2022年
7 何霖;面向非结构化文本的实体属性抽取关键技术研究[D];哈尔滨理工大学;2020年
8 徐江;面向语义网浏览的实体属性分组方法研究[D];南京大学;2016年
9 向鑫;基于语义逻辑推理的地理试题解答方法研究[D];哈尔滨工业大学;2015年
10 高三元;TAC-KBP评测中关键问题的研究[D];北京邮电大学;2011年
11 段赟;面向大宗商品资讯的信息抽取技术研究[D];北京邮电大学;2021年
12 杨瑞杰;基于互联网的地理实体信息获取关键技术研究[D];解放军信息工程大学;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978