收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不确定数据的世系管理和相似性查询

高明  
【摘要】:不确定性数据在很多应用中广泛出现,例如经济、军事、物流、金融、电信等,其表现形式多种多样,包括关系型数据、半结构化数据、图数据、流数据、移动对象数据以及无结构化的Web数据等。目前,根据应用的特点与数据形式的多样性,已经出现了多种不确定数据模型,这些模型的核心思想都源自可能世界模型。该模型从一个不确定的数据源演化出诸多确定性的可能世界实例,所有实例的概率之和等于1。尽管可以针对各个实例单独进行查询处理,合并中间结果并获取最终结果,但是可能世界实例的数量远大于不确定数据库的规模,从而导致可能世界模型在实践应用中并不可行。因此必须采用排序、剪枝等启发式技术进行优化处理以提高查询处理效率。 针对不确定数据管理的挑战,本文主要考察不确定数据查询处理的优化。主要工作分为两部分:不确定数据世系管理和相似性查询。具体的,针对数据的不确定性,研究如何通过不确定数据的世系追踪数据不确定性的来源和大小,以及对不确定性集合数据进行相似度评价,最后提出了不确定数据流上ER-topk查询的精确算法。本文的主要贡献如下: ●首先研究了如何利用数据世系追踪数据不确定性的来源和大小。基于PHP-tree数据结构,近似描述不确定数据的How世系,避免了追踪数据演化的中间结果,同时也避免了运用可能世界模型对不确定性数据进行建模;基于PHP-tree,可以追踪日标数据的不确定性来源,以及对目标数据的不确定性大小进行评价。 ·针对不确定集合,定义了不确定性集合的期望相似度算子,提出了不确定集合期望相似度的精确和近似算法。具体的,运用动态规划方法在多项式时间内给出不确定集合期望相似度的精确算法,而不必扩展可能世界实例;考虑到精确算法需要耗费大量的时间和空间,为克服可扩展性差的缺点,我们运用Monte-Carlo方法在线性时间内近似计算不确定集合的期望相似度。 ●考虑到不确定集合相似度的多样性,又评价了不确定性集合的概率阈值相似度。给出了不确定集合的概率阈值相似度算子的定义,以及精确和近似算法。运用动态规划方法在多项式时间内给出不确定集合概率阈值相似度的精确计算过程;同时考虑到概率阈值相似度的计算结果是一个概率值,当用户给定相似度的阈值,利用尾概率不等式提出了一个线性时间内的剪枝规则,大大加快了精确解的计算过程;考虑到没有被剪枝的不确定集合的精确算法需要耗费大量的时间和空间,我们运用Monte-Carlo方法近似计算不确定集合的概率阈值相似度。 ●基于界标模型提出了不确定数据流响应ER-topk查询的精确算法,该方案将所有不断到来的元组分成两组,一组包含ER-topk查询的候选结果,剩下的元组包含在另外一组中,我们分别用数据结构domGraph和probTree来维护这两类元组;基于期望的线性性,我们避免了扩展所有可能世界实例,在次线性时间内给出查询的结果。 本文研究了不确定数据的查询处理,主要工作包括不确定数据世系管理和不确定数据的相似性查询,通过大量的实验验证了提出算法的效率和可扩展性等。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邱均平;王菲菲;;时间序列相似性查询与索引方法研究[J];中国索引;2009年04期
2 曾海泉,宋扬,申展,胡运发;基于互关联后继树的时间序列相似性查询[J];计算机研究与发展;2004年02期
3 董道国;刘振中;薛向阳;;VA-Trie:一种用于近似k近邻查询的高维索引结构[J];计算机研究与发展;2005年12期
4 董道国,梁刘红,薛向阳;VAR-Tree——一种新的高维数据索引结构[J];计算机研究与发展;2005年01期
5 吴学雁;黄道平;莫赞;;基于极值点特征的时间序列相似性查询方法[J];计算机应用研究;2010年06期
6 余小高;;P2P环境中k最近邻搜索算法研究[J];微电子学与计算机;2009年09期
7 左利云;;基于数据流相似查询的SCT整合优化算法[J];茂名学院学报;2009年06期
8 夏宇;朱欣焰;周春辉;;基于特征的空间数据相似性查询研究[J];计算机工程与应用;2007年25期
9 王考杰;郑雪峰;宋一丁;;一种基于滑动窗口的数据流相似性查询算法[J];计算机科学;2010年10期
10 肖辉;曾海泉;胡运发;;The OR-Tree:一种用于空间对象序列查询的动态索引[J];模式识别与人工智能;2005年05期
11 李嘉;蓝秋萍;费立凡;;适用于遥感光谱数据集的高维索引技术研究[J];计算机工程与应用;2009年21期
12 李薇;孙洪林;;水文时间序列相似性查询的分析与研究——以漯河站、何口站汛期降雨量相似性查询为例[J];水文;2009年06期
13 毛红保;冯卉;杨建华;刘亚军;;面向相似性查询的时间序列距离度量方法述评[J];计算机工程与设计;2010年19期
14 余小高;余小鹏;;基于P2P的自适应分布式k最近邻搜索算法[J];计算机工程;2009年19期
15 毛红保;张凤鸣;冯卉;吕慧刚;;基于参数重要度的多元时间序列相似性查询[J];计算机工程;2009年24期
16 戴东波;汤春蕾;邱伯仁;熊赟;朱扬勇;;一种优化多重过滤的序列查询算法[J];计算机研究与发展;2010年10期
17 周项敏,赵相国,王国仁;通过精练查询空间改善高维数据的相似性查询[J];东北大学学报(自然科学版);2005年09期
18 杜奕;李纪锋;;基于分段时间序列的试井数据相似性查询算法[J];上海第二工业大学学报;2008年02期
19 夏宇;朱欣焰;;高维空间数据索引技术研究[J];测绘科学;2009年01期
20 毛红保;张凤鸣;冯卉;吕慧刚;;多元飞行数据相似模式查询[J];计算机工程与应用;2011年16期
中国重要会议论文全文数据库 前10条
1 雷小锋;谢昆青;金星星;夏征义;;基于时空邻域的多粒度轨迹相似性查询[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 邱均平;王菲菲;;时间序列相似性查询与索引方法研究[A];2009年中国索引学会年会暨学术研讨会论文集[C];2009年
3 李博多;李建中;高宏;彭丽萍;;一种支持大规模稀疏数据表上相似性查询的索引设计[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 戴晨昀;钱卫宁;凌波;周傲英;;P2P系统中面向相似性查询的节点聚类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 余小高;;P2P环境中k最近邻搜索算法研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
6 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
8 周帅印;李晨;王勇;张阳;;FDTU:针对不确定数据的快速决策树生成算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
10 李建军;于红玉;孙秀英;;多焦视网膜电图振幅概率图的初步研究[A];中华医学会第十二届全国眼科学术大会论文汇编[C];2007年
中国博士学位论文全文数据库 前10条
1 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
2 袁培森;基于LSH的Web数据相似性查询研究[D];复旦大学;2011年
3 肖辉;时间序列的相似性查询与异常检测[D];复旦大学;2005年
4 刘建伟;流数据查询系统结构及模式查询算法的研究[D];东华大学;2005年
5 戴东波;序列数据的相似性查询研究[D];复旦大学;2009年
6 郭建奎;数据流相似性查询及模式挖掘研究[D];复旦大学;2008年
7 杜奕;时间序列挖掘相关算法研究及应用[D];中国科学技术大学;2007年
8 程起敏;基于内容的遥感影像库检索关键技术研究[D];中国科学院研究生院(遥感应用研究所);2004年
9 李嘉;基于内容的多光谱遥感影像检索若干关键技术研究[D];华中科技大学;2009年
10 张天成;实时数据流相关性分析与挖掘技术研究[D];东北大学;2008年
中国硕士学位论文全文数据库 前10条
1 郑凯;数据流上的相似性查询及优化[D];复旦大学;2009年
2 何佳珍;不确定数据的PU学习贝叶斯分类器研究[D];西北农林科技大学;2012年
3 吴德;水文时间序列相似模式挖掘的研究与应用[D];河海大学;2007年
4 杜洪波;时间序列相似性查询及异常检测算法的研究[D];沈阳工业大学;2008年
5 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
6 辛国娟;视频数据挖掘的方法研究及应用[D];上海交通大学;2007年
7 张星;不确定数据的PU学习决策树研究[D];西北农林科技大学;2012年
8 何丽娟;无线传感器网络中不确定数据处理的研究[D];安徽工程大学;2011年
9 高聪;Deep Web下不确定数据处理的研究[D];东北大学;2008年
10 覃香菊;不确定数据上的关联分类器[D];西北农林科技大学;2011年
中国重要报纸全文数据库 前2条
1 编译 刘光强 许继楠;风险管理智能了,金融创新不怕了[N];中国计算机报;2010年
2 杭讯;低碳烯烃和芳烃石化产品的注册联合体在正轨上运行[N];中国国门时报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978