收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web下不确定数据处理的研究

高聪  
【摘要】:随着Web相关技术的日益成熟和Deep Web所蕴含信息量的快速增长,通过对Web数据库的访问逐渐成为获取信息的主要手段,对Deep Web的研究也越来越受到人们的关注。Deep Web蕴藏了更加丰富,更加“专业”(专注于某一领域)的信息。为了帮助人们快速、准确地利用Deep Web中的海量信息,数据集成成为Deep Web研究领域的一个重要方向。 在Deep Web数据集成过程中,数据级、映射级、查询级都会产生不确定数据。首先,由于系统处理的数据多种多样,有些数据本身就具有不确定性,并且从文本或半结构化的数据源中抽取信息等技术都会产生不确定数据;其次,当数据源与中介模式进行映射时,也很有可能产生不确定性的映射关系;最后,用户查询的关键字和结构化查询内容之间对应关系也同样不确定。 面对海量的不确定数据,为了满足用户得到感兴趣的信息的要求,本文提出了在Deep Web下不确定数据的处理模型。即首先分析不确定数据的不同来源,对相似度计算方法分类,选择合理的匹配相似度算法或语义相似度算法来得到属性值对应的概率值。再利用数据挖掘相关知识来获得用户感兴趣的信息。关联规则挖掘是数据挖掘一个重要的研究方向,目前大多数的算法集中于提高挖掘包含确定数据的事务频繁集效率。 本文改进经典的Apriori和FP-growth数据挖掘算法,得到UD-Apriori算法和UD-FP-growth算法进行不确定数据的处理。其中,UD-Apriori算法是使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。同时利用Apriori性质的反单调性,压缩运算的时间和空间。UD-FP-growth算法继承了FP-growth算法,采用分而治之的策略。该算法基本思想是将整个数据库压缩表示成树结构UD-FP-tree,并将频繁模式挖掘过程转化为递归产生条件子树的过程。 UD-Apriori算法和UD-FP-growth算法能高效挖掘不确定数据频繁集,发现不确定数据之间的关联关系,为数据库中缺失的信息提供参考数据,为用户从未知到已知提供更多信息。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 丛丹,王俊普,杨文,张绍一;一种新的关联规则的高效挖掘算法[J];计算机应用研究;2003年11期
2 陶多秀;吕跃进;邓春燕;;基于粗糙集的多维关联规则挖掘方法[J];计算机应用;2009年05期
3 蒋建军;王以群;;农村社会保障体系数据流关联规则挖掘[J];计算机工程;2009年17期
4 张秀玉;基于现有数据挖掘结果的关联规则更新算法[J];闽江学院学报;2005年05期
5 陈金玉,樊兴华,曹长修;序列模式的一种挖掘算法[J];重庆大学学报(自然科学版);2001年01期
6 涂志云,林齐宁,陈玥;F150交换机告警关联规则的研究[J];电信科学;2002年01期
7 徐健辉;生成频繁项集的逻辑“与”运算算法[J];计算机应用;2004年11期
8 张伟,郑涛,李辉;一种并行化的分组关联规则算法[J];计算机工程;2004年22期
9 胡慧蓉;基于关系矩阵的关联规则增量式更新[J];现代计算机;2005年10期
10 胡慧蓉;王周敬;;基于关系矩阵的关联规则增量式更新[J];计算机与信息技术;2005年06期
11 邵泳兵;;基于改进的关联规则的挖掘系统的实现与应用[J];福建电脑;2007年07期
12 范平;梁家荣;李天志;巩建闽;;基于二进制的关联规则挖掘算法[J];计算机应用研究;2007年08期
13 赵艳芹;曹阳;;一种高效的Apriori改进算法[J];黑龙江科技学院学报;2007年06期
14 赵艳芹;付喜辉;王光辉;;基于Apriori挖掘算法的改进研究[J];计算机与现代化;2008年05期
15 张诤;王惠文;;一种高效的并行频繁集挖掘算法[J];计算机工程;2008年11期
16 安立奎;韩丽艳;张旭;;基于向量的Apriori的C++算法实现[J];辽宁工业大学学报(自然科学版);2009年01期
17 杨晓;张迎新;;Apriori算法在消费市场价格分析中的研究与应用[J];北京工商大学学报(自然科学版);2009年03期
18 巫红霞;;基于改进的Apriori算法的教学质量分析[J];吉林师范大学学报(自然科学版);2009年04期
19 刘丽萍;;关联规则在银行业务中的应用[J];电脑学习;2010年03期
20 张秀玉;;基于现有数据挖掘结果的关联规则更新算法[J];福建信息技术教育;2005年03期
中国重要会议论文全文数据库 前10条
1 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
8 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
2 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
3 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
4 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
5 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
6 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
7 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
8 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
9 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
10 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 高聪;Deep Web下不确定数据处理的研究[D];东北大学;2008年
2 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
3 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
4 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
5 邓烨;面向特定领域的Deep Web数据自动抽取[D];中国海洋大学;2012年
6 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
7 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
8 刘明建;不确定数据的代价敏感决策树分类器研究[D];西北农林科技大学;2012年
9 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
10 张旭;面向Deep Web响应页面的模式识别的研究[D];东北大学;2008年
中国重要报纸全文数据库 前10条
1 本报特约记者 陆金玉 本报记者 李海明;有了好人刘卫民,社区矛盾纠纷归了零[N];江苏法制报;2011年
2 编译 刘光强 许继楠;风险管理智能了,金融创新不怕了[N];中国计算机报;2010年
3 本报记者 王刚;水利事业:润泽万民灌良田[N];祁连山报;2007年
4 王取发;一年可节约费用上千万[N];中国水运报;2008年
5 记者 任小昌;中共广元市委五届十次全会隆重召开[N];广元日报;2008年
6 梁晶;“成都故事”演绎公共文化品牌[N];中国文化报;2007年
7 王取发;长江航道将全线使用太阳能一体化航标灯[N];中国交通报;2008年
8 记者 文毅;共商发展大计 展望美好未来[N];广元日报;2009年
9 沈旭 王兆祥;旬烟开创老干党支部工作新局面[N];经理日报;2002年
10 杭讯;低碳烯烃和芳烃石化产品的注册联合体在正轨上运行[N];中国国门时报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978