收藏本站
《山东大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

非结构化数据的相关问题研究

郑阶财  
【摘要】:随着互联网、人工智能、机器学习等新兴技术的飞速发展,“智慧地球”、“智慧城市”等创新应用的不断推广,各种信息数据以指数级的速度持续增长,我们已进入大数据时代。当前的信息数据已经不仅仅局限于传统的结构化数据,而是呈现出海量性、异构性、高维性等相应特征,如果直接采用传统的数据集成策略,并应用于当前的大数据环境,必然导致数据集成冗余度大、数据描述不统一、数据表达准确性差等问题的出现,降低了数据集成的质量,也必然对后续的大数据分析产生不良影响,因此,如何进行有效的数据融合,消除数据冗余,统一数据实体的指向与标注,不仅是进行高质量的数据集成的关键所在,也是后续数据分析与挖掘等研究工作顺利开展的前提与保障。在“互联网+”时代,海量异构数据作为表示信息描述的主要载体,往往存在数据描述不统一的特点、数据特征表示不准确、不完全等问题。因此需要采用相应的技术手段,着重解决数据集成中的问题,例如集成数据的准确性、集成数据的统一性、集成数据服务的完整性。本文针对非结构数据集成中所存在的关键问题进行研究,根据前文描述的研究内容,本文贡献简要概括如下:(1)本文提出了基于双层SimRank的图像数据标注方法,针对数据集成中,大部分来自社交网络的图像数据标签缺失的现象,采用基于命名的实体识别技术,从用户的图像评论中抽取候选标签关键词,然后利用图像和标签在社交网络上的共现关系构建二分图,并利用基于图模型的SimRank算法进行图像标注。SimRank是一种迭代算法,为了适应大规模数据计算的要求,本文给出了双层SimRank图像标注算法的优化策略。(2)本文提出了基于整体式的实体相似度计算方法,利用了“属性特征”、“上下文”“关系”多种不同的相似性度量方法,对同一实体的不同表象进行发现,并对冗余信息进行有效简化与统一,从整体上实现了各个表象的实体统一。(3)本文提出了包含非结构化数据本身的数据特征及其相应的扩展属性的统一模型UDM(unified data model),UDM不仅能够体现数据自身的特性,还充分考虑到数据主体、数据交互、数据关联等其他数据特性,统一进行数据服务建模,为非结构化数据的统一服务奠定基础。(3)本文提出了包含非结构化数据本身的数据特征及其相应的扩展属性的统一模型UDM(unified data model),UDM不仅能够体现数据自身的特性,还充分考虑到数据主体、数据交互、数据关联等其他数据特性,统一进行数据服务建模,为非结构化数据的统一服务奠定基础。(4)本文提出了一个利用连续K近邻操作的用户个性化实时推荐索引结构PRI_KNN(Personalized recommendation index based on K-nearest neighbor),主动向用户提供符合其“偏好”的最新数据内容。考虑到用户偏好以及相应的数据内容,往往以高维数据的形式进行表示。为了避免“维度灾难”对个性化推荐的影响,我们首先采用反K近邻的相关策略,利用PRI_KNN快速寻找更新数据的目标用户,再对相应的目标用户进行数据推送服务。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 吴小芳;谢刚生;李少白;马传松;;空间数据集成与交互的发展现状及应用趋势[J];科技创新导报;2010年16期
2 韩蕊;;大数据呼唤数据集成新思维[J];互联网周刊;2013年22期
3 陈小慧;企业级工艺数据集成管理技术方案[J];机电信息;2001年10期
4 殷晓岚,付远彬,李京;企业数据集成模式的研究[J];计算机工程与应用;2002年12期
5 赵赛;陈松乔;邓莎莎;;基于规则树的Web数据集成包装器的设计与实现[J];计算机技术与发展;2006年06期
6 潘晔;任广伟;舒艳;;利用本体进行Web数据集成[J];贵州工业大学学报(自然科学版);2006年03期
7 唐桂芬;廖巍;陈荦;景宁;;面向地理数据服务的空间数据集成关键技术研究[J];计算机科学;2007年09期
8 周冰;;调查显示:数据集成获中国企业认同[J];信息化纵横;2008年08期
9 董峰;李晋宏;;企业数据集成综述[J];中国金属通报;2008年42期
10 韩明;;油田开发数据综合集成的研究[J];数字石油和化工;2009年07期
中国重要会议论文全文数据库 前10条
1 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 许国艳;王志坚;;基于主动服务的领域数据集成研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
3 胥永康;吴志杰;席传裕;岳筱玲;;基于数据拆分的数据集成技术研究[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
4 李宗华;肖道纲;彭明军;;数字武汉空间基础数据集成建库及应用[A];坚持科学发展观 推进自主创新 促进国家创新型城市建设——武汉市第二届学术年会论文集[C];2006年
5 乔慧捷;赵海军;纪力强;;生物多样性数据集成模式初探[A];第五届全国生物多样性保护与持续利用研讨会论文摘要集[C];2002年
6 张寿明;张云生;向风红;缪尔康;;异构设备数据集成实践[A];中国自动化学会全国第九届自动化新技术学术交流会论文集[C];2004年
7 张德钦;饶克锋;顾进广;;基于语义的工业联合体数据集成机制[A];全国冶金自动化信息网2014年会论文集[C];2014年
8 刘靖;刘江宁;;数据集成体系架构及其实现框架研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
9 李宗华;彭明军;;规划国土资源管理空间数据集成应用与运行机制探讨[A];2004城市规划年会论文集(下)[C];2004年
10 祝晓红;刘炜;李俊丽;;用WPF进行复杂数据集成的方法研究[A];第二十七届中国控制会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 于翔;集成即服务:面向云的数据集成[N];网络世界;2009年
2 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
3 于翔;谁碾碎了数据?[N];网络世界;2007年
4 本报记者 于翔;数据集成驱动企业实时创新[N];网络世界;2010年
5 本报记者 于翔;数据集成市场演绎“大国崛起”[N];网络世界;2010年
6 本报记者 于翔;数据集成开启云征程[N];网络世界;2010年
7 本报记者 于翔;数据集成进入快速成长期[N];网络世界;2010年
8 于翔 王翔;收复数据孤岛[N];网络世界;2007年
9 朱文;CIO希望攻克数据质量关[N];计算机世界;2008年
10 吕梁市煤炭设计研究院 张萍;浅析数据集成环境下煤炭企业管理信息系统的构建[N];吕梁日报;2012年
中国博士学位论文全文数据库 前10条
1 郑阶财;非结构化数据的相关问题研究[D];山东大学;2017年
2 张燕;Web数据集成中实体演化与关联问题研究[D];山东大学;2015年
3 鄂新华;面向服务的数据集成若干关键技术研究[D];北京邮电大学;2015年
4 朱笑尘;异质过程数据集成与修复[D];清华大学;2015年
5 刘歆;领域数据集成及服务关键技术研究[D];北京科技大学;2017年
6 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
7 张永新;面向Web数据集成的数据融合问题研究[D];山东大学;2012年
8 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
9 魏红雨;基于4G地学空间数据集成关键技术研究[D];吉林大学;2014年
10 曹顺良;生物学数据集成若干关键问题研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 翟妍伟;基于联邦的异构数据集成与交换系统研究与实现[D];西南交通大学;2015年
2 贾存鑫;链接数据技术在生物医学领域的应用技术研究[D];南京大学;2015年
3 姜玉茹;变电站数据集成与智能化应用研究[D];山东大学;2015年
4 申亚鹏;基于用户反馈的多源非结构化数据集成研究[D];浙江大学;2015年
5 李明;多元空间位置数据集成和服务方法研究[D];南京师范大学;2015年
6 李莉;保障信息系统数据集成管理工具的研究与实现[D];西安电子科技大学;2014年
7 徐喆昊;基于同义实体识别的Web数据集成[D];合肥工业大学;2015年
8 朱默;基于开源平台的高校主数据管理平台分析与设计[D];东南大学;2015年
9 张鹏;多数据库环境数据集成与转换技术研究[D];北方工业大学;2016年
10 李文杰;面向大数据集成的实体识别关键技术研究[D];东北大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026