收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

信息网络中的相似度搜索问题研究

张明西  
【摘要】:现实生活中存在各种类型的实体,实体之间的相互联系共同构成了大规模的、互联的、复杂的交互网络,这些网络被统称为信息网络。信息网络实体之间的链接关系蕴涵着丰富的语义信息,分析这些信息有助于发现更多有价值的潜在知识。随着信息网络逐渐呈现大规模化和复杂化,设计开发一种有效的软件程序去探索网络潜在数据结构显得更加必要。 信息网络方面的研究工作涉及到很多领域,如聚类、社区挖掘、离群点检测、相似度搜索等。相似度搜索作为信息网络研究中的一个重要方向,在近年已经受到了广泛关注。对于给定的查询实体,相似度搜索的主要任务是研究如何从信息网络中找到top-k个最相似的实体。相似度搜索问题研究对于很多实际应用具有现实意义,如推荐系统、链接关系预测、近似查询等。传统相似度搜索方法依据网络全局信息计算实体相似度,需要很高的时间开销和存储开销,不适用于大规模信息网络,SimRank、 PSimRank、P-Rank等。 具有X-Star模式的信息网络(简称X-Star网络)是一种重要类型的信息网络,在现实生活中越来越普遍。X-Star网络包括中心实体和属性实体,实体之间的链接关系包括中心实体之间的链接关系、中心实体与属性实体之间的链接关系。本文围绕X-Star网络中的相似度搜索问题展开研究。X-Star网络中的相似度搜索问题研究的主要任务是根据指定的查询(中心实体)找到top-k个最相似的中心实体。在X-Star网络中,相似的中心实体通常指向相似的属性实体或被相似的属性实体指向。基于这种直观意义,本文提出一种X-Star网络中的相似度搜索方案,针对相似度计算的效率和存储、在线查询处理的执行效率、相似度计算的精确度等几个方面存在的问题展开研究。本文主要研究工作概括如下: 1.针对相似度计算的效率和存储问题,提出一种X-Star网络中的相似度计算模型(NetSim),解决了现有相似度计算模型中存在的计算效率低、存储开销大等问题。首先依据网络全局结构信息构建属性实体之间的链接关系,提出了属性网络构建算法。在属性网络基础上,通过借鉴SimRank基本思想计算属性实体相似度。结合属性实体相似度,提出了NetSim相似度计算模型,NetSim依据属性实体相似度计算中心实体相似度。在计算中心实体相似度时不需要物化所有网络实体之间的相似度,显著降低了相似度计算的时间开销和存储开销。在DBLP和Amazon两个数据集上做了大量的实验。实验结果显示,NetSim计算模型的时间开销和存储开销显著低于现有方法,并且具有很好的计算效果。 2.针对在线查询处理的执行效率问题,提出一种X-Star网络中的top-k相似度搜索方法,显著降低在线查询处理的执行时间。首先提出了基于NetSim的在线查询处理基本算法(NetSim-baseline),分析了NetSim-baseline算法的时间复杂度,指出影响NetSim-baseline算法时间开销的主要因素。结合分析,提出了剪枝索引(Pruning-index),给出了剪枝索引构建算法。基于剪枝索引提出中心实体相似度近似计算公式,并提出一种基于NetSim的在线查询处理剪枝算法(NetSim-pruning)。对NetSim-pruning算法的相关性质进行了大量理论分析和证明,指出了NetSim-pruning精确度损失的理论上界。NetSim-pruning在保证精确度的前提下,显著降低了在线查询处理的时间开销。在DBLP和Amazo擞据集上的实验结果显示,NetSim-pruning算法的时间开销低,并且具有很好的查询效果。 3.针对相似度计算的精确度问题,提出了一种信息网络中的相似度计算模型(E-Rank)。E-Rank计算模型的直观意义是:如果从两个实体出发能够到达共同的实体,那么这两个实体是相似的。E-Rank考虑了实体之间任意距离的相遇情况,同时强调了链接关系重要性,克服了现有方法存在的结构信息利用不充分和链接关系重要性考虑不足等问题。在Enron邮件网络和高能物理理论引文网络两个数据集上做了大量实验。实验结果显示,与现有相似度计算方法相比,E-Rank具有较高的精确度。结合E-Rank与NetSim,提出了一种新的中心实体相似度计算模型(ENetSim)。ENetSim在离线处理阶段采用E-Rank计算属性实体相似度,依据属性实体相似度计算中心实体相似度。在Amazon数据集上的实验结果显示,与NetSim相比,ENetSim提高了中心实体相似度计算结果的精确度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 路迎晨,李兵;一个计算隐马氏模型相似度的改进方法[J];信息与电子工程;2004年04期
2 徐德智;吴军庆;陈建二;赵于前;;一种基于概念信息量的相似度传播算法[J];计算机科学;2009年06期
3 叶永林;杨学强;傅海洋;;装备元数据相似度计算方法研究[J];计算机仿真;2010年04期
4 胡科强;袁志勇;周浩;唐扬;;基于距离相似度的数据关联算法分析[J];武汉理工大学学报;2011年10期
5 张德龙;杨鹏;;相似度技术在资料信息化中的应用研究[J];电子设计工程;2013年03期
6 应文豪;王士同;;基于相似度差的大间隔快速学习模型[J];计算机科学;2013年08期
7 蔡波斯;陈翔;;基于行为相似度的微博社区发现研究[J];计算机工程;2013年08期
8 马小军;赵伟;;改进相似度的分布式个性化推荐[J];计算机工程与应用;2014年04期
9 张星;刘帅;;基于空间向量的电子作业相似度检测的设计与实现[J];福建电脑;2014年02期
10 党宏社,韩崇昭,段战胜;一种基于模糊量相似度测量的模糊数据关联方法[J];武汉理工大学学报(交通科学与工程版);2003年01期
11 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
12 宋玲;马军;连莉;张志军;;文档相似度综合计算研究[J];计算机工程与应用;2006年30期
13 张凯;;基于相似度空间寻优的开集人脸识别方法[J];微型电脑应用;2010年06期
14 时睿;封化民;;一种基于名词的微博语义计算方法[J];北京电子科技学院学报;2011年04期
15 谢岳山;樊晓平;廖志芳;邱丽霞;;频率相似度算法在审计规则库中的应用[J];计算机工程与应用;2012年28期
16 施伟;傅鹤岗;张程;;基于连边相似度的重叠社区发现算法研究[J];计算机应用研究;2013年01期
17 郐媛媛;;基于语义的文本相似度算法研究[J];计算机光盘软件与应用;2014年09期
18 袁里驰,钟义信;基于相似度的词聚类算法[J];微电子学与计算机;2005年08期
19 张吉;肖阳辉;;基于相似度的双搜索运动多目标识别方法[J];弹箭与制导学报;2005年S4期
20 钱建立;吴广茂;蒋路;;基于特征相似度的科技论文元数据提取算法研究[J];微电子学与计算机;2008年08期
中国重要会议论文全文数据库 前10条
1 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 陆劲挺;路强;刘晓平;;对比相似度计算方法及其在功能树扩展中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 董刊生;方金云;;基于向量距离的词序相似度算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 刘晓平;陆劲挺;;任意功能树的物元相似度求解方法[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
5 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年
6 洪文学;王金甲;常凤香;宋佳霖;刘文远;王立强;;基于图形特征增强的相似度分类器的研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年
7 雷庆;吴扬扬;;一种基于语义信息计算XML文档相似度的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 罗辛;欧阳元新;熊璋;袁满;;通过相似度支持度优化基于K近邻的协同过滤算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
10 王健;刘衍珩;焦玉;;VANETs信任传播建模[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
中国博士学位论文全文数据库 前9条
1 张明西;信息网络中的相似度搜索问题研究[D];复旦大学;2013年
2 武威;异质数据相似度学习及其在网络搜索中的应用[D];北京大学;2012年
3 朱娜斐;基于RTT相似度的网络延迟估测理论和方法[D];北京工业大学;2012年
4 钱鹏飞;基于模糊相似度的异构本体映射、合并及校验方法的研究[D];上海交通大学;2008年
5 马海平;基于概率生成模型的相似度建模技术研究及应用[D];中国科学技术大学;2013年
6 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
7 夏云庆;IHSMTS系统中启发式类比翻译处理机制(HATM)的设计与实现[D];中国科学院研究生院(计算技术研究所);2001年
8 姜雅文;复杂网络社区发现若干问题研究[D];北京交通大学;2014年
9 张磊;个性化推荐和搜索中若干关键问题的研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 裴运亮;基于切词和语义的中文相似度研究与应用[D];电子科技大学;2011年
2 李磊;虚拟教学实验方案相似度的分析和度量[D];华中科技大学;2009年
3 张东君;网络舆情文摘生成技术中相似度与聚类的研究[D];哈尔滨工程大学;2009年
4 荆路;基于本体的文本相似度研究与实现[D];沈阳工业大学;2009年
5 刘青磊;汉语词语及句子相似度算法研究与应用[D];电子科技大学;2011年
6 伍星宇;基于相似度的社区发现算法研究[D];华中科技大学;2012年
7 刘文龙;基于加权信息熵相似度的协同过滤算法研究[D];天津师范大学;2013年
8 李培;基于《知网》的文本相似度研究[D];河北工业大学;2012年
9 严东宾;基于MULTI-TASK LASSO的英文词对间关系相似度算法[D];华东师范大学;2013年
10 史燕;基于HNC的汉语句子相似度算法的研究[D];江苏大学;2009年
中国重要报纸全文数据库 前1条
1 王伽 卫江;出入境证件照片应及时更换[N];中国国门时报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978