收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

信息检索中top-k问题的并行算法及优化研究

吴超  
【摘要】:随着互联网络的发展,以文本形式存储在网络上的信息呈现爆炸式增长。大量积累的动态信息阻碍了人类对它的有效利用。作为大规模文本集合上信息检索工具的搜索引擎在诞生之初就成为解决网络信息访问的重要工具,并在其后的发展中占据着人类信息生活越来越重要的位置。针对某一查询,搜索引擎可能命中数以亿记的查询结果,而用户关心的往往只是符合其查询要求的最优的数十个结果。如何从搜索引擎命中的大量结果中,快速、准确地找出最符合查询需求的结果集合,构成搜索引擎设计的一个关键问题——top-k查询问题。 Top-k查询针对分散在不同信息源中的对象,根据聚合函数找出其中分数最优的k个对象。其在信息检索领域具有广泛的应用,并且是影响搜索引擎性能的关键组件。为了提升top-k查询的数据处理能力,加速top-k查询的计算过程,本文以分布式存储系统和共享式存储系统为目标平台,研究top-k查询并行算法设计和性能优化的关键技术。主要的研究工作分为三个部分:一是研究分布式存储平台上的top-k查询并行算法,以解决海量数据的查询问题;二是研究基于任务并行的top-k查询处理,优化查询算法的数据访问开销;三是研究多核处理器平台上top-k查询的计算性能优化,以提高查询的速度满足用户的实时性要求。本文对于并行查询算法和性能优化技术的研究,可以充分利用现有并行计算机的处理能力,解决top-k查询中海量数据处理和实时性相关问题,具有重要的学术价值和应用价值。本文的主要研究成果,贡献和创新点可以概括为以下几点: 1.提出处理海量数据的top-k查询并行算法由于top-k查询处理的数据规模日益扩大,单计算机的存储系统难以满足应用需求。本文提出一种数据划分方法,将大规模数据划分到分布式并行机的存储系统上,并针对这种数据划分设计了基于消息传递的top-k查询并行算法,而后通过缩短通信消息长度、减少通信次数等手段进一步优化了该并行算法。 2.提出减小数据访问开销的top-k查询并行算法Top-k查询是一种I/O密集型计算问题,数据访问的开销占了总开销的很大比重。本文研究了常用top-k查询算法对数据源的访问方式,提出一种多策略的并行算法减小查询的数据访问开销。通过算法分析,得出了并行算法数据访问开销优于原有算法的必要数值条件,并且给出了并行算法访问开销的一个上界。 3.优化多核平台上top-k查询的计算性能随着研究的深入,top-k查询算法被设计得越来越复杂,大部分算法都通过引入额外计算来加快算法终止从而减少数据访问上的开销。在实际的查询程序中,计算部分的时间开销在总开销中所占的比重越来越大。本文在多核处理器平台上研究了禁止随机访问No Random Access(NRA)程序的性能优化问题。通过调整数据结构和使用OpenMP多线程并行,有效的优化了程序的数据级并行和线程级并行,加快了查询程序在多核处理器平台上的运行速度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 贺瑞容,吴恩华;物理场图形生成的多处理机并行算法的研究和实现[J];计算机学报;1992年01期
2 曾泳泓,蒋增荣;GFT及离散卷积的并行算法及其实现[J];数值计算与计算机应用;1993年01期
3 张可军;陈福接;;求解线性丢番图方程(组)的串、并行算法[J];计算机工程与科学;1993年01期
4 朱和;李晓梅;;计算几何与并行算法[J];计算机工程与科学;1993年03期
5 杨克复;;并行处理技术[J];沈阳理工大学学报;1993年01期
6 任春丽,徐甲同,王俊平;实对称三对角矩阵特征值的一种并行算法及实现[J];西安电子科技大学学报;1999年02期
7 徐娟,汪懋华;用于图象处理的小波变换并行算法[J];小型微型计算机系统;1999年01期
8 董科军,刘让苏,郑采星,胡庆丰,何新芳;液态金属凝固过程分子动力学模拟的并行算法研究[J];计算机工程与科学;2000年03期
9 杨克复,马忠胜;非线性优化的并行算法[J];沈阳工业学院学报;2000年02期
10 易法令,李庆华,杨薇薇;Delaunay三角剖分并行算法研究及实现[J];小型微型计算机系统;2001年04期
11 重剑无锋;;并行算法中指针转移技术解析[J];中文信息;2003年10期
12 陈静瑾,邓雅诺,马文龙,余宁梅;USB2.0中CRC码的并行算法及硬件实现[J];西安理工大学学报;2004年03期
13 陈宏建,陈崚,李开荣,陈莉莉;RAPWBN的矩阵乘法并行算法[J];计算机工程;2004年23期
14 谭国律,陈博政;关于矩阵最优路径算法的探讨[J];计算机应用与软件;2005年01期
15 周益民,孙世新,田玲;一种实用的所有点对之间最短路径并行算法[J];计算机应用;2005年12期
16 李晓梅;吴建平;;Krylov子空间方法及其并行计算[J];计算机科学;2005年01期
17 李云强;;数据挖掘中关联规则算法的研究[J];大众科技;2006年01期
18 隽志才;倪安宁;贾洪飞;李杰;;两种策略下的最短路径并行算法研究与实现[J];系统工程理论方法应用;2006年02期
19 王元元;曾建潮;谭瑛;;基于环形结构带缓存器模型的并行微粒群算法[J];微电子学与计算机;2006年09期
20 唐俊奇;;多处理机中傅里叶变换的并行算法及实现[J];淮海工学院学报(自然科学版);2006年03期
中国重要会议论文全文数据库 前10条
1 高旭东;殷保群;唐昊;周亚平;奚宏生;;一类连续时间Markov控制过程最优平稳控制策略的并行求解算法[A];第二十一届中国控制会议论文集[C];2002年
2 王元元;曾建潮;谭瑛;;基于并行计算模型的并行微粒群算法的性能分析[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
3 王轶;席裕庚;;并行的极点配置算法及其新构想[A];1994年中国控制会议论文集[C];1994年
4 杜云飞;王攀峰;富弘毅;周海芳;杨学军;;矩阵LU分解的容错并行算法设计与实现[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
5 曹淑瑛;郭圣权;樊水康;;并行极点配置算法探讨[A];1995年中国控制会议论文集(下)[C];1995年
6 王韶娟;曾国荪;;分形维数的一个并行算法[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 陈宁涛;王能超;施保昌;;生物多序列比对的并行算法[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 孙明珠;王鹏;邱枫;杨玉良;;自洽场理论的实空间求解方法的并行算法以及在嵌段共聚物相分离中的应用[A];2005年全国高分子学术论文报告会论文摘要集[C];2005年
9 李朝鹏;李肯立;;基于分层聚类的并行数据预处理算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
10 姜弘道;余天堂;;有限元并行分析的进展——第九届全国结构工程学术会议特邀报告[A];第九届全国结构工程学术会议论文集第Ⅰ卷[C];2000年
中国博士学位论文全文数据库 前10条
1 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
2 韩丛英;若干优化问题的并行算法研究[D];上海交通大学;2008年
3 周杰;合成孔径雷达数据处理应用的细粒度并行算法与结构[D];国防科学技术大学;2010年
4 白洪涛;基于GPU的高性能并行算法研究[D];吉林大学;2010年
5 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
6 谭国真;时变、随机网络最优路径算法及其应用研究[D];大连理工大学;2002年
7 王建;并行最优化算法与软件设计及数值软件移植[D];中国科学院研究生院(软件研究所);2005年
8 郭荣祥;基于VEGA网格的Dixon结式分布式计算[D];中国科学院研究生院(成都计算机应用研究所);2006年
9 郝艳华;超椭圆曲线密码体制中标量乘法的快速算法研究[D];西安电子科技大学;2007年
10 仝辉;稀疏矩阵积和式与积和多项式的并行算法[D];清华大学;2006年
中国硕士学位论文全文数据库 前10条
1 辛师勃;并行信号处理系统研究[D];南京理工大学;2004年
2 吴青;基于地理信息系统的配电网优化规划的研究[D];广西大学;2004年
3 刘淼;基于平衡分割的并行序列比对[D];西安电子科技大学;2007年
4 潘海琳;高拱坝体形优化决策系统研究[D];河海大学;2006年
5 焦建英;求解微分方程的区域分解两重网格算法[D];西安理工大学;2007年
6 游聪伟;基于GPU平台的KLU并行算法的研究:对角线块的LU分解[D];内蒙古大学;2011年
7 于战华;跨声速欧拉方程并行算法研究及应用[D];南京航空航天大学;2004年
8 平晓慧;最短路径问题的并行算法研究[D];大连理工大学;2006年
9 孙超;快速分形图像压缩并行算法研究与实现[D];曲阜师范大学;2011年
10 彭强;基于并行Boost图库的单源最短路径并行算法的研究[D];华南理工大学;2010年
中国重要报纸全文数据库 前10条
1 ;并行算法研究进展[N];中国计算机报;2004年
2 李讯 特约记者 刘程 本报记者 于莘明;银河有颗闪亮的星[N];科技日报;2005年
3 ;名师上讲台:每堂课都是精心编排的演出[N];科技日报;2006年
4 英特尔微处理器技术实验室主任工程师 Anwar Ghuloum;并行编程为什么这么难?[N];中国计算机报;2007年
5 清华大学计算机系 薛巍;电网仿真考验高性能计算[N];计算机世界;2006年
6 陈文光 郑纬民;高性能计算的三大研究领域[N];计算机世界;2006年
7 曙光信息产业有限公司研发中心 温鑫;并行计算软件开发概述[N];中国计算机报;2007年
8 本报记者 赵波 本报特约记者 刘程 本报通讯员 章立丁;一位巾帼学者的无悔征程[N];解放军报;2005年
9 新华社记者 奚启新 本报记者 廖文根;三次选择 无怨无悔[N];人民日报;2005年
10 陈翔;性能优化只能救火[N];中国计算机报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978