收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文本相似度计算核函数的构造及其在分布式信息检索中的应用研究

王秀红  
【摘要】:随着互联网、数字图书馆以及其它信息资源的快速发展,异构形式的数据项正快速遍布于全球范围的特定的节点中,这些节点相互连接形成分布式处理系统。如何从信息的海洋中以较低的时间开销、较高的精准率和召回率提供给检索用户所需要的信息是一个极富有挑战性的问题。在信息检索(Information Retrieval,简称IR)领域,从空间上分布的数据服务器中检索数据就是分布式信息检索(Distributed Information Retrieval,简称为DIR)。DIR需要解决两个主要问题是资源选择和结果融合。文本相似度计算技术研究的是如何计算或比较两个文本的相似性,是在语言学、心理学和信息理论等领域内被广泛研究的一个重要课题,也是信息检索、数据挖掘、知识管理、人工智能等领域的基本问题,是自然语言处理的一项基础技术,也是复制检测、新颖检测和信息过滤研究的重要内容。提高计算的精准率和召回率是文本相似度计算方法研究的出发点和目标。如何在分布式环境下尽可能快速、准确、全面地检索到相似的文本,是本文研究的主要内容,主要研究工作包括: (1)分布式信息检索的资源选择研究。资源选择又叫服务器选择、集合选择、数据集选择或数据库选择,是分布式信息检索中的一个基本问题。本文考虑到不同的数据资源(数据集)之间存在的覆盖问题,基于集合覆盖理论,针对提问Q的检索结果在融合排序后位置的不同,对其赋以不同的权值,用来计算该项检索结果对其所在的数据集的贡献。若检索结果在先选的数据集中出现过,,则不再计入后选的数据集得分内。通过加权求和得到待选数据集的得分,从而确定资源选择的先后顺序。由此优选出的资源集合可用于检索与问题Q同类或类似的提问Q’,缩短由于数据库之间的覆盖而重复检索的时间。 (2)构造适于文本相似计算的混合核函数,并将其应用在DIR结果融合。基于改进的潜在语义核(LSK)和复合方差核(ANOVA)构建了新的复合核(CLA核)用于计算文本相似度。此外提出一种新DIR融合方法,通过直接计算检索结果和提问之间相关度来对检索结果进行融合研究。将构造的新复合核用于DIR结果融合,实验结果表明:CLA核的融合精度和召回率分别仅略次于LSK和ANOVA核,但其综合评价指标F1优于其它核;其融合精度比经典的算法Round-robin、ComMNZ、Bayesian、Borda、 SDM、MEM和regression SVM等分别提高了16.79%、30.73%、20.37%、24.17%、14.25%、13.50%和7.53%。CLA核具有较好的融合表现,适用于DIR结果融合。 (3)构造全新的文本相似度计算核函数,并将其应用于DIR结果融合中。为了进一步提高文本相似计算的表现,构造了全新的核函数S_Wang核函数。结合文本相似计算过程中的具体实际,将待比对的文本表示成向量,考虑通过两向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适合文本相似度计算的新的核函数。并根据Mercer定理证明了所构造的函数可以作为核函数。实验验证了新造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核,潜在语义核(LSK)以及CLA复合核。S_Wang核适用于文本相似度计算。 (4)分布式信息检索评价方法研究。资源选择和结果融合是DIR研究的两个主要步骤。检索的时间开销、精准率和召回率是IR也是DIR检索的三个主要指标。本文提出一种基于多变量的偏微分方程模型,从拉普拉斯方程出发,提出针对DIR的资源选择和结果融合的时间开销、精准率和召回率三指标的评价方法。实验评价了多种现有的资源选择和结果融合方法,验证了模型的有效性。基于50个主题的TREC实验结果表明该多变量偏微分方程模型在DIR评价方面有很好的表现和实际的应用。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 史豪杰;邢清华;刘付显;;基于引入概率的范例匹配新方法[J];计算机工程与应用;2009年10期
2 王煜;白石;王正欧;;用于Web文本分类的快速KNN算法[J];情报学报;2007年01期
3 赵俊杰;胡学钢;;基于文本分类的文档相似度计算[J];微型电脑应用;2008年12期
4 郝祥根;杨思春;高远飙;张伟;;基于向量空间模型的中文问答系统研究与实现[J];苏州科技学院学报(自然科学版);2009年01期
5 王波;薛媛媚;;网上销售常问问答系统的构建[J];软件导刊;2009年02期
6 袁正午;李玉森;张雪英;;基于属性的文本相似度计算算法改进[J];计算机工程;2009年17期
7 缪勇;宋斌;;基于Web日志的典型匿名用户路径挖掘研究[J];计算机应用;2009年10期
8 张爱琦;左万利;王英;梁浩;;基于多个领域本体的文本层次被定义聚类方法[J];计算机科学;2010年03期
9 江耿豪;;基于VisualProlog的自动答疑系统设计与实现[J];现代教育技术;2010年07期
10 苏慧群;;XML文档数对序列模型与结构相似度算法研究[J];湖南广播电视大学学报;2010年03期
11 聂规划;章志龙;王锐;;基于语义词典的电子商务推荐系统模型研究[J];情报杂志;2009年S2期
12 周俏丽;蔡东风;吕德新;朱江涛;吴英泽;;基于语义相似度的句法歧义结构消解[J];沈阳航空工业学院学报;2006年01期
13 赖擎;曹力立;;受限领域中文问答系统的中心句识别的研究[J];计算机时代;2006年02期
14 张亮;冯冲;陈肇雄;黄河燕;;基于语句相似度计算的FAQ自动回复系统设计与实现[J];小型微型计算机系统;2006年04期
15 裘伟;;一种基于相似度及复杂度的人眼定位算法[J];苏州大学学报(工科版);2006年06期
16 俞敏;杨力;;实例推理在光学加工参数优化中的研究与应用[J];红外与激光工程;2006年S2期
17 王少鹏;孙敏;;基于网页标识的图像内容过滤防火墙的研究[J];计算机工程与应用;2008年01期
18 张国敏;殷建平;祝恩;毛玲;;基于极坐标区间运算的2D形状匹配[J];计算机研究与发展;2008年S1期
19 陈万勇;余日泰;万健;;基于余弦相似度分组的P2P搜索机制[J];计算机工程;2009年12期
20 操牡丹;何前锋;王柏;;中医药方剂相似度模型[J];计算机工程;2009年16期
中国重要会议论文全文数据库 前10条
1 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
2 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
3 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 沈君;马生全;;两种新的相似性度量在模糊推理中的应用[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
7 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
9 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
2 何川;分布式信息检索中的若干重要问题研究[D];北京邮电大学;2012年
3 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
4 薛云皎;基于智能主体的分布式构件库相关技术研究[D];复旦大学;2006年
5 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
6 史先敏;中国栽培灵芝三萜成分的高效液相指纹图谱研究[D];南京农业大学;2008年
7 李进;两性霉素B有关物质的质量研究与多元组分药物的质量控制和分析[D];中国协和医科大学;2007年
8 王吉华;基于特征函数的产品造型进化设计研究[D];山东师范大学;2009年
9 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年
10 卢湖川;人脸识别中几个关键算法研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 王德刚;智能答疑系统的设计[D];内蒙古大学;2008年
2 张宇;关系数据库中基于元组的关键词查询研究[D];燕山大学;2009年
3 张平生;计算机辅助飞机协调图表设计技术研究[D];西北工业大学;2007年
4 郭竞;三维地形模型检索系统设计与实现[D];西北大学;2007年
5 王婷;OWL本体之间概念相似度计算研究[D];河海大学;2007年
6 蔡元哲;本体实例学习关键技术的研究[D];中国人民大学;2008年
7 刘岩;基于概念图的中文语义分析系统的研究与实现[D];西北大学;2008年
8 王少鹏;基于网页标识的图像内容过滤防火墙的设计[D];山西大学;2008年
9 王利局;基于语义分析树核的句子相似度计算[D];大连理工大学;2008年
10 赵火军;基于引文链的知识元挖掘方法研究[D];西安电子科技大学;2009年
中国重要报纸全文数据库 前10条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
2 俞志新 李水根;创新——中药跨出国门的基础[N];健康报;2006年
3 记者 洪奕宜;网站特设专区 委员“开博议政”[N];南方日报;2007年
4 田振坤 王连芝;黑龙江中医药大学建立蔓荆子药材指纹图谱[N];中国医药报;2005年
5 深圳商报记者 陈晓薇;提案从提交到办理电子监控实时跟踪[N];深圳商报;2007年
6 崔昕;浙大中药质控技术取得创新性成果[N];中国医药报;2002年
7 何建昆;复方丹参滴丸指纹图谱分析及质量控制技术通过鉴定[N];科技日报;2004年
8 曹凤兰 孟杰;创建先进的中药质量检测方法[N];科技日报;2004年
9 记者 白京丽;指纹图谱研究走出象牙塔[N];中国医药报;2002年
10 吴铭;天士力推出多元指纹图谱检测法[N];中国医药报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978