收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的查询优化研究

王秉卿  
【摘要】:揭示用户的检索需求是文本检索中重要的研究课题。当前有诸多问题函待解决,例如有些查询“词不达义”,致使相关文档因为和查询词不匹配所以无法被检索出来;有时,多个查询词之间需要“分清主次”,这样就需要系统给各个查询词赋予权重,以示区别;再比如“相关反馈”探讨如何利用直接或间接的反馈信息来优化查询。 本文以优化用户的查询为目标,以机器学习算法的研究为核心展开研究工作。针对上述的问题从三个方面展开研究,(1)基于监督学习的查询扩展方法;(2)基于线性分类器的查询词权重估计方法(3)基于受限化聚类的相关反馈。 首先,针对查询词和相关文档不匹配的问题,本文提出了基于监督学习的查询扩展方法,即训练有监督模型来挑选扩展词的方法。这种方法的优点在于综合了扩展词的各种特征,因而能更准确地识别出扩展词的好坏。由于用于扩展词挑选的训练数据难于获得,作者进而提出了利用检索结果评价集自动生成训练数据的方法,并对训练数据进行了细致的分析,从而指导模型的训练过程。该方法在多组标准评测数据上获得了良好的性能,提升幅度高于传统的查询扩展方法。 其次,针对信息检索中查询的权重设置问题,本文从机器学习的角度提出一套概率分类的框架,把查询的权重估计任务转化为有监督学习模型中的参数估计任务,并且采用生成式和判别式两种模型去估计查询词的权重。在TREC标准测试集合上的实验结果表明无论是生成式模型或者是判别式模型,都能使检索系统的性能获得显著的提升。 最后,本文对用户提供的显式反馈信息进行研究,引入受限化聚类的算法,把用户的显式反馈信息作为文档聚类的限制条件,使系统获得更多高质量的伪相关文档,从而产生一个更好的查询。作者不仅在传统的标准评测数据上进行模拟实验,同时也在获得用户真实反馈的情况下,在大规模的数据集(ClueWeb09)上进行实验,这些实验的结果都一致地展示了受限化聚类算法在相关反馈中的重要作用。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐莹;杜习英;;一种基于遗传算法的查询优化方法[J];电脑知识与技术(学术交流);2007年20期
2 金正淑,訾华亮,吕东方;分布式数据库系统中的查询优化[J];东北电力学院学报;2003年04期
3 李强;;数据库查询优化的几种策略[J];太原城市职业技术学院学报;2007年06期
4 邱小玲;;数据库查询优化提高网站访问速度[J];科技广场;2008年03期
5 陈可华;;一种基于量子遗传算法的分布式异构数据库查询优化方法[J];电脑知识与技术;2009年08期
6 殷贤亮,吴海;ORDBMS的新特性及其对查询优化的影响[J];华中科技大学学报(自然科学版);2001年12期
7 郑淑丽,韩江洪,蒋建文,吴永忠;多数据库集成环境下查询优化研究[J];微电子学与计算机;2004年06期
8 周金玲;多关系子句相关的查询优化[J];现代计算机;2004年05期
9 刘书炘,李正凡;基于分布式数据库系统的一种查询优化算法[J];北京联合大学学报;2005年01期
10 师宝山;尚展垒;张勇;;高校后勤保障管理系统中的查询优化[J];科技信息;2007年09期
11 杨尚森;白琳;;分布式数据库系统中的查询优化[J];洛阳大学学报;2007年02期
12 厉鹏;;数据库的查询优化[J];电脑知识与技术(学术交流);2007年16期
13 赵威;;XML代数查询优化研究[J];黑龙江科技信息;2008年01期
14 马李明;王守桃;徐艳蕾;;SQL语句的优化在提高数据查询中的应用[J];电脑知识与技术;2008年20期
15 段博超;;分布式数据库查询优化研究[J];科技资讯;2009年08期
16 王芳;轩春青;;关系数据库的查询优化[J];黑龙江科技信息;2009年28期
17 王海燕;;浅谈数据库查询优化技术[J];电脑知识与技术;2010年32期
18 张学义;王观玉;黄隽;;基于Oralce数据库SQL查询优化研究[J];制造业自动化;2011年02期
19 沈海峰;;简论关系数据库的查询优化[J];淮北职业技术学院学报;2011年01期
20 马新娜;樊金生;段淑凤;雷宇;;嵌入式实时数据库系统的研究与设计[J];微计算机信息;2006年23期
中国重要会议论文全文数据库 前10条
1 邓韶勇;李磊;;一种基于散列的查询优化技术[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 黄杰;陈琳;贾焰;邹鹏;;文献数据库融合系统中基于文献内容的查询优化方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 韩萌;洪晓光;张勇;王文宜;;分层回溯用于数据库的查询优化[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 马垣;;特征值集合的完备性及其在查询优化中的应用[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
5 江明菲;吴文明;陈祎祺;董逸生;;移动环境下的查询优化处理[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 王丙胜;李建中;;无线传感器网络的多查询优化[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 王秉卿;张奇;吴立德;黄萱菁;;机器学习的查询扩展在博客检索中的应用[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 张淑芝;刘国华;聂俊岚;;广域传感器数据库中的多查询优化[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
9 吕彬;杜小勇;王琰;;基于属性相关性的SPARQL查询优化方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 邓江;徐秋元;李战怀;;工程数据库管理系统ANGEL的查询优化[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
中国博士学位论文全文数据库 前10条
1 王秉卿;基于机器学习的查询优化研究[D];复旦大学;2012年
2 蒋涛;分段时序查询优化方法研究[D];华中科技大学;2010年
3 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
4 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
5 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
6 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
7 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
8 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
9 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
10 梅翔;语义检索中若干关键问题的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 韩梅;数据库管理系统查询优化技术研究[D];解放军信息工程大学;2004年
2 李劲秋;基于主机的银行业务系统的实现与查询优化的研究[D];电子科技大学;2010年
3 徐洪禹;面向只读应用的分布式数据库的模型构造及查询优化的研究[D];大连理工大学;2000年
4 咸兵;物化视图研究与实现[D];清华大学;2006年
5 徐莹;信息检索中的查询优化技术研究[D];合肥工业大学;2008年
6 韩新超;XML数据的存储和查询的研究[D];燕山大学;2004年
7 陈洪波;嵌入式数据库系统查询机制研究与实现[D];重庆大学;2005年
8 王慧玉;基于分布式数据库系统查询优化的研究与应用[D];大连海事大学;2005年
9 孙宁;一个企业管理信息系统的设计与优化[D];华中科技大学;2005年
10 王慜;基于PAT代数的XML数据查询优化方法研究[D];兰州理工大学;2011年
中国重要报纸全文数据库 前10条
1 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
2 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
3 记者 何边;网络化激活人工智能[N];计算机世界;2001年
4 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 傅秋瑛;默默耕耘数十载 自主创新结硕果[N];科技日报;2006年
7 王育昕吴红梅;高水平原创性科技成果大量涌现[N];新华日报;2008年
8 易水;计算机专业时文选读(898)[N];计算机世界;2002年
9 本报记者 潘永花;解放数据库管理员[N];网络世界;2004年
10 王锐 白玲 龙波 马德涛;何为空间数据挖掘[N];中国测绘报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978