收藏本站
收藏 | 论文排版

基于内容的海量文本探索式查询导引中若干关键技术的研究

王一川  
【摘要】:本文的主要研究内容是探索式查询中的若干关键技术。探索式查询主要通过交互策略来获得用户输入查询的语用信息。在本文中,主要用到用户选取的导引关键词、用户对检索结果进行的标注、用户通过根据自身需要提供给系统的标签覆盖度、以及用户主观猜测的检索结果标注量百分比。通过收集这些语用信息,进而可以生成语义信息来满足查询用户更高层次的查询需求,最终达到增强检索质量的目的。 本文的工作主要集中在查询需求的两个方面:learning to rank与investigate。本文第一章主要从总体上介绍了探索式查询技术及一些相关技术。本文的主要部分从第二章开始,该章节针对learning to rank提出了一种只依赖较少用户给出的语用信息和很少标记量的检索结果重排序算法。本文第三章到第六章主要针对检索中存在的investigate需求展开。本文在ACM SIGIR 2006 Workshop提出的探索式查询简单框架的基础上,首先对探索式查询的评价方法进行了调查和研究,然后本着优化评价指标的目的,利用部分现有技术构思实现了investigate需求的探索式查询导引结构,然后逐一对各个部分的关键技术进行了研究或改进。这些关键技术包括:探索式查询评价、领域关键词提取、主题聚类、探索式交互层级结构生成和词关系分类。第三章中,主要介绍了用户信息需求,探索式查询评价以及总体设计。第四章主要介绍了本文所采用的领域背景语料及大规模网络语料中的关键词提取方法,并通过加入词排序调整功能使输出结果可控。本章接下来在对主题聚类的研究与改进的基础上,提出了探索式查询导引结构。本文改进的主题词聚类方法比直接使用LSA词矩阵的聚类方法性能有所提高。在接下来的第五章中,作者改进了基于模式库与基于SVM两种词关系分类方法,这两种方法分别对应用户可能需要的两种查询行为,即准确率优先与召回率优先。第六章中,作者使用本文提出的探索式查询评价指标,对本文的方法做出了评价。从评价结果来看,本文提出的探索式查询原型性能在探索引导性能方面大幅优于当前我们使用的主流查询扩展系统。 本文的独创性贡献主要体现在如下几点:第一,应用全信息理论探索实现了一种检索结果重排序新算法,它可以通过用户提供的少量语用信息来增强用户标注在检索结果重排序中的作用,从而在将来可以被用来避免构建检索结果重排序时所进行的大规模限定领域训练。第二,本文将现有主要文本处理技术加以整合,进而构建了一种基于关键词导引的探索式查询方法,以实现更强的功能。第三,通过在探索式查询中使用交互策略来收集用户的语用信息,从而在简单语法处理的支持下,生成一种导引语义框架。第四,本文对探索式查询系统的评价方法与指标进行了研究,并就本文提出的系统原型分别与百度(baidu)、google和基于LSA的查询扩展据此指标进行了对比。本文的方法突破了google与百度(baidu)导引信息量不足的瓶颈。根据导引内容信息量、导引内容阅读量与交互步骤数三项指标的综合对比来看,google与baidu由于导引信息量不足综合评价为0分,基于LSA的查询扩展能够提供简单查询导引,其功能综合评价平均为0.0095分,本文的方法得到了0.25分,性能取得大幅提高。最后,本文一些章节对现有部分具体技术进行了改进,并得了一定效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王丽君,高迎,王锡钢;中文检索系统中查询的扩展[J];小型微型计算机系统;2002年07期
2 王明文,聂建云;基于Dempster-Shafer理论的查询扩展模型(英文)[J];江西师范大学学报(自然科学版);2005年03期
3 章旭;石进;谢立;;基于相似性叙词表的模糊集合模型[J];计算机科学;2008年09期
4 闭剑婷;苏一丹;;基于潜在语义分析的跨语言查询扩展方法[J];计算机工程;2009年10期
5 申丽平;;WordNet在查询扩展中的应用研究[J];科技信息;2009年14期
6 张超盟;李战怀;温宗臣;;局部上下文分析剪枝概念树的查询扩展[J];计算机工程;2009年14期
7 李东园;白宇;蔡东风;;面向中文问答的信息检索系统及评测[J];沈阳航空工业学院学报;2009年03期
8 王会进,陈超华,李清;基于动态知识库搜索引擎的技术[J];暨南大学学报;2004年01期
9 牟力科;张蕾;张晓孪;;基于概念图的用户兴趣查询扩展模型的研究[J];计算机工程与应用;2008年06期
10 陈晓金;王兵;;信息检索扩展技术研究[J];图书情报工作;2008年12期
11 李小琳;陆汝占;;基于日志挖掘的查询概念图扩展[J];计算机应用与软件;2010年03期
12 吴丹;何大庆;王惠临;;基于伪相关反馈的跨语言查询扩展[J];情报学报;2010年02期
13 徐建民;刘清江;;基于同义词关系的局部查询扩展[J];郑州大学学报(理学版);2010年01期
14 冯兰萍,张继国;基于本体的中文信息检索模型[J];河海大学常州分校学报;2004年04期
15 聂卉;;基于本体的查询扩展与规范[J];现代图书情报技术;2007年03期
16 陈晓金;王兵;;智能信息检索扩展方法研究[J];图书情报知识;2008年04期
17 李波;邱锡鹏;曹均阔;;查询扩展在开放领域问答系统中的应用[J];计算机应用与软件;2009年07期
18 陈宇;陈治平;;基于混沌神经网络模型的查询扩展[J];计算机应用;2007年08期
19 黄名选;陈燕红;张师超;;基于关联规则挖掘的查询扩展模型研究[J];现代图书情报技术;2007年10期
20 熊桂喜;王开锋;;基于语义的查询扩展研究[J];微计算机信息;2008年30期
中国重要会议论文全文数据库 前10条
1 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
2 杜俊俐;王海龙;;基于内容的图像检索系统研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
3 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
4 孙芮英;王永海;;基于内容管理技术的博物馆网站管理和发布系统[A];数字博物馆研究与实践(2009)[C];2010年
5 李志宏;史元春;;Web上基于内容的病理图像检索的设计与展望[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
6 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
7 徐忠强;;电视新闻节目基于内容的视频检索技术及其实现[A];2009中国电影电视技术学会影视技术文集[C];2010年
8 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年
9 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 舒后;何薇;;基于内容的多媒体数据库检索技术[A];第一届全国数字媒体技术专业规范建设研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
2 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
3 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
6 张一飞;基于内容的医学图像检索关键技术研究[D];东北大学;2009年
7 刘宇翔;基于内容的音乐分析研究[D];清华大学;2011年
8 王秉卿;基于机器学习的查询优化研究[D];复旦大学;2012年
9 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
10 周良;基于内容的工程图档检索及其关键技术研究[D];南京航空航天大学;2008年
中国硕士学位论文全文数据库 前10条
1 于水;专利术语知识库的建立与应用[D];沈阳航空工业学院;2010年
2 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
3 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
4 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
5 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
6 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年
7 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
8 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
9 赵春辉;基于关联规则挖掘的查询扩展[D];河南大学;2011年
10 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年
中国重要报纸全文数据库 前10条
1 巴战辉;基于内容计费的实现[N];通信产业报;2004年
2 ;基于内容计费的智能解决方案[N];人民邮电;2003年
3 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
4 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
5 ;构建内容计费解决方案[N];中国计算机报;2003年
6 ;引入内容计费适应业务发展[N];人民邮电;2007年
7 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
8 刘国;国际商务谈判“问”的技巧[N];公共商务信息导报;2006年
9 北电网络移动产品解决方案部经理 温明;移动网如何智能计费?[N];通信产业报;2004年
10 一鸣;家教最忌立竿见影[N];科学导报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978