收藏本站
《浙江大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于查询特征上下文的检索模型研究

蔡柯柯  
【摘要】: 随着互联网信息的爆炸性增长,人们对通过搜索引擎来获得网络信息的依赖也日益增加。目前,大多数搜索引擎在提供信息自动化检索服务时,首先要求用户输入包含一个或多个词语的查询条件,然后返回相关检索集合。因此,一个构造良好的查询,是用户主观信息需求的客观表现,也是信息检索服务质量的基本保证。尽管随着用户检索技能的不断提高,查询包含词语的数目在逐年增加,但是面对无限丰富的互联网信息,查询对于用户信息需求的描述总是显得力不从心。网络信息的丰富性与查询描述信息的有限性形成了鲜明的对比。在这种条件下,搜索引擎对于用户信息需求理解的偏差是影响信息检索服务质量的基本原因之一。 近年来,上下文在信息检索中的应用引起了广泛的关注。广义上讲,上下文信息涵盖了检索过程中和用户或查询相关的所有重要线索。从上下文角度实现用户查询的理解,是对查询表达信息的进一步完善和解释。基于上下文的查询描述为用户真实查询意图的把握提供了可能,也为进一步检索处理的有效性奠定了坚实的基础。 应该说,用户查询构造过程是一个由繁到简的信息筛选过程。简单查询背后一般都隐含着无比丰富的描述信息,这些信息往往最能反映用户对于信息需求的原始表达。因此,在本文的研究工作中,上下文信息的定义和识别主要围绕着用户查询构造这一行为而展开。从认知角度出发去理解用户查询的构造,本文引入了查询特征这一概念,并从三种角度实现对查询特征的定义,分别是查询类型、查询内部词语依存以及查询外部依存环境。这些特征在一定程度上体现了查询对于信息需求的潜在描述,为查询词语的出现状态提供了合理解释,也因此为查询提供了丰富的上下文描述信息。在上下文信息有效利用的前提下,信息检索的性能必将获得较大幅度的提高。 在上述思想的指导下,本文提出了基于查询特征上下文的信息检索模型—QFCIR(Query Feature Context based Information Retrieval)。QFCIR模型围绕着查询相关上下文信息的识别以及检索结果的优化而展开。在句子这一特殊上下文信息表达方式的基础上,QFCIR模型主要由四部分构成,即:基于查询类型的句子检索模型、基于马尔可夫随机场的句子检索模型、基于贝叶斯网络的句子检索模型以及基于句子的信息翻译模型。 在基于查询类型的句子检索模型中,本文重点分析了查询类型对于查询特征的反映,并以查询词语和查询类型为主要判断因素进行上下文信息的有效识别。为了让所得上下文充分描述查询相关类型,体现用户查询对于特定类型信息的需求,本文进一步提出了一种基于混合方法的查询分类模型,有效地提高了查询类型识别的准确性。 在基于马尔可夫随机场的句子检索模型中,查询词语内部的关联关系是查询上下文信息考察的基础。在马尔可夫随机场模型的基础上,本文分析了三种形式的查询关联结构,并以查询词语在句法结构中的关联特征为依据进行句子上下文相关性的判断。该方法充分考虑了查询词语间的关联特征,因此,查询条件越丰富,方法的有效性越明显。 在基于贝叶斯网络的句子检索模型中,贝叶斯网络的信息推理功能被有效地应用于查询外部依存环境信息的挖掘。本文在简单贝叶斯网络模型的基础上进一步考虑了同一语境中查询词语同其他词语之间的关联,充分利用贝叶斯网络对于不确定性信息处理的有效性以及词语关联信息对于相关判断的灵活性,实现了上下文推理的准确性。 最后,本文利用所得上下文信息实现了初始检索文档相关性的重新评估,完成了检索结果的重新排序。在上下文的基础上,文档相关性判断的实现依赖于以句子为单位信息翻译模型的执行。该模型的实现参考了翻译模型在文档检索中的应用,具有坚实的理论基础,同时操作简单,是上下文环境下实现文档相关性判断的一种切实可行的方案。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 徐连杰;胡德华;;基于量子的交互式信息检索模型分析[J];情报探索;2012年01期
2 马莎莎;;文献检索过程的认知态及与之相关的显著性标引框架[J];图书馆论坛;2010年02期
中国博士学位论文全文数据库 前1条
1 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
【参考文献】
中国期刊全文数据库 前1条
1 崔航,文继荣,李敏强;基于用户日志的查询扩展统计模型[J];软件学报;2003年09期
【共引文献】
中国期刊全文数据库 前10条
1 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
2 余正涛,樊孝忠,宋丽荣;基于特定问题类别的汉语问答系统查询扩展[J];北京理工大学学报;2005年10期
3 刘光远;董立岩;苑森淼;李永丽;刘辉;;基于位差的属性选择算法[J];吉林大学学报(信息科学版);2007年01期
4 尚福华;韩开旭;;基于相关术语群和同义词的查询扩展研究[J];长江大学学报(自然科学版)理工卷;2010年03期
5 唐晓亮;韩敏;;一种基于极端学习机的半监督学习方法[J];大连理工大学学报;2010年05期
6 何尧;张顺淼;;利用未标识文档提高中心分类法性能的研究[J];电脑知识与技术(学术交流);2007年16期
7 李欢;;半监督学习及其在数据挖掘中的应用[J];电脑知识与技术;2010年27期
8 周城;葛斌;蒋林承;;一种基于消息中间件的网页实时处理技术[J];电脑知识与技术;2011年10期
9 李一龙;胡翰;;基于半监督学习与CORBA技术相结合的入侵检测技术[J];电脑知识与技术;2011年20期
10 肖海鹏;邓晓衡;;基于Web挖掘的关键词建议模型研究[J];电脑知识与技术;2012年13期
中国重要会议论文全文数据库 前10条
1 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
2 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 张威;张博刚;廖飞雄;陈月宁;;基于软件运行记录的交互测试研究[A];第六届中国测试学术会议论文集[C];2010年
4 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 王洪俊;赖志国;施水才;肖诗斌;;基于查询日志的查询建议挖掘[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 陈宁昱;周雅倩;黄萱菁;吴立德;;利用未标注语料改进实体名识别性能[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 盛俊;王明文;余俊英;;一种基于潜在语义的Markov网络信息检索模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 徐小琴;章成志;;Web信息检索中相关词提示技术与评测[A];第三届学生计算语言学研讨会论文集[C];2006年
10 章成志;苏兰芳;;基于多语境的相关词自动提取[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
2 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
3 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
4 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
5 陈文清;基于免疫机理的水泥生产工艺故障智能诊断方法研究[D];华中科技大学;2011年
6 李明;面向计算机辅助诊断的胶囊内镜图像处理与分析技术研究[D];华中科技大学;2011年
7 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
8 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
9 刘小兰;基于图和熵正则化的半监督分类算法[D];华南理工大学;2011年
10 陈义明;基于分类的蛋白质功能预测技术研究[D];国防科学技术大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 梅翔;孟祥武;陈俊亮;徐萌;;一种基于语义关联的查询优化方法[J];北京邮电大学学报;2006年06期
2 于洪涛;段军义;;基于分类和聚类相结合的个性化检索方法研究[J];燕山大学学报;2007年06期
3 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
4 高琦;试析文献表达与文献检索有效性的关系[J];情报探索;2000年01期
5 李涓子,黄昌宁;基于转换的无指导词义标注方法[J];清华大学学报(自然科学版);1999年07期
6 鲁松,白硕,黄雄;基于向量空间模型中义项词语的无导词义消歧[J];软件学报;2002年06期
7 曾春,邢春晓,周立柱;个性化服务技术综述[J];软件学报;2002年10期
8 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期
9 田萱;杜小勇;李海华;;语义查询扩展中词语-概念相关度的计算[J];软件学报;2008年08期
10 王爱妮;卢东凌;;关于一般用户检索行为习惯与诉讼法文献检索系统设计的思考[J];上海高校图书情报学刊;1999年01期
中国博士学位论文全文数据库 前2条
1 梅翔;语义检索中若干关键问题的研究[D];北京邮电大学;2007年
2 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
【二级引证文献】
中国期刊全文数据库 前1条
1 张旭昶;李小方;马小琦;;互联网医学文献信息开发与利用[J];现代生物医学进展;2010年21期
【相似文献】
中国期刊全文数据库 前10条
1 曲建伟;苗克坚;张继民;;基于永久本体的上下文信息推理的应用研究[J];计算机应用;2006年12期
2 张婕;王丹力;;基于上下文的多通道语义融合[J];计算机工程与设计;2007年01期
3 冀中;张春田;苏育挺;;新闻视频故事单元分割技术综述[J];中国图象图形学报;2007年11期
4 崔永泉;洪帆;龙涛;刘铭;;基于使用控制和上下文的动态网格访问控制模型研究[J];计算机科学;2008年02期
5 杜静;段会川;;基于上下文的智能应用推荐系统架构设计[J];信息技术与信息化;2008年05期
6 林欣;李善平;杨朝晖;徐建;;普适环境中面向推理的上下文缓存置换算法[J];计算机研究与发展;2009年04期
7 刘二刚;黄开枝;金梁;;异构网络中高效切换认证算法研究[J];计算机应用研究;2009年07期
8 张仰森;曹元大;;基于语料库的自然语言建模方法研究[J];计算机科学;2004年05期
9 郭少友;;基于上下文的Web即时信息检索[J];情报理论与实践;2009年06期
10 郑庆秋;;基于OWL的上下文感知计算模型[J];电脑知识与技术;2009年33期
中国重要会议论文全文数据库 前10条
1 熊皓;刘洋;刘群;;模糊匹配在树到串翻译模型中的应用[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 蒋俊杰;徐金安;张玉洁;;北京交通大学CWMT2011评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 吴振东;史殿习;丁博;王怀民;;上下文态势感知框架的研究与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
4 汤临春;潘秋菱;李心科;;基于上下文的移动Web Services[A];Java技术及应用的进展——第八届中国Java技术及应用交流大会文集[C];2005年
5 刘青;连祥鉴;;基于上下文的Web服务动态组合[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
6 蒋建春;卿斯汉;;基于攻击上下文的网络入侵检测[A];全国网络与信息安全技术研讨会'2005论文集(上册)[C];2005年
7 方李成;宗成庆;;基于层次短语的统计翻译系统中规则冗余的高效约束方法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 曹鹤;裴明涛;贾云得;;一种基于上下文的手写体汉字识别候选集选取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 清华大学计算机系 王克宏 刘英群;从“实验室”到“市场”还要多久[N];计算机世界;2003年
2 清华大学计算机系 陈恩义;无缝移动[N];计算机世界;2002年
3 孙琎;精准广告投播网络提供商 TidalWave获注资[N];第一财经日报;2008年
4 李长生;应用安全 大有可为[N];中国计算机报;2005年
5 杨金萍;基于XBRL财务报告的优点[N];财会信报;2007年
6 赵旭;元数据管理的五种成熟度[N];计算机世界;2006年
7 孙立峰 杨士强;未来的幸福生活[N];计算机世界;2002年
8 伊佳;思科推新企业移动架构[N];通信产业报;2008年
9 蒙克;思科推出新一代企业移动平台[N];网络世界;2008年
10 郭宇峰;BI仪表盘:让信息显示更直观[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 蔡柯柯;基于查询特征上下文的检索模型研究[D];浙江大学;2007年
2 王玉祥;业务上下文的处理机制及其预测理论、关键技术研究[D];北京邮电大学;2010年
3 周晖;高分辨率遥感图像的层次化分析方法[D];国防科学技术大学;2010年
4 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年
5 崔永泉;协作计算环境下基于使用控制模型的访问控制研究[D];华中科技大学;2007年
6 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
7 程环环;基于贝叶斯网络的图像内容表述与分类[D];国防科学技术大学;2011年
8 乔秀全;模型驱动的业务生成方法及业务智能化支撑技术研究[D];北京邮电大学;2007年
9 郑笛;基于上下文感知服务的构件化中间件关键技术研究[D];国防科学技术大学;2008年
10 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 崔磊;关于层次短语翻译模型调序问题的研究[D];哈尔滨工业大学;2010年
2 张小恒;联机结构化手写文档和手势设计[D];西北大学;2007年
3 戴刚;基于使用控制和上下文的模糊访问控制模型研究[D];重庆大学;2009年
4 李艳娜;上下文信息查询、订阅及不确定性推理的研究与实现[D];北京邮电大学;2010年
5 任高举;基于短语的翻译模型中汉维短语抽取的研究[D];新疆大学;2010年
6 许冲;统计机器翻译中层次短语翻译模型的研究与实现[D];哈尔滨工业大学;2010年
7 丁雷;基于概率建模图像标注算法的研究及实现[D];北京交通大学;2010年
8 陆露;从目的论的角度讨论英语电影片名翻译[D];广东外语外贸大学;2005年
9 关丽;基于空间语义模型的Quick Bird影像城市房屋信息自动提取研究[D];东北师范大学;2006年
10 牟香兰;无线智能表网管理系统的设计与实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026