收藏本站
《内蒙古大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

信息检索中信息需求域的研究

王彪  
【摘要】:信息检索作为信息获取的手段,是信息处理的重要内容,是当前信息处理研究领域中的研究热点。信息检索主要包括三个方面的内容:信息需求表达、文档表达和检索模型。其中,需求表达是一个重要的环节。只有当需求被正确地理解和表达时,才有可能得到好的检索结果;否则,如果不能很好地表达需求,再好的检索系统也无法得到好的检索结果。当前,机器检索本质上是基于关键词匹配的检索,将用户查询请求假定为是对用户信息需求的一个准确描述。但事实上,查询请求往往不能准确地描述用户的信息需求,这将不可避免地导致不太理想的检索结果。 为了更好地描述和表达用户的信息需求,通常使用相关反馈的方法。相关反馈(包括用户相关反馈和伪相关反馈)方法试图从反馈的文档中寻找一组关联词项以增强用户的初始查询请求。实验显示,这种处理方法有一定的效果。然而,注意到这些词项的选取只是一种启发式的想法,通常假定用户的信息需求具有一个准确的描述。相关反馈方法试图利用反馈信息寻求用户需求的准确描述,但实际上用户需求的准确描述是难以得到的。这种利用相关反馈的方法进行的查询扩展只是对用户信息需求的一种猜想,并不准确。 在本文中,我们采取了不同的方法。我们假定需求是一个语义范围。一开始,用户使用初始查询提出查询请求,当我们获得了一些反馈信息后(用户相关反馈或伪相关反馈),我们就能够建立一种对信息需求更好的描述,但这种描述不是试图去建立对信息需求的准确描述,而是概括性地去框定一个需求的范围。我们使用反馈信息建立需求的下界R和上界R,从而界定需求的一个范围。下界对应反馈文档的共有部分,上界对应反馈文档的全部内容。论文导出了需求的下界和上界,得到了需求域的两个边界,从而建立了需求域模型I=(R,R)。信息需求域具有以下特点: (1)信息需求域的下界表达了信息需求集中关注的内容,代表了信息需求的精度,也代表了信息需求的内涵; (2)信息需求域的上界包含了信息需求的延伸和扩展的内容,代表了信息需求的广度,也代表了信息需求的外延; (3)信息需求域较为松散地界定了用户信息需求的一个范围。 论文中给出了建立需求域的两种机制:用户相关文档反馈机制和伪相关文档反馈机制。用户相关文档反馈机制要求用户从初始查询结果中标注反馈若干个相关文档,用这些文档建立信息需求域。伪相关文档反馈机制从初始检索结果中自动选取前n个(top n)文档,用这n个文档建立需求域。此方法的优点是自动化,无需用户参与,缺点是由于是伪相关文档反馈的结果,所反馈的文档不一定都是用户所需要的文档,因此,所得到的信息需求域是用户需求域的近似域。 论文在需求域基础上,分析了文档相似度的计算方法,建立了需求域基础上的相似度计算模型。论文在通用的TREC测试集上通过一系列实验对所建立的模型进行了模型训练和分析,并进一步进行了一系列检索性能对比实验,以验证其有效性。在检索性能对比实验中,将所建立的需求域基础上的相似度计算模型与三种经典的模型(伪相关反馈语言模型Mixfb_kl_dir、伪相关反馈tf_idf模型Fb_tf_idf以及伪相关反馈概率模型Fb_okapi)进行了对比,对比实验结果显示,需求域基础上的相似度计算模型的检索性能得到了提高,表明所建立的模型是有效的,结果令人满意。 与传统的方法相比较,传统的方法往往试图建立信息需求的一种准确的描述,而本文则是为信息需求建立一种较为松散的描述,使用需求域的方法去界定信息需求的一个范围。概况起来,论文研究的主要创新点为: (1)提出了用户信息需求域的概念,给出了确定信息需求域的方法; (2)提出了一种基于粗糙集的信息需求域的数学模型; (3)提出了一种基于信息需求域模型基础上的相似度计算模型。 总之,论文研究的主要意义在于充实了信息需求的理论基础,并在此基础上建立了相应的相似度计算模型,提高了信息检索性能。从而为信息检索领域提供新的研究思路,充实新的理论和方法,并在实际应用中提高信息检索效率。
【学位授予单位】:内蒙古大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:G354.1

【参考文献】
中国期刊全文数据库 前2条
1 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
2 马晖男;吴江宁;潘东华;;一种基于同义词词典的模糊查询扩展方法[J];大连理工大学学报;2007年03期
【共引文献】
中国期刊全文数据库 前10条
1 赵彦辉;张乐文;邱道宏;仲晓杰;;基于粗糙集理论的隧道围岩模糊综合评判[J];四川建筑科学研究;2011年02期
2 吕俊;任雪萍;;一种基于粗糙集理论的变压器故障多变量决策树诊断方法[J];安徽电气工程职业技术学院学报;2011年01期
3 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
4 蔡莉;胡学钢;;一种基于粗集的决策表求核算法[J];安徽大学学报(自然科学版);2007年06期
5 周玉华;李景杰;;不完备决策表的一种属性约简方法[J];安徽大学学报(自然科学版);2009年04期
6 杨萍,万上海,陈耿;一种基于可变支持度的缺省规则挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年02期
7 孙全玲;基于粗集和神经网络的建模方法研究[J];安徽建筑工业学院学报(自然科学版);2005年02期
8 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
9 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
10 张继宝;汪明武;谢慧敏;;基于粗糙集理论的围岩稳定性模糊综合评价[J];安徽建筑工业学院学报(自然科学版);2008年02期
中国重要会议论文全文数据库 前10条
1 尹宗成;;粗糙集理论在我国粮食产量预测中的应用[A];现代农业理论与实践——安徽现代农业博士科技论坛论文集[C];2007年
2 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
3 ;Fuzziness in Covering Generalized Rough Sets[A];第二十六届中国控制会议论文集[C];2007年
4 李雄;党生;;基于Rough集理论的战场侦察情报处理[A];第二十六届中国控制会议论文集[C];2007年
5 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
6 何鹏;王雅琳;桂卫华;孔玲爽;;氧化铝硅渣成分的混沌时间序列分析与SVM预测[A];第二十九届中国控制会议论文集[C];2010年
7 龚锦红;杨辉;衷路生;;稀土萃取分离过程的Rough集案例推理方法[A];第二十九届中国控制会议论文集[C];2010年
8 ;Influence Diagram Based on Rough Set Theory[A];第二十九届中国控制会议论文集[C];2010年
9 ;The Prediction of Soil Moisture Based on Rough Set-Neural Network Model[A];第二十九届中国控制会议论文集[C];2010年
10 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
4 杨锦园;基于传感器管理的移动机器人融合算法研究[D];华中科技大学;2010年
5 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
6 任家福;服务商选择与备件备品库存管理研究[D];电子科技大学;2010年
7 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
8 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
9 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
10 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
3 雷聪聪;一种基于数据聚类的信息粒化方法[D];郑州大学;2010年
4 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
5 李昕哲;关系邻域系统的属性约简[D];郑州大学;2010年
6 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
7 王晓换;基于粗糙集和神经网络的故障诊断虚拟系统的研究[D];郑州大学;2010年
8 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
9 王秀锋;网络环境下异构日志信息获取和预处理研究[D];哈尔滨工程大学;2010年
10 白喜朋;基于作业的钢铁企业成本分析[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前9条
1 胡方;黄建国;褚福照;;基于粗糙集的武器系统灰色关联评估模型[J];兵工学报;2008年02期
2 B.斯卡里契卡;王士燮;;哥本哈根的结构主义和布拉格学派[J];语言学资料;1962年Z1期
3 匡乐红;徐林荣;刘宝琛;姚京成;;基于粗糙集原理的泥石流危险度区划指标选取方法[J];地质力学学报;2006年02期
4 刘宗田;属性最小约简的增量式算法[J];电子学报;1999年11期
5 刘挺,王开铸;自动文摘的四种主要方法[J];情报学报;1999年01期
6 王国胤,何晓;一种不确定性条件下的自主式知识学习模型[J];软件学报;2003年06期
7 倪永成;杨建国;吕志军;;基于Rough Set理论对原棉纱线强度的规则提取[J];纺织科技进展;2006年06期
8 李为相;程明;李帮义;;粗集理论在食品安全综合评价中的应用[J];食品研究与开发;2008年02期
9 庞发虎;庞振凌;杜瑞卿;;粗糙集理论对湖泊生态系统健康评定指数法的评价[J];生物数学学报;2008年02期
中国博士学位论文全文数据库 前1条
1 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
【相似文献】
中国期刊全文数据库 前10条
1 郑永田;;高校学生读者信息需求的调查与分析——以华南师大大学城校区为例[J];图书馆学研究;2007年03期
2 郎皓;王斌;李锦涛;丁凡;;文本检索的查询性能预测[J];软件学报;2008年02期
3 杨瑜;张文德;陈建芳;;网络数据库用户信息需求表征行为探析[J];福建师大福清分校学报;2009年01期
4 王知津;赵洪;;论情报学社会认知观[J];图书情报知识;2007年04期
5 王国金,康耀红;基于布尔检索策略的问答系统性能研究[J];科技广场;2005年10期
6 高云燕;;搜索引擎优化策略[J];科技文献信息管理;2009年02期
7 王知津;王春燕;范淑杰;;基于网络互动问答平台的信息检索模式构建[J];江西图书馆学刊;2011年03期
8 刘姝;;知识可视化在信息检索中的实际应用[J];图书馆杂志;2011年06期
9 吕月娥;李信利;;基于信息类别的元搜索引擎设计[J];微计算机信息;2007年21期
10 王华;;试论影响专业中文文献信息检索的因素及其改善方法[J];科技情报开发与经济;2008年03期
中国重要会议论文全文数据库 前10条
1 周博;岑荣伟;刘奕群;张敏;马少平;;相关反馈任务中一种基于文档相似度的检索结果重排序方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
3 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
4 梁婷婷;张志强;谢晓芹;;搜索引擎评估算法综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
6 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
8 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
9 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
6 程晓龙;互联网用户对新闻出版信息需求仍高居榜首 新闻出版网上天地无限[N];中国新闻出版报;2001年
7 零点调查公司 凌军;中国企业信息需求远未满足[N];中国经营报;2001年
8 ;简化ICT环境成客户重要信息需求[N];人民邮电;2009年
9 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
10 文仪;网络能满足企业的信息需求吗[N];中国劳动保障报;2001年
中国博士学位论文全文数据库 前10条
1 王彪;信息检索中信息需求域的研究[D];内蒙古大学;2012年
2 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
5 董道国;高维数据索引结构研究[D];复旦大学;2005年
6 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
7 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
8 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
9 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
10 林原;信息检索中排序学习方法的研究[D];大连理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
2 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
3 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
4 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
5 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
6 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
7 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
8 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
9 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
10 耿志杰;数字档案馆个性化服务研究[D];广西民族大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026