收藏本站
《北京语言大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

信息检索Query语言分析

熊文新  
【摘要】:当前Web搜索引擎对以自然语言形式提出的查询语句分析重视不够,主要体现在对语句分词后不加区分地将所有分词结果作为检索单位,送入检索系统。由于检索前端语言分析对用户信息需求把握不准,后台各种复杂处理流程就成了无源之水,无本之木。本论文将着眼于对用户自然语言语句(以下简称Query)这一表述用户特定信息需求的独特语言现象分析,为检索系统提供一个良好的前端处理。 本文主要涉及以下四个方面的工作: (1) 对Query区分信息内容词语(information content word)和停用词语(stop word),通过过滤停用词语,有效排除那些无需在文本出现的词语对Query信息内容词语造成的干扰。Query本身是一种受限语言(controlled language),用来表达用户信息需求,并且格式相对受限。针对于此,我们进一步区分通用停用词和查询专用停用词,指出它们不同的分布特点,并提出基于左右熵(entropy)和Kullback Leibler距离的停用词表构造方法以及利用N-gram和位置信息的基于概率的动态识别方法。相关实验结果表明,这种方案比单纯基于静态停用词表的标注效果有较大提升。此部分内容建立在对20万用户提问语句的语料分析基础上。 (2) 提出Query主题词语凸显(salience)的原则,并以此作为提升Query有针对性检索的手段。用户在表述特定信息需求时,会有各种不同表述。本部分工作主要是区分信息内容词语中哪些是需要凸显的中心主题,哪些是用户不希望在检索结果中看到的内容,以防止系统误检。本部分根据检索概念是否在目标文本出现,区分必现、必须不现、可现、可以不现四种情况,分别对待。此部分内容建立在TREC和863IR测试问题集SGML语料上,在分析语料表述形式后,由正则表达式匹配,对Query实施有效的主题功能块划分,从而凸显主题
【学位授予单位】:北京语言大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:H087

【引证文献】
中国硕士学位论文全文数据库 前1条
1 徐缓;网络信息监测与封堵技术的研究[D];南昌大学;2007年
【参考文献】
中国期刊全文数据库 前10条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
3 张玉洁,山本和英;汉语语句的自动改写[J];中文信息学报;2003年06期
4 由丽萍,范开泰,刘开瑛;汉语语义分析模型研究述评[J];中文信息学报;2005年06期
5 郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期
6 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期
7 孟小峰,王珊;中文数据库自然语言查询系统Nchiql设计与实现[J];计算机研究与发展;2001年09期
8 许龙飞,杨晓昀,唐世渭;基于受限汉语的数据库自然语言接口技术研究[J];软件学报;2002年04期
9 陆勇,侯汉清;用于信息检索的同义词自动识别及其进展[J];南京农业大学学报(社会科学版);2004年03期
10 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
【共引文献】
中国期刊全文数据库 前10条
1 于一;廖睿;叶大田;;电子病历结构化方法概述[J];北京生物医学工程;2007年01期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 安华林;现代汉语释义基元词探索[J];甘肃高师学报;2004年06期
4 郑鑫;秦建军;陈汉辉;李伟宏;;基于可拓学的自然语言处理与系统建模研究[J];哈尔滨工业大学学报;2006年07期
5 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期
6 金旭,杨炳儒,菅志刚;自动文摘方法分析[J];计算机应用研究;2004年09期
7 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
8 张宇,刘挺,陈毅恒,赵世奇,李生;自然语言文本水印[J];中文信息学报;2005年01期
9 李葆嘉;汉语元语言系统研究的理论建构及应用价值[J];南京师大学报(社会科学版);2002年04期
10 戴祖旭;洪帆;崔国华;付敏;;基于词性标记串统计特性的文本数字水印算法[J];通信学报;2007年04期
中国重要会议论文全文数据库 前10条
1 徐文堪;;信息革命时代的语言理论和词典编纂[A];中国辞书论集2000[C];2000年
2 傅爱平;;汉英机器翻译中汉语动结式译文的分析[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
3 郝长伶;董强;;知网知识库描述语言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 郎君;秦兵;刘挺;李生;;中国人名性别自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 刘鸣洋;由丽萍;;汉语感知词语的语义角色标注规则初探[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 苏新春;王惠;卢伟清;秦少康;;语言知识库的内化与细化——完善词义知识库之设想[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 李晋霞;;面向计算机的“V_双+N_双”结构类型研究[A];语言文字应用研究论文集(Ⅱ)[C];2004年
9 熊文新;宋柔;;信息检索查询语句的表述分析[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
10 徐建民;陈富节;朱松;;基于量化同义词扩展的贝叶斯网络结构化检索模型[A];2007'仪表,自动化及先进集成技术大会论文集(二)[C];2007年
中国博士学位论文全文数据库 前10条
1 周新玲;词语搭配研究与对外汉语教学[D];上海外国语大学;2007年
2 安洋;俄汉语句子的情景语义对比研究[D];上海外国语大学;2007年
3 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
4 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
5 李晋霞;现代汉语定中“V双+N双”结构研究[D];中国社会科学院研究生院;2002年
6 何婷婷;语料库研究[D];华中师范大学;2003年
7 朱彦;汉语复合词语义构词法研究[D];华东师范大学;2003年
8 王葆华;动词的语义及论元配置[D];复旦大学;2003年
9 延俊荣;给予句研究[D];复旦大学;2003年
10 潘文;现代汉语存现句研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 程培涛;机械产品设计领域自然语言理解中的概念从属树研究与实现[D];西安电子科技大学;2005年
2 金珠;基于知网的话题跟踪和倾向性跟踪研究[D];大连理工大学;2005年
3 卢冶;基于概念扩充和综合评价的中文自动文摘研究[D];大连理工大学;2006年
4 黎汉华;网络智能辅导系统关键技术及实现[D];西安电子科技大学;2005年
5 张艳;面向高校师生的应用文机辅写作关键技术研究[D];大连理工大学;2006年
6 毛伟;基于统计语言模型的中文自动文本分类系统[D];北京邮电大学;2006年
7 范彦彬;基础教育资源搜索引擎中自动文摘技术研究[D];南京师范大学;2006年
8 张俊;基于内容的汉语文献信息检索系统的设计与实现[D];南京农业大学;2006年
9 杨小洪;基于自组织映射的自动文摘方法研究[D];哈尔滨工业大学;2006年
10 王健;Web信息分类与自动摘要的研究[D];天津大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 何政伟,黄润秋,许强,姜琪文,赵银兵,刘少军;基于ARCGIS的地质灾害防治信息与决策支持系统的研制[J];吉林大学学报(地球科学版);2004年04期
2 陈平;丛威青;;GIS支持下的湖南省地质灾害气象预警系统建设探讨[J];成都理工大学学报(自然科学版);2006年05期
3 范继跃;何政伟;赵银兵;倪忠云;陈小亮;;GIS在四川九龙县地质灾害区划中的应用[J];成都理工大学学报(自然科学版);2007年02期
4 谢韬;何政伟;黄民奇;许辉熙;汪宙峰;;RS与GIS技术在库区地质灾害调查中的应用研究[J];测绘科学;2007年01期
5 刘华,王艳东,龚健雅;多数据源空间数据引擎关键技术问题研究[J];测绘信息与工程;2005年02期
6 刘宏建;牛德力;周蓉;;基于空间数据引擎构建GIS应用[J];测绘与空间地理信息;2006年02期
7 夏真,郑志昌,林进清;大鹏湾海洋地质环境与地质灾害综合分析[J];中国地质;2005年01期
8 姜立新,帅向华,张建福,李志强;地震应急指挥管理信息系统的探讨[J];地震;2003年02期
9 帅向华;;地震应急信息管理技术研究和指挥首长信息查询系统实现[J];地震;2006年03期
10 张永波,李向全,张礼中,周小元;地质灾害信息处理与决策支持系统的设计与开发[J];地理与地理信息科学;2002年04期
中国博士学位论文全文数据库 前10条
1 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
3 孙斌;基于GIS的办公自动化系统开发技术的研究和探讨[D];中国地质大学(北京);2005年
4 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
5 梁平;面向产品生命周期数据的XML本源数据库的研究[D];合肥工业大学;2006年
6 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
7 连剑波;基于XML的地质数据集成及WebGIS发布研究[D];中国科学院研究生院(广州地球化学研究所);2006年
8 孙伟;XML数据库查询优化及相关技术研究[D];哈尔滨工程大学;2006年
9 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
10 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前3条
1 李笠;高速网络实时信息流监控系统[D];昆明理工大学;2002年
2 李东艳;互联网信息内容安全过滤方法研究[D];山西大学;2004年
3 姜卓彦;大流量主干网络中实时网络监测[D];电子科技大学;2005年
【二级参考文献】
中国期刊全文数据库 前10条
1 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
2 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
3 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
4 周明,黄昌宁;面向语料库标注的汉语依存体系的探讨[J];中文信息学报;1994年03期
5 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
6 刘伟权,王明会,钟义信;建立现代汉语依存关系的层次体系[J];中文信息学报;1996年02期
7 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
8 徐通锵;“字”和汉语语义句法的生成机制[J];语言文字应用;1999年01期
9 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报(自然科学版);1998年01期
10 顾国良,王能斌;数据库汉语查询接口CQI的设计和实现[J];计算机学报;1990年12期
中国重要会议论文全文数据库 前2条
1 陈群秀;;信息处理用现代汉语句型系统的初步研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2 吴友政;赵军;段湘煜;徐波;;构建汉语问答系统评测平台[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国硕士学位论文全文数据库 前3条
1 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
2 贾爱平;科技文献中术语定义的语言模式研究[D];北京语言文化大学;2002年
3 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 蒋瑶;;浅谈关于网络信息检索的认识[J];大众文艺;2010年09期
2 胡壮麟;;语言和计算机[J];外国语言文学研究;2001年01期
3 姜澜;李秀坤;单丽莉;;一种新的词语权重计算方法[J];哈尔滨工业大学学报;2011年S1期
4 袁毓林;;面向信息检索系统的语义资源规划[J];语言科学;2008年01期
5 冯志伟;;关于信息时代的多语言问题的一些思考[J];现代语文(语言研究版);2006年07期
6 甄超;宋爽;许洁萍;;多模态音乐流派分类研究[J];计算机科学与探索;2011年01期
7 祝敬国;;浅评大阪国立民族学博物馆电脑化系统[J];中国博物馆;1987年02期
8 A.C.格尔德;卜云燕;;再谈词典编纂工作的自动化[J];辞书研究;1990年02期
9 荀恩东;颜伟;;基于语义网计算英语词语相似度[J];情报学报;2006年01期
10 石东风;于连芳;;地方卫生立法现状及其问题评析[J];医学与哲学(人文社会医学版);2007年09期
中国重要会议论文全文数据库 前10条
1 倪耀群;许洪波;谭婧霞;唐慧丰;程学旗;孟丹;;基于优化维汉双语词典的多语言信息检索系统[A];第六届全国信息检索学术会议论文集[C];2010年
2 林耀燊;李文捷;黄绵辉;;信息检索系统中的自然语言处理[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
3 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
4 薛巍;李维佳;穆飞;舒继武;;PDPI:一种面向多核的可扩展并行索引算法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
5 辛欣;李涓子;;基于Java语言全文信息检索系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
6 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
7 陈康;武港山;;基于Ontology的信息检索技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 张乃岳;张学燕;;基于个体词语相似度的定制化动态信息检索[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 苏祺;昝红英;胡景贺;项锟;;词性标注对信息检索系统性能的影响[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 吕碧波;赵军;;基于相关文档池建模的查询扩展[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 ;整合信息资源 提升服务能力[N];中国计算机报;2005年
2 记者 刘安;“全国档案报刊文献及科技成果信息检索系统”通过鉴定[N];中国档案报;2002年
3 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
4 本报记者 武天敏包国俊 本报特约记者 郭瑞宏;在浩瀚信息海洋“导航”[N];解放军报;2007年
5 徐莲芝;24团 农企联手打造无公害农产品基地[N];农民日报;2008年
6 李立红;承钢持续推进多项信息化建设与应用[N];中国冶金报;2008年
7 王伟 史忠植;通用与专业[N];计算机世界;2006年
8 通讯员 陈班雄 邹俊 本报记者 于莘明;通向科技巅峰的无名台阶[N];科技日报;2009年
9 张建华;淄博局企业备案实现100%[N];中国国门时报;2008年
10 ;自主创新引领“美的”阔步前行[N];中国高新技术产业导报;2005年
中国博士学位论文全文数据库 前10条
1 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
2 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
3 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
6 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
7 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年
8 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
9 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
10 朱明杰;互联网搜索系统中的高性能查询问题研究[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
2 倪良胜;面向海量实时数据信息检索系统的研究与实现[D];东南大学;2004年
3 赵爽;软件测试在信息检索系统中的应用[D];西安电子科技大学;2008年
4 王宏霞;基于ONTOLOGY的信息检索系统的研究[D];河北工业大学;2005年
5 李勇;关于本体整合的研究及其在供应链管理中的应用[D];天津大学;2005年
6 陈朋;基于网络的集成化信息检索平台研究[D];武汉大学;2005年
7 彭鹏;基于本体的信息检索策略优化研究[D];吉林大学;2007年
8 陈琮;基于Jena的本体检索模型设计与实现[D];武汉大学;2005年
9 王娜;XML在信息检索系统中的应用及评价研究[D];武汉大学;2005年
10 赵鹏;高校数字图书馆网站建设的研究[D];山西大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026