收藏本站
《大连理工大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

信息检索中浅层语义模型的研究

马晖男  
【摘要】: 目前文本信息检索领域中普遍采用基于统计的模型,如布尔模型、向量空间模型。但是它们没有很好地解决以下几方面问题,包括:歧义词辨析、同义词扩展、概念层次关系、上下文语义关系等。 为了解决以上问题,提高文本信息系统检索效力,本论文提出了两种浅层语义检索模型——浅层语义向量空间模型(SSVSM,Shallow-Semantic Vector Space Model)和基于本体的浅层语义模型(OBSSM,Ontology-Based Shallow-Semantic Model)。基于这两种检索模型,本论文构建了两个信息检索系统,并分别采用英文标准语料和中文实际数据进行测试,同时与传统的基于统计的检索模型进行量化比较。 本论文的主要研究内容及成果如下: 1、浅层语义向量空间模型相关内容及成果: (1)提出了浅层语义向量空间模型。通过对传统的向量空间模型(Vector Space Model,VSM)的改进,提出了浅层语义向量空间模型。该模型与传统向量空间模型主要区别以及优点在于:它将传统的检索关键词(本论文中主要指名词)与修饰它的修饰词(本论文中主要指形容词)合成,作为一个整体关键词(本论文中称其为合成短语),可确定多义词的真正含义;同时,将合成短语中的修饰词以及它所修饰的中心词根据模糊同义词词典进行扩展并重组,可检索出一些由于用词生僻而原本检索不出来的但符合用户需要的文本。 (2)建立了模糊同义词词典。为了实现浅层语义向量空间模型中的查询扩展,基于著名的语义词典WordNet建立了模糊同义词词典。模型中,使用该词典对查询向量进行了模糊扩展(目前,该词典已经在与日本JUSTSYSTEM公司的合作项目中得到应用,日方利用该词典开发了NLPs工具)。 (3)进行了信息检索试验。使用英文标准语料库(TREC:LA-Times),输入共150个查询语句,验证基于本论文提出的浅层语义向量空间模型的信息检索系统性能,并将其反馈结果与普通检索试验的结果进行比较,用以说明该语义模型的优势。 (4)进行系统评价。本论文主要从精确率和召回率两方面指标对信息检索系统进行评价,试验结果表明,浅层语义向量空间模型的检索精确率、召回率比普通检索模型有所提高。 2、基于本体的浅层语义模型相关内容及成果: (1)建立领域本体。分析了某市移动通信公司2002年~2005年的投诉记录,使用Protégé工具建立了移动通信投诉服务领域的本体。在该本体的建立过程中,提出了自顶向下结合延伸的概念提取方法、基于Apriori算法思想挖掘概念之间关系的方法,改善了人工建立领域本体的不完整性。 (2)提出了基于本体的浅层语义模型。基于所建领域本体,提出了基于本体的浅层语义模型,对比传统的基于关键词检索,它的主要优点在于:根据父子概念的继承关系、同义词词典的查询扩展,能够提高信息检索系统的召回率:根据主宾约束,能够提高信息检索系统的精确率。 (3)给出了基于该模型进行信息检索的应用实例。根据基于本体的浅层语义模型开发了信息检索系统,并将其应用于移动通信投诉服务领域,对几条有代表性的查询语句进行检索。将得到的检索结果与传统的基于关键词的信息检索系统进行比较,试验结果表明,基于本体的浅层语义模型具有较强的检索能力。 (4)该系统还实现了个性化处理。加入了人机互动的复选框,可使用户根据个人喜好对检索结果作进一步的处理,最终获得更加清晰的符合客户需求的检索结果。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前3条
1 李琼;构件测试信息表示与检索的研究与实现[D];昆明理工大学;2009年
2 吴国进;基于支持向量机的文本分类研究[D];安徽大学;2011年
3 王小旭;基于语义信息检索关键技术的研究与实现[D];西安电子科技大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 朱晓华;基于概念空间方法的信息检索技术研究[J];大学图书馆学报;2003年02期
2 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期
3 邢玲;马建国;李幼平;刘志文;;一种基于UCL的中文网页信息过滤方法[J];电子学报;2006年10期
4 李太福,黄茂林,谢志江;基于语义网络的旋转机械故障诊断知识表示[J];重庆大学学报(自然科学版);2001年06期
5 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
6 胡德华,方平;一体化医学语言系统(UMLS)及其对我国情报检索语言的启示[J];情报学报;2000年02期
7 刘柏嵩,高济;基于RDF的异构信息语义集成研究[J];情报学报;2002年06期
8 史田华;;语义检索技术研究[J];图书馆杂志;2001年11期
9 张晓林,李宇;描述知识组织体系的元数据[J];图书情报工作;2002年02期
10 夏幼明,刘海庆,徐天伟;基于语义网络的知识表示的形式转换及推理[J];武汉大学学报(信息科学版);2001年04期
中国硕士学位论文全文数据库 前5条
1 王国琴;基于语义检索的概念空间研究[D];南京理工大学;2004年
2 王志勇;基于统计语言学模型的中文文本信息检索[D];第二军医大学;2004年
3 秦春秀;基于本体的Web信息检索系统及其关键技术研究[D];西安电子科技大学;2005年
4 艾伟;本体的构造及其应用研究[D];武汉理工大学;2005年
5 杨俊柯;RDF推理机制的研究与应用[D];湖南大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 赵巾帼;徐德智;;语义Web的技术基础分析[J];鞍山师范学院学报;2007年04期
2 石彤菊;许会峰;;基于网上数学实验设计开发——无约束非线性规划问题算法的实现[J];保定师范专科学校学报;2005年04期
3 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
4 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
5 王翠萍;个性化信息资源组织的拓展模式[J];国家图书馆学刊;2005年03期
6 王凯;文献分类工作的现状与发展[J];国家图书馆学刊;2005年04期
7 杜慧平;何琳;侯汉清;;基于聚类分析的自然语言叙词表的自动构建[J];国家图书馆学刊;2007年03期
8 张德政;阿孜古丽;刘洁卉;;基于图分析的领域知识获取技术[J];北京科技大学学报;2007年S2期
9 毕军,付梦印,周培德;一种适于车辆导航系统的快速路径规划算法[J];北京理工大学学报;2002年02期
10 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
中国重要会议论文全文数据库 前10条
1 ;Design of UCL Hardware Filtering System Based on FPGA[A];第二十九届中国控制会议论文集[C];2010年
2 张德政;刘洁卉;;基于图分析的领域知识获取技术[A];着力提高高等教育质量,努力增强高校创新与服务能力——北京市高等教育学会2007年学术年会论文集(上册)[C];2008年
3 李帅;王精业;王丽娟;;基于马尔可夫模型的文本信息提取算法概述[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
4 李玉良;王良松;李晶;;图像中数字字符识别技术概览[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
5 冯宇;王川川;杨璇;;本体论及其在产品信息组织中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
6 苏新春;王惠;卢伟清;秦少康;;语言知识库的内化与细化——完善词义知识库之设想[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 俞士汶;朱学锋;段慧明;张化瑞;;以词义为主轴的综合型语言知识库[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 盛作国;胡红;;情报推理的逻辑理论工具——制约逻辑在情报科学中的应用[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
10 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
中国硕士学位论文全文数据库 前10条
1 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
2 吕媛媛;基于本体的物流信息集成系统的研究[D];山东科技大学;2010年
3 赵永华;多学科本体构建与集成技术研究[D];山东科技大学;2010年
4 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
5 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
6 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
7 平金玉;基于组合核与主动学习的蛋白质交互关系抽取[D];大连理工大学;2010年
8 唐微;网络信息提取系统关键技术研究[D];大连理工大学;2009年
9 徐济成;面向农业领域的本体学习建模研究[D];安徽农业大学;2010年
10 吉喆;基于本体的茶树虫害智能诊断系统研究[D];安徽农业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 单锦辉,姜瑛,孙萍;软件测试研究进展[J];北京大学学报(自然科学版);2005年01期
2 安欣;王韬;张录达;;一种基于SVM分类的多类识别方法及应用[J];北京农学院学报;2006年02期
3 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
4 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
5 王燕;陈明;赵建辉;;基于语义的构件检索(英文)[J];Journal of Southeast University(English Edition);2007年03期
6 张华煜,邢丽萍;基于核函数的支持向量机分类方法[J];电脑开发与应用;2005年07期
7 刘红梅;;基于关联规则的分类方法初探[J];电脑知识与技术;2009年03期
8 杨芙清,梅宏,李克勤;软件复用与软件构件技术[J];电子学报;1999年02期
9 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
10 蔡月红;朱倩;程显毅;杨天明;;基于句义三维模型的汉语句子相似度计算[J];广西师范大学学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前3条
1 陈蔚文;马世龙;;航天器测试信息系统数据资源管理平台的设计与实现[A];2007中国控制与决策学术年会论文集[C];2007年
2 颜伟;荀恩东;;基于WordNet的英语词语相似度计算[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 杨丽英;李红娟;张永奎;;突发事件新闻语料分类体系研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国硕士学位论文全文数据库 前10条
1 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
2 高峰;基于兴趣分类的用户行为分析系统的研究[D];山东大学;2010年
3 林鹏;汉语疑问句理解系统研究与实现——虚拟信息顾问系统之问题理解子系统[D];重庆大学;2004年
4 王功;电缆测试信息管理系统的研制[D];山东理工大学;2006年
5 宋敏;基于构件软件测试技术的研究[D];哈尔滨工程大学;2006年
6 张玉娟;基于《知网》的句子相似度计算的研究[D];中国地质大学(北京);2006年
7 袁冬娟;基于刻面描述的水资源领域的构件检索方法[D];河海大学;2007年
8 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
9 梁培明;基于构件的软件框架研究与实现[D];大连理工大学;2007年
10 苏振魁;基于马尔科夫模型的文本相似度研究[D];大连理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 胡俊峰,俞士汶;唐宋诗之计算机辅助深层研究[J];北京大学学报(自然科学版);2001年05期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 赵鹏大,胡光道,李新中;基于语义网络知识表示的专家系统的设计[J];地球科学;1994年04期
4 张晓林;数字化信息组织的结构与技术(一)[J];大学图书馆学报;2001年04期
5 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
6 朱晓华;基于概念空间方法的信息检索技术研究[J];大学图书馆学报;2003年02期
7 马建国,邢玲,李幼平,李在铭;数据广播中的UCL标引与传输机制[J];电子学报;2004年10期
8 马建国,邢玲,李幼平,文丽;广播型网格的用户兴趣图谱[J];电子学报;2005年01期
9 李太福,黄茂林,谢志江;基于语义网络的旋转机械故障诊断知识表示[J];重庆大学学报(自然科学版);2001年06期
10 王洪伟,吴家春,蒋馥;基于描述逻辑的本体模型研究[J];系统工程;2003年03期
中国重要会议论文全文数据库 前4条
1 俞士汶;;计算语言学的应用研究与基础研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 金千里;赵军;徐波;;弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国硕士学位论文全文数据库 前1条
1 薛鹏军;基于知识库的中文网络检索工具——经济信息智能搜索引擎研究[D];南京农业大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 柳巧玲;米天胜;;基于语义网的智能信息检索研究[J];科技管理研究;2008年08期
2 丁政建;李飞;;基于本体的信息检索技术的研究[J];科学技术与工程;2008年13期
3 朱成兵;;语义网理论研究[J];赤峰学院学报(自然科学版);2010年04期
4 乔亚男;齐勇;史椸;侯迪;王晓;;一种基于权重矩阵的临近词检索问题解决框架[J];计算机科学;2009年07期
5 陈杰;孙忠贵;王玲;;基于SOFM网络的快速信息检索[J];情报科学;2006年02期
6 张爱军;;基于本体的智能答疑系统的研究与实现[J];计算机应用与软件;2006年05期
7 李静;桂慕梅;张剑;;基于本体的知识服务[J];图书馆工作与研究;2007年04期
8 李哲;张海鸥;;基于本体的信息检索模型研究[J];航空计算技术;2009年06期
9 严武军;;基于Jena规则推理数字图书馆信息检索系统研究[J];电脑开发与应用;2010年02期
10 袁铭蔚;蒋平;;基于本体的向量空间模型的压缩算法[J];计算机工程与应用;2007年24期
中国重要会议论文全文数据库 前10条
1 蔡畅;李宏伟;李勤超;;语义层次的知识推理研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
2 王翠茹;辛锐;韩晓娜;;基于本体的电网调度系统知识表示的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 章成志;;词语的语义相似度计算及其应用研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 赵泽宗;;比喻推理建构[A];逻辑今探——中国逻辑学会第五次代表大会暨学术讨论会论文集[C];1996年
5 戴佐培;宋春林;李净;;基于本体的中医经络知识库的设计与开发[A];2008年中国高校通信类院系学术研讨会论文集(上册)[C];2009年
6 伍伟;李兵;曾诚;;基于本体的语义Web服务注册平台研究[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
7 陈冬菊;张发军;宫玉梅;何天白;;在嵌段共聚物本体与薄膜中结晶形貌的研究[A];2005年全国高分子学术论文报告会论文摘要集[C];2005年
8 广凯;魏鲲;金浩;潘金贵;;一种基于本体的上下文模型[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
9 康达周;徐宝文;陆建江;李言辉;;支持语义web模糊本体的描述逻辑(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
10 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 黄家艳;川电三公司汽机工程处本体班获“全国质量信得过班组”[N];西南电力报;2002年
2 刘春田;“知识”的本体和现实形态[N];中国知识产权报;2004年
3 中国科学院计算技术研究所 黄瑞史忠植;加强知识的共享与重用[N];计算机世界;2007年
4 大江;锻造本体竞争力[N];中国改革报;2006年
5 深圳报业集团驻京记者 陆云红;改革开放之窗创新活力之都[N];深圳特区报;2006年
6 任玉岭;一本体现时代精神的哲学教材[N];光明日报;2003年
7 郑敏;也谈本体杂文[N];中国文化报;2003年
8 宏图三胞高级副总裁 花贵侃;企业需要一条灵活的“尾巴”[N];电脑商报;2007年
9 左孝 记者蒋寒;世界最大本体装置在天原建成[N];科技日报;2005年
10 孙国华;法的本体是法律关系[N];检察日报;2005年
中国博士学位论文全文数据库 前10条
1 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
2 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
3 安杨;基于本体的网络地理服务中的关键问题研究[D];武汉大学;2005年
4 严亚兰;基于语义Web的知识处理研究[D];武汉大学;2005年
5 罗正鸿;D_4/APAEDMS本体开环共聚及其数学模拟[D];浙江大学;2003年
6 周明建;基于本体的开放式知识管理研究[D];浙江大学;2004年
7 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
8 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
9 罗耀明;基于语义的企业知识管理系统关键技术研究[D];武汉理工大学;2008年
10 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
中国硕士学位论文全文数据库 前10条
1 王程;语义网络环境下的信息检索模式研究[D];黑龙江大学;2006年
2 徐东;基于本体的领域智能搜索技术研究[D];哈尔滨工程大学;2007年
3 高化波;基于语义网的E-Learning个性化服务系统研究与实现[D];上海交通大学;2007年
4 杨永火;组合向量空间模型和语言模型的信息检索系统[D];天津大学;2006年
5 林尔正;基于中医骨伤古籍本体的语义检索研究[D];福建中医学院;2008年
6 龙敏;利用信息检索技术协助本体浏览的工具[D];上海交通大学;2007年
7 宋捷;基于语义网络的远程教育系统研究[D];对外经济贸易大学;2006年
8 孙娜;基于本体和潜在语义索引算法的文本分类方法研究[D];东北师范大学;2009年
9 王艳萍;基于XML的移动信息检索模型研究[D];大连理工大学;2006年
10 李丽;基于本体的网页文本分类的研究[D];北京交通大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026