收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

定义问答检索关键技术研究

龙华  
【摘要】:问答式信息检索(简称问答检索)是信息检索领域的一个重要研究方向。定义问答检索是问答检索的一个重要分支,其根据指定的目标概念,从开放领域(或指定)的文本中检索得到该概念的释义文本。由于概念的种类及其属性繁多且描述概念的方式较多,造成对其进行描述的释义文本形式差别巨大,从而使得当前定义问答检索方法对释义文本的识别具有一定困难。 当前方法以孤立语法标识为特征的对释义文本进行形式化不利于释义文本中释义语义的表示和计算,因为其形式化过程没有涉及到语义内容。不同种类概念及描述方式之间的差异造成释义文本的语言形式差别大,以所有定义样例为基础的学习及模式匹配的识别率低。传统的基于统计分析方法的定义识别中未能有效地计算语义特征在学习语料中出现的模糊性,降低了定义的识别率。当前定义问答检索的传统评价主要基于人工方式,一些基于自动评价的算法的形式化只以词汇为基础,没有考虑答案文本的语法和语义特征,从而降低评价语义上的准确性。针对释义文本中语义内容形式化问题、候选答案的评分过程中识别率低的问题、语义计算过程中涉及模糊性的问题和定义问答检索方法自动评价中的语义问题,本文探索使用释义内容单元(ECU)形式化释义文本,并将基于案例推理的消极学习法应用于定义评分过程,然后使用云模型进行候选答案评分,最后在定义问答检索方法的自动评价过程中使用金字塔模型。 归纳起来,本文的主要创新成果包括: ①提出了基于案例推理的定义问答检索方法。在文本检索领域,基于案例推理的学习方法通常用来处理复杂的文本检索问题(如法律案例检索)。因此,本文首次将其用于定义问答检索。本文首先将概念的释义文本进行依存语法解析获得其句法树,然后根据释义元语言将句法树转换为释义内容单元作为释义文本的形式化表示,从而构建定义案例。该方法检索与候选答案(查询案例)相似的定义案例集合,然后使用该集合对候选答案进行评分,减少相关性较低的定义案例对评分的影响。通过BCU-ECU方法增加案例检索过程将其构造为BCU-CASE方法,实验对比BCU-CASE、BCU-ECU和DT基准方法的F值的宏平均。实验结果显示,BCU-CASE比DT提高24%,BCU-CASE比BCU-ECU提高6%。基于案例推理的定义问答检索方法有效,且优于DT,其能改善一般基于统计分析的定义问答检索方法的性能。 ②提出了基于云模型的定义问答评分算法。自然语言的不确定性,尤其是模糊性和随机性一直是自然语言量化过程需要解决的主要问题,云模型通常用于量化自然语言的模糊性和随机性,因此,本文首次将其用于定义问答评分。本文以定义案例的释义内容单元为基础建立云模型的定量论域,然后将查询案例的释义内容单元作为云滴计算其特征值,以特征值为基础计算查询案例的评分值。通过将BCU-CASE方法的案例识别阶段的算法替换为该评分算法从而获得CLOUD-CASE方法,实验通过对比CLOUD-CASE、BCU-CASE和DT基准方法的F值的宏平均。实验结果显示,CLOUD-CASE比DT提高27%,CLOUD-CASE比BCU-CASE提高3%。基于云模型的定义问答评分算法有效,且优于DT,云模型具有优于基于统计分析的案例识别性能。 ③提出了基于释义内容单元的释义文本形式化方法。本文首先利用依存句法树结构的层次性句法和释义元语言对释义文本进行分析,获得用于释义的单元结构。实验基于BCU方法使用释义内容单元对句子进行形式化从而构建BCU-ECU方法。实验结果显示,BCU-ECU与DT基准方法的F值的宏平均,前者比后者提高18%,释义内容单元形式化有效,且能够改善定义问答检索方法的性能。 ④提出了基于金字塔模型的定义问答检索的自动评价算法APDQE。在自动摘要的评价领域,金字塔算法已经被用来作为评价的标准之一。因此,本文首次将其用于定义问答的自动评价。为了建立金字塔模型,本文以标准答案的释义内容单元为基础建立金字塔,然后获得被测答案中每个释义内容单元的权重值,最后计算出标准答案的得分。实验通过APDQE、POURPRE和人工评价不同定义问答检索算法的输出结果,以此基础计算APDQE和POURPRE分别与人工评价结果之间的判定相关系数R2,APDQE比POURPRE提高7%,实验结果显示APDQE有效且略优于POURPRE。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张军华;试论电视新闻的文本结构特征[J];广西师范学院学报(哲学社会科学版);2004年02期
2 薛翠芳,郭炳炎;汉语文本结构的自动分析[J];情报学报;2000年04期
3 李静月;李培峰;朱巧明;;一种改进的TFIDF网页关键词提取方法[J];计算机应用与软件;2011年05期
4 魏丽霞;郑家恒;;基于网页文本结构的网页去重[J];计算机应用;2007年11期
5 金艳;;手机短信的文本功能及特征分析[J];今传媒;2011年07期
6 朱荷香;曲维光;卢俊之;李素建;邵艳秋;;面向自动文摘的文本结构划分[J];南京大学学报(自然科学版);2008年02期
7 李丽娟;;敦煌写本临圹文研究[J];首都师范大学学报(社会科学版);2010年S1期
8 陈燕敏;楼喜中;;一种基于集聚确定文本意向结构的方法[J];微计算机信息;2010年18期
9 刘晓畅;;新闻的话语与话语的新闻——解读《作为话语的新闻》[J];湖北社会科学;2006年01期
10 陈翼;张计龙;宓詠;;一种跨领域的信息资源的描述标准——基于都柏林核心元数据的高校管理信息标准的研究与应用[J];情报学报;2008年03期
11 袁欣;米建荣;张晶;;英语新闻的文本结构和词汇特点[J];新闻爱好者;2009年16期
12 严励;王冠辉;;手机报的编写特点分析——以彩信模式的手机报为例[J];中国出版;2011年20期
13 张利,朱颖,吴国威;版面分割中文本区域最佳结构表示树的生成算法[J];中国图象图形学报;1998年07期
14 吴岩,李秀坤,王开铸;文章意义段划分的数学模型[J];哈尔滨工业大学学报;1998年06期
15 陈立强;张宜迁;;电视频道的话语特征及其文本结构[J];中国电视;2008年01期
16 徐福培,张炜;中文页面描述语言文本管理器的设计与实现[J];软件学报;1994年11期
17 陆汝钤;;自然语言对ALGOL68文本的影响[J];计算机科学;1980年02期
18 朱羽君,崔林;电视新闻调查节目的文本结构[J];现代传播;2004年06期
19 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
20 王晓平;张亭亭;;阅读文本研究述评[J];宁波大学学报(教育科学版);2008年05期
中国重要会议论文全文数据库 前10条
1 段娅;;论社会学批评的人本主义——评析戈德曼和齐马对社会学批评的发展[A];福建省外国语文学会2008年年会论文集[C];2008年
2 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 坂井洋史;;记忆·历史·文本——与周立民君商榷[A];细读《随想录》[C];2008年
4 王应云;谭见初;;汉语韵文英译方法论[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
5 刘玲;周经野;罗慧慧;;基于XML的文本规划方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
6 王冬梅;;文学性与文学翻译[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
7 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
8 陈炯;;立法语言的规范与创新[A];修辞学新视野——汉语修辞与汉文化学术研讨会论文集[C];2004年
9 周小甲;周庆利;;中文病历文本中时间信息自动标注[A];2011年浙江省医学会医学工程学分会第九届学术年会论文汇编[C];2011年
10 孟祥荣;;石碣、太尉及其它——漫议《水浒传》的叙事结构与主旨[A];水浒争鸣(第十一辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 王丹丹;森佩尔三个文本的形式原则比较研究[D];南京大学;2013年
2 温有奎;基于语义挖掘的文本知识元模型与应用研究[D];武汉大学;2010年
3 刘生良;《庄子》文学研究[D];陕西师范大学;2003年
4 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
5 钱纪芳;和合翻译观照下的服装文字语言翻译[D];上海外国语大学;2008年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 王媛;《今文尚书》文本结构研究[D];首都师范大学;2008年
8 贾学鸿;《庄子》结构艺术研究[D];华东师范大学;2007年
9 蒋斌;文本载体信息隐藏及相关技术研究[D];解放军信息工程大学;2008年
10 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 张年东;非连续性文本及其阅读和表达研究[D];西南大学;2014年
2 梁旭;评论文本的对立观点摘要的研究[D];北京交通大学;2013年
3 郑勤勤;面向专业领域的文本矩阵模型[D];华南理工大学;2012年
4 王来涛;网络短文本话题发现与趋势预测研究[D];北京工业大学;2013年
5 张娴;张洁小说语言音乐美试析[D];延边大学;2004年
6 庄明;装备发展战略研究信息化平台中汉语文本信息提取技术的研究[D];国防科学技术大学;2003年
7 乔宝辉;《德意志意识形态》第一章文本研究[D];黑龙江大学;2009年
8 史良;一种基于特征选择的层次化文本分类算法[D];哈尔滨工程大学;2013年
9 刘立胜;从读者接受的角度看文学翻译对等[D];重庆大学;2004年
10 吴朝辉;村落意义构成初探[D];浙江大学;2007年
中国重要报纸全文数据库 前10条
1 湖南省长沙铁路第一中学 黄福清;“多元解读”莫遭到误读[N];中国教育报;2006年
2 张磷;伦敦桥与翻译[N];中华读书报;2003年
3 ;采用国际标准管理办法[N];中国国门时报(中国出入境检验疫报);2002年
4 马洋;随心所欲建论坛[N];中国计算机报;2002年
5 程惠哲;《文学语言学》简评[N];光明日报;2005年
6 天津大学管理学院 张水波;FIDIC合同文本的发展与应用[N];国际商报;2007年
7 张稔穰;文学阅读与阐释的新视野[N];光明日报;2006年
8 刘绍艳;出口企业采用国际标准须关注的几个问题[N];宁波日报;2006年
9 冯光华;推动制度创新 奠定金融衍生产品市场坚实制度基础[N];中国证券报;2007年
10 本报记者 王玮;主旋律图书的模样[N];光明日报;2000年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978