收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

短文本相似度计算在用户交互式问答系统中的应用

宋万鹏  
【摘要】: 随着互联网的迅速发展和Web 2.0概念的提出,问答(Question Answering)系统逐渐成为一种新的信息检索技术。和传统的搜索引擎返回大量相关文档不同,问答系统直接返回给用户精确的答案,从而省去了用户从大量相关的文档中去寻找自己所需信息的时间。尽管如此,传统的自动问答系统仍然难以满足人们的需要,这是因为机器的理解能力有限,往往不能很好的理解人们提出的问题,因而难以产生令人满意的答案。正因为如此,用户交互式问答(User-interactive Question Answering,也叫社区问答)系统应运而生。和传统的自动问答系统不同,用户交互式问答系统给广大用户提供了一个基于互联网的平台,使得人们可以自由的在网上进行提问和回答,从而实现人与人之间的互相帮助。由于答案都是由人来提供,而人的理解能力远远强于机器,因而答案的质量相比自动问答就有了明显的提高。 短文本相似度计算在用户交互式问答系统中具有举足轻重的作用,因为问题和答案都是短文本的形式,进行问题和答案的处理必然要涉及到对问题及答案语义的理解及相似度的判断。短文本相似度计算在用户交互式问答系统中的应用主要包括常见问题自动问答、问题自动分类以及答案聚类。本文围绕这几方面的应用进行了深入研究,研究内容和创新之处如下: 首先,提出了一种基于语义空间计算问题相似度的方法来解决常见问题的自动问答。该方法通过系统累积的问题构造一个语义空间,将问题映射到该空间中计算问题相似度。通过语义空间,问题信息能够得到更好的表示,从而使得问题相似度的计算更加精确。此外,该方法还通过特征聚类去除了冗余信息,提高了计算效率。 其次,提出了一种新的基于相似度计算的问题自动分类的方法。该方法从累积的问题集中抽取出一些重要的词(Term)作为特征来构造一个特征空间并将每个类别用特征空间中的一个向量来表示。对于每个用户问题,首先也将其映射到特征空间中,然后计算问题和各个类别的相似度,最终将具有较高相似度的几个类别推荐给用户。此外,该方法还利用语义模板对问题中和主题相关的词进行识别并增加其权重,从而更好的表示了问题信息。 最后,提出了一种有效的对同一个问题的答案进行聚类的方法。该方法按照内容或语义将同一问题下的所有答案进行聚类。此外,还为每个类选出一个代表性的答案提供给用户,这样用户通过这些代表答案就能快速的把握所有答案主要的信息。该方法包含两个重要组成部分:答案相似度计算方法和聚类算法。对于答案相似度计算,提出了一种结合统计信息和语义信息的计算方法;对于聚类算法,提出了一种增长式的聚类算法来降低时间复杂度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张晓孪;王西锋;;中文问答系统中语义角色标注的研究与实现[J];科学技术与工程;2008年10期
2 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
3 付鸿鹄;基于W eb的开放领域问答系统研究[J];现代图书情报技术;2005年09期
4 高明霞;刘椿年;;基于模糊描述逻辑的PNL网络问答系统[J];计算机工程;2006年21期
5 王树西;赵星秋;潘硕;;问答系统在教学中的应用[J];中国教育信息化;2007年07期
6 杜玮;邸书灵;孙树静;;基于互联网技术的问答系统研究[J];微计算机信息;2007年36期
7 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
8 李东园;白宇;蔡东风;;面向中文问答的信息检索系统及评测[J];沈阳航空工业学院学报;2009年03期
9 李季;一个标准中文问答系统的研究与实现[J];计算机系统应用;2004年06期
10 王国金,康耀红;基于布尔检索策略的问答系统性能研究[J];科技广场;2005年10期
11 黄莉;;浅析汉语问答系统中的句子检索方法[J];价值工程;2010年14期
12 卢志坚,张冬茉;基于事例的问句分析器[J];计算机仿真;2004年05期
13 李秋青;;基于问答(Q&A)系统原理的WAP信息检索[J];科技广场;2006年01期
14 张亮;王树梅;黄河燕;张孝飞;;面向中文问答系统的问句句法分析[J];山东大学学报(理学版);2006年03期
15 张莉;李东生;肖燕峰;;基于Web的受限领域问答系统研究及应用[J];电脑开发与应用;2007年05期
16 张莉;刘雅举;李东明;侯晨伟;;中文问句分类系统的分析[J];科技情报开发与经济;2007年25期
17 谢能付;;基于交互式接口的农产品问答系统[J];农业网络信息;2008年08期
18 李波;邱锡鹏;曹均阔;;查询扩展在开放领域问答系统中的应用[J];计算机应用与软件;2009年07期
19 王波;;高性能在线销售问答系统知识源的构成[J];商场现代化;2009年34期
20 陈玉;;基于“为什么”问句的中文问答系统研究[J];农业网络信息;2010年11期
中国重要会议论文全文数据库 前10条
1 何靖;陈翀;闫宏飞;;开放域问答系统研究综述[A];第六届全国信息检索学术会议论文集[C];2010年
2 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
3 王树西;刘群;白硕;王斌;程学旗;姜吉发;;基于动态知识库的问答系统研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 张琼;陈群秀;;面向网络的问答系统研究综述[A];第一届学生计算语言学研讨会论文集[C];2002年
5 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 于士涛;袁晓洁;师建兴;杨娜;;一种Web问答系统中基于XML片段的语义项模型[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 栾家阳;张文波;姚天昉;;基于汽车领域的情感问答系统设计与实现[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 葛正荣;李婷玉;姚天昉;;汉语情感问题类型分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 张宇;刘挺;文勖;;基于改进贝叶斯模型的问题分类[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王树西;白硕;;中文问答系统中的模式推理[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 胡德鹏;基于农业本体问句分析的问答系统研究与架构设计[D];中国农业科学院;2013年
2 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
3 路遥;用户交互式问答系统中问题推荐机制的研究[D];中国科学技术大学;2012年
4 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
5 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
6 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
7 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
8 夏天;研究性学习支持系统[D];华东师范大学;2007年
9 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
10 张显;信息距离理论及其在问答系统中的应用研究[D];清华大学;2008年
中国硕士学位论文全文数据库 前10条
1 卜文娟;基于概念图的中文问答系统的研究与实现[D];西北大学;2010年
2 刘祥;基于课程知识的问答系统研究与应用[D];大连海事大学;2010年
3 李旭锋;中文问答系统中问句理解和相似度计算的研究与实现[D];华南理工大学;2010年
4 刘渊杰;社区问答系统最佳回答机制的研究[D];上海交通大学;2010年
5 胡家豪;基于互联网的WEB舆情问答系统[D];电子科技大学;2011年
6 孙林;基于在线论坛的问答对识别研究与问答系统实现[D];哈尔滨工业大学;2010年
7 高艳影;中文问答系统中的问题分类研究[D];合肥工业大学;2011年
8 张诚;基于领域知识的限定域中文问答系统研究[D];上海交通大学;2010年
9 张兰轩;基于潜在语义分析的大学概况中文问答系统[D];大连理工大学;2004年
10 李畅;智能问答系统在高中物理教学中的应用[D];陕西师范大学;2011年
中国重要报纸全文数据库 前10条
1 张丽娜 记者 孙悦群;依兰投资60万创建农业科技信息平台[N];黑龙江经济报;2006年
2 郑鸿海叶聿辉;轻点鼠标 要点尽览[N];人民公安报;2007年
3 ;腾讯网2007证券中国投资论坛在京举办[N];财会信报;2007年
4 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
5 本报记者 朱文利 熊雯琳 本报美国特约记者Andriy Cole;人机大战,沃森赢了 它还只是一台电脑吗?[N];电脑报;2011年
6 郑杏果;林永青:不要问我盈利模式![N];中国计算机报;2006年
7 陈沛 刘学习编译;门户与搜索日渐融合[N];计算机世界;2006年
8 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
9 黄锴;团购网的线下体验[N];21世纪经济报道;2008年
10 ;捷通力推迷你型声讯服务[N];中国计算机报;2000年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978