收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于大规模问答语料的问题检索系统

王君泽  
【摘要】: 由于问句表达的文本模糊性以及自然语言本身的复杂性,现有的web搜索引擎还不能很好的处理用户的自然语言提问。正是由于web搜索引擎的这种不足,问答服务型网站作为其有益补充,在近年来得到快速的发展。在问答服务型网站,用户可以直接用自然语言描述自己的问题,并获取其他用户提供的答案,而无需像使用web搜索引擎那样,在大量返回结果中寻找答案。目前如"Yahoo! Answers"、“新浪爱问”、“百度知道”等问答服务型网站已经积累了海量的问答数据。比如截止至2009年7月,“百度知道”已经积累了超过7千万个中文问答对。 本论文的研究以互联网上的海量问答对数据为基础,构建基于大规模问答语料的问题检索系统中的关键技术。问题检索系统的主要思想是:根据用户提出的问题,可以在已有的问答语料中检索与该提问具有相同语义的问答对数据,并提供给用户,以直接满足用户的信息需求,从而避免了用户从大量网页中归纳答案、或者等待其他用户提供答案所带来的不便。 本论文对基于大规模问答语料的问题检索系统展开了一系列研究。首先,本论文研究了问题检索系统中的问题文本分类任务,以进一步确定用户的信息需求,改善用户的使用体验;同时,本论文提出对用户提问的主题进行分析,以更好的确定用户的信息需求,并自动的为用户提供与该提问语义相同或者相近的问题及相应的答案,以直接满足用户的信息需求;此外,考虑到人类社会中大量没有被问答服务型网站所包含,甚至并没有形成网页的知识,本论文讨论了如何对讨论组所产生的文本聊天数据进行分析,并从中提炼出问答数据,以扩充问题检索系统所能使用的问答语料,进一步提升问题检索系统的性能。本论文具体的研究内容和相关成果如下: 1、为了完善问题检索系统的功能,本论文深入研究了问题分类技术在问题检索系统中的应用。问题检索系统中的主要任务之一是对用户的提问进行分类,以进一步确定用户的信息需求。基于Kullback-Leibler Distance的分类算法在大规模文本和高维向量分类任务中表现出较高的分类精度,本论文在该算法的基础上,结合语言模型的思想,提出一种改进的分类算法:n-gram KLD。通过在一个大尺度的问答数据集合上进行的一系列实验,表明n-gram KLD算法在问题分类任务中取得了优于传统算法的分类效果,并且在计算复杂度以及对噪声数据敏感度方面都较好的满足了问题分类任务的要求。 2、本论文在语言模型的框架下,提出一种计算问题之间的相似度的方法。问题相似度计算的主要困难在于,问题文本往往较短,传统的文本相似度计算方法仅考虑了长文本的相似度处理,很难用于判断两个问句的主题是否相关;而针对问题本文等短文本的相似度计算的工作还较少。本论文提出利用大规模语料库中的单词之间的共现频度对单词间的关联关系进行建模;在此基础上,利用随机行走的思想,计算问句中各个单词与问句主题的相关程度,并按照与问句主题相关程度的不同,对问句中的不同单词设置不同的权重,以突出问句的主题。通过该策略有助于发现同样反映该主题的问句。实验表明,使用该方法可以有效的检索到与用户提问相关的其他问句,有助于根据使用者的信息需求,提供更高质量的检索服务。 3、按照百度的“暗网”计划的描述,互联网上的信息仅有不足0.2%的部分型成了可以被检索的网页,而人类社会中的大量知识还不能被搜索引擎检索到。本论文关注了由讨论组所产生的文本聊天数据。文本聊天数据中包含了大量的可用信息,这些信息往往构成不同的线索,每条线索都是关于某话题的有用的问答数据,但这些问答数据尚未能得到很好的管理和挖掘。本论文通过考虑聊天数据中消息的内容和上下文信息,并结合使用统计翻译模型的思想,挖掘消息与话题线索之间隐含的语义关联,按照不同的话题线索对消息文本进行归类。最后所形成的话题线索,是有用的问答对资源。通过在一个真实数据集进行的试验,表明本论文提出的方法的有效性。该方法有助于从讨论组所产生的文本聊天数据中提炼出问答对资源,进一步扩充问题检索系统所能使用的问答语料的规模。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐学锋;朱玉;;安全科技特色数据库建设——以华北科技学院图书馆为例[J];情报探索;2006年11期
2 彭奇志;;基于.NET的引文信息检索系统的研究与实现[J];现代情报;2007年01期
3 魏树铭;介绍一个多文种兼容的科技文献计算机管理和检索系统[J];图书馆工作与研究;1986年04期
4 余乃言,孙伯庆,陈北柳;《中国化工文摘》计算机编辑排版及检索系统[J];现代化工;1987年01期
5 本刊编辑部;《物理》已成为世界六大检索系统的“座上客”[J];物理;1991年07期
6 王占文;档案微机通用检索系统[J];郑州航空工业管理学院学报;1995年01期
7 阳世青;有色金属科技信息检索系统研究[J];世界有色金属;1997年09期
8 杨力,张青;浅析ChinaInfo之优势[J];中国信息导报;1998年08期
9 李法勇;在线信息检索系统市场策略探讨[J];情报理论与实践;1999年01期
10 邵仁志;基于Win32平台的通用文献数据库系统的研制[J];现代图书情报技术;2000年06期
11 于爱君;;电子期刊在文献检索中的应用[J];贵图学刊;2001年02期
12 吕淑萍;CrossFire Beilstein数据库及其检索[J];现代图书情报技术;2004年09期
13 李顺新,陈建勋;基于特征的钢结构标准件检索系统的研究与开发[J];计算机与现代化;2005年08期
14 ;天津大学学报期刊群简介[J];天津大学学报;2006年04期
15 任平;;SciFinder Scholar的检索及其特点[J];现代图书情报技术;2006年02期
16 高炯;;高校学报进入Ei收录刊源的几点措施[J];大连海事大学学报;2006年02期
17 ;《纳米技术与精密工程》进入EI检索系统[J];燃烧科学与技术;2006年03期
18 李明;;中科院声学所推出基于哼唱旋律或口说歌词的歌曲检索系统[J];应用声学;2006年04期
19 杨东波;廖祥文;;构建一个大规模、可扩展的数字图书馆检索系统架构[J];现代图书情报技术;2006年08期
20 阮伟娟;;ISI Web of Science数据库检索系统浅析[J];科技情报开发与经济;2006年24期
中国重要会议论文全文数据库 前10条
1 黄永光;刘挺;车万翔;胡晓光;;面向变异短文本的快速聚类算法[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
2 吴坚;;上海市高校自然科学学报被“SCI”等检索系统收录情况分析[A];学报编辑论丛(第十集)[C];2002年
3 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
4 罗先碧;蒋红;彭雪雪;朱和平;;国际重要检索系统及其对科技期刊的影响[A];科技编辑出版研究文集(第六集)[C];2001年
5 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
6 尹承恕;;论建立我国自主权威的论文评价体系[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(上册)[C];2002年
7 王克黎;;美国5种著名检索系统[A];第7届中国科技期刊青年编辑学术研讨会暨中国科技期刊的经营与发展论坛文集[C];2007年
8 杨光复;;论年鉴的检索系统和信息开发[A];创新与发展——云南省年鉴论文选(续集)[C];2006年
9 陈光宇;顾凤南;;《数学年刊》走向世界与国际接轨的探索[A];学报编辑论丛(第六集)[C];1996年
10 张秀峰;;国际医学英文文献检索系统的介绍及思考[A];学报编辑论丛(第七集)[C];1998年
中国博士学位论文全文数据库 前10条
1 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
2 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
3 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
4 易文晟;图像语义检索和分类技术研究[D];浙江大学;2007年
5 张志昌;开放域阅读理解关键技术研究[D];哈尔滨工业大学;2010年
6 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
7 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
8 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
9 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
10 赵晖;真实感汉语可视语音合成关键技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 齐晓倩;短语料固定语音检索技术研究[D];解放军信息工程大学;2011年
2 赵健;基于领域本体的RDF检索模型研究[D];吉林大学;2009年
3 胡长春;基于Lucene的中文自然语言搜索引擎[D];上海交通大学;2009年
4 于立平;图像视觉特征及其描述词汇的对齐研究[D];北京邮电大学;2010年
5 王玉娟;农业知识文本库检索系统关键技术研究[D];湖南农业大学;2012年
6 刘娟;韩国政治类语料特点研究[D];中国人民解放军外国语学院;2005年
7 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
8 毋菲;数值信息的抽取方法研究[D];山西大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 魏忠钰;金融新闻检索系统中新闻相关性分类研究[D];哈尔滨工业大学;2010年
中国重要报纸全文数据库 前10条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
2 艾文;让检索系统更人性化[N];中国计算机报;2004年
3 柯文;找音乐?会哼几句就行[N];人民日报;2006年
4 致蓝;知识管理的利器[N];科技日报;2001年
5 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
6 俞晓燕 刘景武;电子档案检索系统的探索[N];中国档案报;2003年
7 陈玉荣;更多、更快、更新的检索系统[N];中国企业报;2000年
8 章言;炎黄在线信息检索系统建立[N];中国质量报;2001年
9 梅青;《中国野生动物保护检索系统》通过鉴定[N];中国绿色时报;2006年
10 记者 刘洁;陕西:群众查找“红头文件”不再难[N];中国纪检监察报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978