收藏本站
《中国科学技术大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

社区问答搜索中排序方法的研究

伍浩铖  
【摘要】:近年来,社区问答(Community Question Answering,CQA)网站聚集了大量真实用户产生的问题和回答,在CQA中进行搜索已成为信息检索领域一个重要热点研究分支。其研究方向主要包含基于查询关键词的问题搜索排序,和对问题数据(包含问题、回答和用户)本身进行质量排序两个方面。前者称之为动态排序,与输入的关键词有关;后者称之为静态排序,与关键词无关,仅与问题数据本身的质量有关。动态和静态排序的研究都面临着重要的挑战。动态排序研究面临的主要挑战是用户的关键词时而简短,难以理解用户搜索意图;时而冗长,难以抓住关键词匹配的重点。而静态排序研究面临的主要挑战是大部分与静态排序相关的研究都聚集在挖掘高质量的回答和找到权威的用户,而忽视了低质量的回答对于CQA网站的损害,以及回答质量和用户权威性之间的内在联系。因此,本文分别从以下四个方面来解决上述相应问题,从而整体上提高CQA搜索的性能。首先,提出一种通过挖掘用户搜索意图的方法来处理短关键词的动态排序问题。CQA中传统的问题搜索研究主要集中在长关键词和问句类型关键词的匹配问题。然而,当关键词很短时,由于缺乏对用户搜索意图的理解,该问题就变得很有挑战性。为解决这个问题,本文从多个不同的数据源挖掘短关键词的搜索意图,并提出一个新的基于搜索意图的语言模型。该语言模型不仅利用了目前最先进的问题搜索算法,还结合了从不同数据源中挖掘出的用户搜索意图。实验表明,该方法可以显著地提升短关键词上问题搜索的性能。其次,提出一种基于关键词切分的方法来处理长关键词的动态排序问题。本文回答了如何利用关键词切分的技术来改进问题搜索的性能。这里的关键词切分是指把输入的关键词分割成自然语言短语片段。首先,提出一种基于重排序方法的关键词切分技术。重排序的方法目前被广泛应用于自然语言处理领域,但就目前所知,该方法还没有被用在关键词切分的研究中。其次,提出一种将关键词切分应用到相关性排序的新的方法。该方法是将原关键词的单词和切分后的片段都应用到相关性匹配中。实验结果表明,该方法可以显著提升在长关键词上问题搜索的性能。再次,提出一种无监督的低质量回答检测方法,来处理回答质量评估的静态排序问题。CQA中的问题回答质量参差不齐,有精确的有用回答,也有不相关的无用回答。所以,自动检测低质量的回答有助于CQA网站的信息管理,为用户提供高质量内容。为此,提出了三个假设:大部分回答都是正常的;低质量的回答与同一问题中其它的回答有显著不同;不同的问题有不同的回答质量评价标准。基于这三个假设,本文提出了一个无监督的最优化模型,模型中每一个回答都被赋予一个软标签,以此来表示回答质量。实验结果表明,该模型可以显著提升低质量回答检测的性能。最后,提出一种基于相互强化的三元模型来处理用户权威性评估的静态排序问题。直观上,用户的权威性与回答的质量有正相关关系。所以,用户权威性评估离不开回答质量评估。与此同时,提问者通常选择质量最高的回答作为最佳回答,这样就使得最佳回答者与提问者和其他回答者之间形成竞赛关系。我们建立了一个迭代式相互强化的三元模型,分别是用户权威性模型、回答质量模型和竞赛模型。三个模型之间通过迭代方法不断地优化自身性能,最终能够同时获得用户权威性评估和回答质量评估。实验结果表明,本文方法可以显著改进用户权威性评估和回答质量评估的性能。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 杨吕仓 ,丁廷福;浅析主题词和关键词[J];档案学通讯;1990年04期
2 苏文;王骞;;结合实际案例分析关键词的选取[J];电视技术;2013年S2期
3 黎方正;谢东;;基于完全化语义的关键词检索研究[J];计算机应用研究;2010年10期
4 王霅煜;涂惠燕;;基于内容的语音课件关键词检索系统:设计与实现[J];计算机应用与软件;2011年04期
5 姚春;浅谈主题词和关键词在检索档案中的应用[J];煤炭技术;2001年01期
6 陈宁;;基于网络的关键词检索技巧[J];中国科技信息;2008年02期
7 裘伟廷;论文写作中用关键词检索网上资料问题[J];广州广播电视大学学报;2003年03期
8 吴蓓;;对数据库上关键词检索的研究与分析[J];信息安全与技术;2012年04期
9 李丹亚;胡铁军;;关键词的扩充检索功能[J];医学情报工作;1991年02期
10 罗骏;欧智坚;;一种高效的语音关键词检索系统[J];通信学报;2006年02期
中国重要会议论文全文数据库 前6条
1 罗骏;欧智坚;;一种高效的语音关键词检索系统[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
2 万新;赵良;何瑜;;医药食品领域发明关键词检索要素的划分[A];2014年中华全国专利代理人协会年会第五届知识产权论坛论文(第三部分)[C];2014年
3 刘勘;刘萍;;一种对学术论文关键词权值的动态调整方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 刘喜平;万常选;刘德喜;;基于语义返回XML关键词检索结果[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 向永清;邓志鸿;于航;高宁;;面向XML文档的二级索引技术及其在XML关键词检索中的应用研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 李求实;王秋月;王珊;;平衡IO和CPU的XML关键词检索技术[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
中国博士学位论文全文数据库 前4条
1 伍浩铖;社区问答搜索中排序方法的研究[D];中国科学技术大学;2017年
2 赵玉凤;图像检索中自动标注技术的研究[D];北京交通大学;2009年
3 李宝祥;语音关键词检索若干问题的研究[D];北京邮电大学;2013年
4 李经纬;云计算中数据外包安全的关键问题研究[D];南开大学;2014年
中国硕士学位论文全文数据库 前10条
1 张珍珍;云上密文数据的安全检索问题研究[D];北京邮电大学;2015年
2 胡长龙;中文微博的话题相关性分析研究[D];国防科学技术大学;2013年
3 邹旭;CNKI数据源的微博研究热点引文研究[D];天津财经大学;2014年
4 袁胜龙;资源受限情况下基于ASR的关键词检索研究[D];中国科学技术大学;2016年
5 刘远;基于内容的图像快速检索技术研究[D];中央民族大学;2016年
6 吴金蔚;大数据技术在用电需求分析中的应用研究[D];东南大学;2016年
7 袁小龙;云计算中模糊关键词可搜索加密方案研究[D];重庆大学;2016年
8 喻庚;中文手写文档的快速关键词检索[D];华中科技大学;2015年
9 袁闻;网络视频字幕中关键词的提取与检索技术研究[D];北方工业大学;2017年
10 杨洋;基于灰色关联聚类的房屋销售额预测关键词优化研究[D];吉林大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026