收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web社区问答检索的关键技术研究

产文  
【摘要】:社区问答服务是指人们通过web社区相互交流来提出问题和获取解答的服务。由于社区问答系统中包含了许多真实人工用户生成的知识和经验分享,它已经成为人们常用的除传统搜索引擎以外比较流行的信息求助方式。在社区问答系统中,用户可以基于自然语言表达的方式提交问题直接向社区中的其他用户寻求答案,也可以通过自动检索得到与该提问相似的问题,并进一步使用相似问题的现成答案。对于大多数非事实性问题特别是一些带个人上下文或寻求建议的开放性问题,问题检索往往比基于自然语言处理和信息检索从web文档中抽取文档片段并提取答案的传统方法更加有效。正因为如此,针对web社区一般性问题的检索已经成为下一代智能信息检索的一个重要组成部分。稀疏化学习是近年来兴起的新型统计学习方法。本文以稀疏正则化为主要工具,对社区问答中的一系列关键技术开展研究。具体而言,本文主要研究了web社区中复杂多语句问题的答案摘要技术,问题的自动层次话题分类技术和问题检索模型的改进技术。本文的主要工作和创新点如下:1.自动答案摘要:对于社区中的复杂多语句问题,即那些往往包含很多子问题和相应上下文的问题,其“最佳答案”往往存在所谓的“答案不完整”缺陷--它对应的“最佳答案”不够全面完整,缺失了其它答案中包含的对问题回答有用的信息。本文提出一种新颖的自动答案摘要方法来归纳问题的所有答案中的有价值的信息。该方法基于条件随机场模型来对答案句子间的局部/非局部上下文关系进行建模,并使用组L1正则化来对参数进行惩罚,充分挖掘各特征的潜能。2.问题层次分类:用户在社区问答系统上提交问题时,系统要求用户为该问题手工选择一个层次目录来表明问题的话题类别,这样既方便系统将该问题推荐给相应话题的领域专家去解答,也可以便利今后其他用户的浏览和检索。然而,手工给问题进行类别标注需要对整个层次目录体系有全面认识,因而既费时又影响用户体验。为了省去手工对问题进行话题分类的麻烦,本文提出一种自动的问题核化层次话题分类算法,将问题中各特征的多核学习和参数的稀疏正交约束结合起来,在提升模型对相似话题类别的判别能力的同时减少了模型的参数个数。3.问题检索模型:为了进一步提高社区问答中已有问题的可用性,本文研究了基于自动分类结果改善问题检索效果的技术。现有的检索模型在度量某个查询词对该查询的重要性时往往按其在查询中出现的频率来计算,这对于那些每个查询词只出现一次的情形不起作用。与现有的检索方法不同,我们使用稀疏化的问题分类方法来模拟真实用户的层次类别标注过程,并且根据该过程来自动挑选其中的重要检索词项和获取其对该查询的局部权重。另外,我们还对初步检索结果进行基于结果间相似度的重排序,进一步提高问题检索的性能。本文的多数方法都使用带有稀疏性质的正则化项来约束模型的参数。这样做有几个好处:第一,减少了模型的参数。由于特征的减少,模型所需要的训练数据也相应地减少,防止了模型因为参数太多而过拟合的情况,并且增强了在新数据上的泛化能力;第二,提高了模型的效率。由于参数的减少,用于存储模型的空间和计算时间也有所降低;第三,有利于关系依赖的发现。通过稀疏化模型将那些干扰性的无关项去除后,模型能更加专注于那些真正对模型推理有帮助的特征。因此,本文中提出的稀疏化方法除了对社区问答检索比较有帮助,在其它web应用如冗长关键字检索、web文档分类和摘要上也有一定的启发意义。在真实社区问答数据集Yahoo! Answers上的一系列实验结果表明,本文提出的方法无轮是与当前较为先进的研究方法还是与一些强基准方法相比,准确度都取得了明显的提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李妍妍;李媛媛;叶世伟;;基于流形正则化的支持向量回归及应用[J];计算机应用;2007年08期
2 毛玉明;郭杏林;赵岩;吕洪彬;;基于精细计算的动载荷反演问题正则化求解[J];动力学与控制学报;2009年04期
3 仇光;郑淼;张晖;朱建科;卜佳俊;陈纯;杭航;;基于正则化主题建模的隐式产品属性抽取[J];浙江大学学报(工学版);2011年02期
4 刘超,刁现芬,汪元美;超声逆散射成像问题中的正则化方法研究[J];浙江大学学报(工学版);2005年02期
5 周定法;;电磁逆散射成像的一种混合正则化方法[J];微计算机信息;2007年13期
6 顾勇为;归庆明;张磊;;基于复共线性诊断的正则化方法[J];信息工程大学学报;2007年04期
7 蔡传宝;汤文成;;基于有限元法-正则化的弹性模量反求算法研究[J];应用力学学报;2009年01期
8 侯卫东,莫玉龙;动态电阻抗图象重建的正则化方法[J];计算机工程;2001年09期
9 王彦飞;数值求解迭代Tikhonov正则化方法的一点注记[J];数值计算与计算机应用;2002年03期
10 许建华,张学工,李衍达;最小平方误差算法的正则化核形式[J];自动化学报;2004年01期
11 凌建国;刘尔琦;梁海燕;杨杰;;基于正则化观测矢量的H无穷粒子滤波红外目标跟踪方法[J];红外与激光工程;2007年04期
12 宛艳萍;孙曙光;肖庭延;;数值求导的离散正则化方法[J];计算机工程与科学;2008年10期
13 任淑艳;李小鹏;杨永刚;李静;段海龙;;正则化技术在锥光全息测量图像处理中的应用[J];机床与液压;2011年09期
14 吴玲达;郝红星;;一种图像去模糊正则化恢复算法参数确定方法[J];国防科技大学学报;2012年04期
15 李妍妍;李媛媛;叶世伟;;基于流形正则化的分类与回归算法及应用[J];计算机仿真;2007年10期
16 李文亮;牟善祥;徐光进;刘峰;;基于正则化估计的宽带阵列通道校正方法[J];现代雷达;2013年02期
17 戴伟辉,高汝熹;不适定逆成像问题的多准则正则化求解方法[J];复旦学报(自然科学版);2000年01期
18 薛晖;;判别性正则化:一种新颖的分类器学习方法(英文)[J];Transactions of Nanjing University of Aeronautics & Astronautics;2009年01期
19 吕佳;;结合全局和局部正则化的半监督二分类算法[J];计算机应用;2012年03期
20 杨华,许王莉,赵红蕊,陈雪,王锦地;定量遥感正则化反演中的信息流及其控制[J];中国科学(D辑:地球科学);2003年08期
中国重要会议论文全文数据库 前8条
1 杨元喜;徐天河;;综合验前模型信息和验后观测信息的自适应正则化方法[A];《大地测量与地球动力学进展》论文集[C];2004年
2 解凯;吕妍昱;;一种高效的正则化参数估计算法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(上册)[C];2008年
3 苏利敏;王耀威;王彦飞;;基于SAR特征的正则化计算方法及其在纹理分类中的应用[A];第25届中国控制会议论文集(下册)[C];2006年
4 曹毅;吕英华;;基于微遗传算法和正则化处理的模糊图像复原方法[A];全国第13届计算机辅助设计与图形学(CAD/CG)学术会议论文集[C];2004年
5 周定法;薄亚明;;解电磁逆散射问题的截断完全最小二乘方法[A];第七届工业仪表与自动化学术会议论文集[C];2006年
6 魏素花;王双虎;许海波;;轴对称物体X射线层析成像的正则化方法[A];全国射线数字成像与CT新技术研讨会论文集[C];2012年
7 刘晓芳;徐文龙;陈永利;;基于非二次正则化的并行磁共振图像保边性重建[A];浙江生物医学工程学会第九届年会论文汇编[C];2011年
8 王金海;王琦;郑羽;;基于L_1正则化和投影方法的电阻抗图像重建算法[A];天津市生物医学工程学会第三十三届学术年会论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 钟敏;反问题多尺度迭代正则化方法[D];复旦大学;2014年
2 产文;Web社区问答检索的关键技术研究[D];复旦大学;2014年
3 王静;电阻抗成像的几种正则化方法研究[D];哈尔滨工业大学;2015年
4 方晟;基于正则化的高倍加速并行磁共振成像技术[D];清华大学;2010年
5 肖铨武;基于核的正则化学习算法[D];中国科学技术大学;2009年
6 薛晖;分类器设计中的正则化技术研究[D];南京航空航天大学;2008年
7 王林军;正则化方法及其在动态载荷识别中的应用[D];湖南大学;2011年
8 吴颉尔;正则化方法及其在模型修正中的应用[D];南京航空航天大学;2007年
9 王光新;基于稀疏约束正则化模型的图像提高分辨率技术研究[D];国防科学技术大学;2008年
10 杨俊刚;利用稀疏信息的正则化雷达成像理论与方法研究[D];国防科学技术大学;2013年
中国硕士学位论文全文数据库 前10条
1 焦彩红;正则化夹角间隔核向量机[D];河北大学;2015年
2 牛征骥;基于混合范数的电阻率反演算法研究[D];大连海事大学;2015年
3 杨娇;参数变化识别问题的稀疏约束正则化方法及应用[D];哈尔滨工业大学;2015年
4 董国志;反问题的正则化方法及其计算[D];湖南师范大学;2012年
5 岳建惠;电阻率成像反问题的混合正则化方法研究[D];大连海事大学;2012年
6 焦艳东;带约束的Tikhonov正则化方法的应用[D];河北工业大学;2004年
7 孟晋华;一维热方程热源识别问题的正则化方法[D];兰州大学;2009年
8 曹宏举;最大团问题的熵正则化方法研究[D];大连理工大学;2006年
9 梅丹;正则化模型下图像处理的算法设计与实现[D];国防科学技术大学;2007年
10 方丹;不适定非齐次抽象终止问题的正则化方法及其比较[D];华中科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978