收藏本站
《上海交通大学》 2011年
加入收藏

关于网络社区问答知识重用的研究

曹云波  
【摘要】:给定一个(来自于用户的)问题作为输入,传统问答系统试图通过检索和分析文档来获得答案。然而,由于涉及到复杂的文档分析技术,该类系统很难在处理开放域(open domain)问题上获得成功。以上述事实为动因,本文研究如何通过重用已有的网络社区问答知识来实现自动问答。本文对于网络社区问答知识的定义不局限于来自于网络社区问答服务(如,百度知道)中的问答知识,该定义也包括分布于各种在线论坛和FAQ系统中的问答知识。问答知识以问题和答案对的形式存在(而非隐含在文档之中)。因此,相比传统问答系统而言,基于网络社区问答知识重用的自动问答不仅成功地避免了复杂的问答分析过程,同时更容易精准而有效地满足用户的信息需求。本文采取分而治之的策略,把网络社区问答知识重用的问题分解为如下四个子问题: 1.问答知识的抽取:该问题包含从网络社区问答服务、FAQ系统和在线论坛中抽取问答知识。比较而言,从前两类系统中抽取问答知识相对容易。因此,本文专注于从在线论坛中抽取问答知识的研究。特别地,本文提出了一个全新的图模型来描述该抽取问题,并通过使用结构化的支持向量机(Structural Support Vector Machines)来解决其相应的优化问题。 2.问题搜索和推荐:问题搜索是最通用的一种问答知识重用的机制。具体而言,给定一个查询问句,问题搜索需要返回在语义上与查询等价或接近的问句作为返回结果。问题推荐为本文提出的一种基于搜索的新的问答知识重用的机制。问题推荐试图自动发现与用查询问题主要关注点相关但是又在问题侧重点上有区别的问题。为了实现更好的问题搜索和推荐,本文提出了一种新的数据结构用于表达问题。该结构由两部分组成:问题主题和问题焦点。并以该结构为基础,针对问题搜索出了一种新型的语言模型;针对问题推荐提出了一个基于问题焦点替代的新的方法。 3.问题效用评价:关于问题搜索(或推荐),本文提出了静态排序的研究问题。并以该问题为出发点,进一步提出了问题效用评价的研究问题。问题效用定义为一个问题(及其答案)可被其他人重复使用的可能性。为了实现对问题效用的自动评估,本文尝试了基于语言模型的方法和基于LexRank的方法,以及它们的组合;并评估了问题效用作为静态排序对问题搜索的影响。 4.问题兴趣度预测:在网络社区问答服务中,用户通常被允许给问题添加一个意为‘interesting’的标签来表明用户兴趣的倾向性。基于该标签的标注可以用来提高基于浏览的问答知识重用。然而,这样的标注经常是稀疏的。为了解决这一数据稀疏问题,本文提出了问题兴趣度的研究问题—-自动预测一个问题有多少可能被标注为‘interesting’。为了实现自动预测问题兴趣度,本文提出了一个称为“基于群体意见的感知器”的算法。该算法能够着重于从代表多数用户意见(或观点、偏好)的实例上进行学习。
【关键词】:社区问答 问答抽取 问题搜索 问题推荐 问题效用 问题兴趣度 问题主题和问题焦点
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP393.09
【目录】:
  • 摘要3-5
  • ABSTRACT5-7
  • 目录7-11
  • 表格索引11-13
  • 插图索引13-14
  • 第一章 绪论14-22
  • 1.1 研究背景14-16
  • 1.2 主要工作16-19
  • 1.2.1 问答知识的抽取17
  • 1.2.2 问题搜索与推荐17-18
  • 1.2.3 问题效用的评价18-19
  • 1.2.4 问题兴趣度的预测19
  • 1.3 章节安排19-22
  • 第二章 相关领域研究现状22-34
  • 2.1 问答知识的抽取22-23
  • 2.2 问答知识的重用23-30
  • 2.2.1 问题搜索23-27
  • 2.2.2 问题推荐27-28
  • 2.2.3 问答的静态排序28-29
  • 2.2.4 有关社区问答系统中用户行为的研究29-30
  • 2.3 社区问答服务实例30-31
  • 2.4 传统问答系统31-34
  • 2.4.1 历史回顾32-33
  • 2.4.2 主要方法33-34
  • 第三章 问答知识的抽取34-56
  • 3.1 引言34-37
  • 3.2 问题的形式化定义37-39
  • 3.2.1 符号与图表示37
  • 3.2.2 结构化模型37-39
  • 3.3 特征定义39-42
  • 3.3.1 结点特征映射40-41
  • 3.3.2 水平边特征映射41
  • 3.3.3 标记组特征映射41-42
  • 3.4 结构化支持向量机和其推理算法42-46
  • 3.4.1 精确推理算法43-45
  • 3.4.2 近似推理算法45-46
  • 3.5 损失函数46-48
  • 3.5.1 基于错误率的损失函数47
  • 3.5.2 基于序列的损失函数47
  • 3.5.3 权衡召回率和准确率的损失函数47-48
  • 3.5.4 权衡上下文抽取和答案抽取的损失函数48
  • 3.6 实验评测48-53
  • 3.6.1 实验设置48-49
  • 3.6.2 基线方法49-50
  • 3.6.3 实验结果50-53
  • 3.7 本章小结53-56
  • 第四章 问题搜索与推荐56-84
  • 4.1 引言56-59
  • 4.1.1 问题主题与问题焦点56
  • 4.1.2 问题搜索56-57
  • 4.1.3 问题推荐57-58
  • 4.1.4 基本思路58-59
  • 4.2 基于MDL的树切分模型59-61
  • 4.3 主题词的选取61-65
  • 4.3.1 候选主题词的抽取61-63
  • 4.3.2 主题词的归约63-65
  • 4.4 问题主题与问题焦点的识别65-69
  • 4.4.1 问题树的构建65-68
  • 4.4.2 问题树的划分68-69
  • 4.5 候选排序69-71
  • 4.5.1 问题搜索的候选排序69-70
  • 4.5.2 问题推荐的候选排序70-71
  • 4.6 实验评测71-81
  • 4.6.1 实验设置71-73
  • 4.6.2 基线方法73
  • 4.6.3 问题搜索的实验结果73-76
  • 4.6.4 问题推荐的实验结果76-81
  • 4.7 本章小结81-84
  • 第五章 问题效用84-96
  • 5.1 引言84-85
  • 5.2 问题效用的定义及其估测方法85-88
  • 5.2.1 基于语言模型的方法85-87
  • 5.2.2 基于LexRank的方法87-88
  • 5.3 作为问题搜索的静态排序88-89
  • 5.4 实验评测89-95
  • 5.4.1 实验设置89-91
  • 5.4.2 实验结果91-95
  • 5.5 本章小结95-96
  • 第六章 问题兴趣度96-114
  • 6.1 引言96-97
  • 6.2 问题兴趣度97-100
  • 6.2.1 有关‘interesting’的标注97
  • 6.2.2 有关问题兴趣度的偏序关系97-100
  • 6.3 预测问题兴趣度100-106
  • 6.3.1 问题描述100-101
  • 6.3.2 考虑偏好学习的感知器算法101-102
  • 6.3.3 基于群体意见的感知器算法102-105
  • 6.3.4 学习特征105-106
  • 6.4 实验评测106-112
  • 6.4.1 实验设置106-108
  • 6.4.2 实验结果108-111
  • 6.4.3 讨论分析111-112
  • 6.5 本章小结112-114
  • 第七章 总结与展望114-120
  • 7.1 主要贡献114-116
  • 7.2 工作展望116-120
  • 参考文献120-132
  • 简历132-134
  • 致谢134-136
  • 攻读学位期间发表的学术论文目录136-140

【共引文献】
中国期刊全文数据库 前7条
1 王仲华;卢娇丽;付继宗;;基于HMSVM模型的中文浅层句法分析[J];电脑开发与应用;2013年02期
2 程凡;李龙澍;仲红;刘政怡;;一种基于潜变量的Ranking模型构造算法[J];华东理工大学学报(自然科学版);2011年06期
3 ;Multi-task multi-label multiple instance learning[J];Journal of Zhejiang University-Science C(Computers & Electronics);2010年11期
4 吴鹏;;非无限步下波动数学分类问题有限收敛性验证[J];科技通报;2014年06期
5 王文剑;王亚贝;;基于结构化支持向量机的中文句法分析[J];山西大学学报(自然科学版);2011年01期
6 顾彬;郑关胜;王建东;;增量和减量式标准支持向量机的分析[J];软件学报;2013年07期
7 肖锋;周杰;;训练结构化支持向量机的优化切平面法[J];清华大学学报(自然科学版);2013年07期
中国博士学位论文全文数据库 前4条
1 刘滨;基于频率谱的蛋白质结构和相互作用位点预测[D];哈尔滨工业大学;2010年
2 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
3 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
4 卢敏;具有自然分组特性文本的分类研究[D];南开大学;2013年
中国硕士学位论文全文数据库 前9条
1 丁朋;凸优化在大规模机器学习中的应用[D];华东理工大学;2011年
2 白文路;多光谱遥感影像的纹理特征研究[D];哈尔滨工业大学;2010年
3 聂潇寒;基于与或图的车牌检测与识别[D];北京理工大学;2011年
4 吕旸;户外目标识别及在增强现实中的应用[D];北京理工大学;2011年
5 王亚贝;结构化支持向量机学习方法及应用研究[D];山西大学;2011年
6 崔永超;凸优化方法在一类逆问题求解中的研究[D];河南工业大学;2013年
7 孙迪;基于结构输出回归的人体检测[D];哈尔滨工程大学;2013年
8 师小凯;基于隐马尔科夫模板模型的视频动作识别算法研究[D];武汉理工大学;2013年
9 邓辉;网页学习排序算法研究[D];华中科技大学;2013年
【相似文献】
中国期刊全文数据库 前10条
1 杨国平,高济;智能系统开发中的软件重用[J];计算机工程;1996年02期
2 蔡文沁,彭培林,姜寿山;航空产品设计知识的表示与重用技术研究[J];计算机集成制造系统-CIMS;2004年01期
3 雷轶,李津发,陈云川;知识管理在CRM中的应用[J];计算机与现代化;2004年11期
4 张成明,唐文献;支持创新设计的知识体系及共享方法研究[J];组合机床与自动化加工技术;2003年12期
5 王平;高德平;刘德仿;;有限元分析建模知识表示及重用技术研究[J];机械科学与技术;2005年11期
6 宗刚;李国洋;;国外知识重用研究述评及新进展[J];情报科学;2006年05期
7 唐国兴;郭魂;胡建;陈志伟;廖文和;;基于知识重用的产品快速设计过程研究[J];中国制造业信息化;2008年05期
8 金鹏;刘俊中;马翠霞;滕东兴;;基于知识重用的服装CAD系统[J];计算机工程;2009年20期
9 王满霞;;基于本体的机械制造知识研究[J];机电信息;2011年24期
10 吴朝晖;潘云鹤;;知识表达的发展状况和趋势[J];计算机科学;1995年06期
中国重要会议论文全文数据库 前10条
1 张立彬;蒋建东;张宪;钟江;;微小型农业机械产品设计新方法应用[A];自主创新与持续增长第十一届中国科协年会论文集(2)[C];2009年
2 雷玉霞;曹宝香;;军事本体设计及其知识分析[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
3 张伟民;陈乃录;胡明娟;潘健生;;热处理智能技术[A];首届中国热处理活动周论文集[C];2002年
4 潘星;王君;刘鲁;;一种基于知识管理的制造企业集成模型框架[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
5 王茹;邢毓华;;古建筑领域本体构建研究[A];首届工程设计高性能计算(HPC)技术应用论坛论文集[C];2007年
6 崔立辉;潘峰;陈杰;;RoboCup中Coach的设计及其实现[A];第二十二届中国控制会议论文集(下)[C];2003年
7 田永利;邹慧君;郭为忠;李学伟;;计算机辅助机电一体化系统概念设计中的知识及其表示方法的研究[A];第十四届全国机构学学术研讨会暨第二届海峡两岸机构学学术交流会论文集[C];2004年
8 胡志明;王仲奇;康永刚;韩洁;;基于知识重用的飞机装配型架设计研究[A];第二十九届中国控制会议论文集[C];2010年
9 翟建设;高志超;;军事气象水文保障知识本体构建研究[A];2009第五届苏皖两省大气探测、环境遥感与电子技术学术研讨会专辑[C];2009年
10 杨丽丽;;某大型航空制造知识管理系统的研究[A];2011年中国航空学会管理科学分会学术交流会议论文集[C];2011年
中国重要报纸全文数据库 前6条
1 王琨月;产品开发定成败 中国制造企业应重视PDM[N];中国电子报;2008年
2 谢金崇 熊光楞;并行工程的产品信息集成[N];计算机世界;2001年
3 清华大学教授 国家863课题组专家 博士生导师 范玉顺;管理软件面临的挑战与关键技术问题[N];计算机世界;2003年
4 西南交通大学CAD工程中心主任 孙林夫;产品创新与数字化设计技术[N];科技日报;2003年
5 本报记者 冯卫东;下一代搜索引擎呼之欲出[N];科技日报;2009年
6 左秋红;一院将用十年建成知识型企业[N];中国航天报;2011年
中国博士学位论文全文数据库 前10条
1 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
2 徐宏斌;面向知识重用的集成化管理信息系统企业建模研究[D];南京理工大学;2007年
3 胡建;产品设计知识管理关键技术研究及实现[D];南京航空航天大学;2005年
4 张银;基于知识的虚拟装配序列规划系统及其关键技术研究[D];南京航空航天大学;2005年
5 王体春;大型水轮机方案设计中的知识重用技术及其应用研究[D];哈尔滨工业大学;2009年
6 曹云波;关于网络社区问答知识重用的研究[D];上海交通大学;2011年
7 孙毅;基于知识重用的质量控制信息建模与数据挖掘算法及其应用研究[D];浙江大学;2007年
8 叶范波;基于本体的制造企业业务过程知识集成研究[D];浙江大学;2008年
9 王珂;支持快速设计的CBR技术及其应用研究[D];南京航空航天大学;2007年
10 雷轶;面向供应链的外部客户需求管理研究[D];东华大学;2008年
中国硕士学位论文全文数据库 前10条
1 魏峰;基于知识重用的堆垛机快速设计系统研究与开发[D];中北大学;2011年
2 李戬;基于知识重用的桥式起重机快速设计系统研究与开发[D];中北大学;2013年
3 温和林;面向产品设计过程的知识流程建模与知识重用研究[D];上海交通大学;2011年
4 高琳;基于知识重用的产品配置设计研究[D];河北联合大学;2013年
5 钱玲玲;标准件库管理系统中的知识重用技术研究[D];华中科技大学;2007年
6 李有为;基于本体论的制造业产品设计知识重用研究[D];合肥工业大学;2008年
7 章朝华;面向复杂任务情境的物流配送知识管理与重用模型研究[D];浙江工商大学;2009年
8 李俊峰;面向中小企业的产品开发管理系统研究[D];浙江大学;2010年
9 顾邦军;网络环境下虚拟产品设计的知识融合技术研究[D];南华大学;2007年
10 刘丽华;基于知识重用理论的减速器快速设计系统[D];武汉理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026