关于网络社区问答知识重用的研究
【摘要】:给定一个(来自于用户的)问题作为输入,传统问答系统试图通过检索和分析文档来获得答案。然而,由于涉及到复杂的文档分析技术,该类系统很难在处理开放域(open domain)问题上获得成功。以上述事实为动因,本文研究如何通过重用已有的网络社区问答知识来实现自动问答。本文对于网络社区问答知识的定义不局限于来自于网络社区问答服务(如,百度知道)中的问答知识,该定义也包括分布于各种在线论坛和FAQ系统中的问答知识。问答知识以问题和答案对的形式存在(而非隐含在文档之中)。因此,相比传统问答系统而言,基于网络社区问答知识重用的自动问答不仅成功地避免了复杂的问答分析过程,同时更容易精准而有效地满足用户的信息需求。本文采取分而治之的策略,把网络社区问答知识重用的问题分解为如下四个子问题:
1.问答知识的抽取:该问题包含从网络社区问答服务、FAQ系统和在线论坛中抽取问答知识。比较而言,从前两类系统中抽取问答知识相对容易。因此,本文专注于从在线论坛中抽取问答知识的研究。特别地,本文提出了一个全新的图模型来描述该抽取问题,并通过使用结构化的支持向量机(Structural Support Vector Machines)来解决其相应的优化问题。
2.问题搜索和推荐:问题搜索是最通用的一种问答知识重用的机制。具体而言,给定一个查询问句,问题搜索需要返回在语义上与查询等价或接近的问句作为返回结果。问题推荐为本文提出的一种基于搜索的新的问答知识重用的机制。问题推荐试图自动发现与用查询问题主要关注点相关但是又在问题侧重点上有区别的问题。为了实现更好的问题搜索和推荐,本文提出了一种新的数据结构用于表达问题。该结构由两部分组成:问题主题和问题焦点。并以该结构为基础,针对问题搜索出了一种新型的语言模型;针对问题推荐提出了一个基于问题焦点替代的新的方法。
3.问题效用评价:关于问题搜索(或推荐),本文提出了静态排序的研究问题。并以该问题为出发点,进一步提出了问题效用评价的研究问题。问题效用定义为一个问题(及其答案)可被其他人重复使用的可能性。为了实现对问题效用的自动评估,本文尝试了基于语言模型的方法和基于LexRank的方法,以及它们的组合;并评估了问题效用作为静态排序对问题搜索的影响。
4.问题兴趣度预测:在网络社区问答服务中,用户通常被允许给问题添加一个意为‘interesting’的标签来表明用户兴趣的倾向性。基于该标签的标注可以用来提高基于浏览的问答知识重用。然而,这样的标注经常是稀疏的。为了解决这一数据稀疏问题,本文提出了问题兴趣度的研究问题—-自动预测一个问题有多少可能被标注为‘interesting’。为了实现自动预测问题兴趣度,本文提出了一个称为“基于群体意见的感知器”的算法。该算法能够着重于从代表多数用户意见(或观点、偏好)的实例上进行学习。
【关键词】:社区问答 问答抽取 问题搜索 问题推荐 问题效用 问题兴趣度 问题主题和问题焦点 【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP393.09
【目录】:
- 摘要3-5
- ABSTRACT5-7
- 目录7-11
- 表格索引11-13
- 插图索引13-14
- 第一章 绪论14-22
- 1.1 研究背景14-16
- 1.2 主要工作16-19
- 1.2.1 问答知识的抽取17
- 1.2.2 问题搜索与推荐17-18
- 1.2.3 问题效用的评价18-19
- 1.2.4 问题兴趣度的预测19
- 1.3 章节安排19-22
- 第二章 相关领域研究现状22-34
- 2.1 问答知识的抽取22-23
- 2.2 问答知识的重用23-30
- 2.2.1 问题搜索23-27
- 2.2.2 问题推荐27-28
- 2.2.3 问答的静态排序28-29
- 2.2.4 有关社区问答系统中用户行为的研究29-30
- 2.3 社区问答服务实例30-31
- 2.4 传统问答系统31-34
- 2.4.1 历史回顾32-33
- 2.4.2 主要方法33-34
- 第三章 问答知识的抽取34-56
- 3.1 引言34-37
- 3.2 问题的形式化定义37-39
- 3.2.1 符号与图表示37
- 3.2.2 结构化模型37-39
- 3.3 特征定义39-42
- 3.3.1 结点特征映射40-41
- 3.3.2 水平边特征映射41
- 3.3.3 标记组特征映射41-42
- 3.4 结构化支持向量机和其推理算法42-46
- 3.4.1 精确推理算法43-45
- 3.4.2 近似推理算法45-46
- 3.5 损失函数46-48
- 3.5.1 基于错误率的损失函数47
- 3.5.2 基于序列的损失函数47
- 3.5.3 权衡召回率和准确率的损失函数47-48
- 3.5.4 权衡上下文抽取和答案抽取的损失函数48
- 3.6 实验评测48-53
- 3.6.1 实验设置48-49
- 3.6.2 基线方法49-50
- 3.6.3 实验结果50-53
- 3.7 本章小结53-56
- 第四章 问题搜索与推荐56-84
- 4.1 引言56-59
- 4.1.1 问题主题与问题焦点56
- 4.1.2 问题搜索56-57
- 4.1.3 问题推荐57-58
- 4.1.4 基本思路58-59
- 4.2 基于MDL的树切分模型59-61
- 4.3 主题词的选取61-65
- 4.3.1 候选主题词的抽取61-63
- 4.3.2 主题词的归约63-65
- 4.4 问题主题与问题焦点的识别65-69
- 4.4.1 问题树的构建65-68
- 4.4.2 问题树的划分68-69
- 4.5 候选排序69-71
- 4.5.1 问题搜索的候选排序69-70
- 4.5.2 问题推荐的候选排序70-71
- 4.6 实验评测71-81
- 4.6.1 实验设置71-73
- 4.6.2 基线方法73
- 4.6.3 问题搜索的实验结果73-76
- 4.6.4 问题推荐的实验结果76-81
- 4.7 本章小结81-84
- 第五章 问题效用84-96
- 5.1 引言84-85
- 5.2 问题效用的定义及其估测方法85-88
- 5.2.1 基于语言模型的方法85-87
- 5.2.2 基于LexRank的方法87-88
- 5.3 作为问题搜索的静态排序88-89
- 5.4 实验评测89-95
- 5.4.1 实验设置89-91
- 5.4.2 实验结果91-95
- 5.5 本章小结95-96
- 第六章 问题兴趣度96-114
- 6.1 引言96-97
- 6.2 问题兴趣度97-100
- 6.2.1 有关‘interesting’的标注97
- 6.2.2 有关问题兴趣度的偏序关系97-100
- 6.3 预测问题兴趣度100-106
- 6.3.1 问题描述100-101
- 6.3.2 考虑偏好学习的感知器算法101-102
- 6.3.3 基于群体意见的感知器算法102-105
- 6.3.4 学习特征105-106
- 6.4 实验评测106-112
- 6.4.1 实验设置106-108
- 6.4.2 实验结果108-111
- 6.4.3 讨论分析111-112
- 6.5 本章小结112-114
- 第七章 总结与展望114-120
- 7.1 主要贡献114-116
- 7.2 工作展望116-120
- 参考文献120-132
- 简历132-134
- 致谢134-136
- 攻读学位期间发表的学术论文目录136-140