收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

问答系统中的短文本聚类研究与应用

倪兴良  
【摘要】:伴随着Web 2.0技术的快速发展,用户交互式问答系统已经吸引了越来越多的关注。交互式问答系统提供了一个从提问人到解答者的纽带,并且利用各种机制不断激励问答社区中的人提供答案、解决问题。然而,交互式问答系统中往往充满了各种相似甚至重复的问题。这些系统中的冗余问题大大影响了用户快速信息获取的需求。 本文致力于使用短文本聚类算法组织交互式问答系统中的问题。提出了一种新的聚类策略,TermCut策略。该策略首先发现文档集中的核心词汇,然后按照核心词汇的出现与否聚类短文本。为了检测这些核心词汇,本文将短文本集建模成一张图的形式。在这张图中,每一个节点代表了一条短文本,而节点之间的边代表了它们之间的语义关联。这样,按照某个词的出现与否,可以二分此图使得,其中一个子图中的短文本包含此词,而另一个子图中的短文本不包含此词。选择那些能够最大化类内相似度,同时最小化类间相似度的词,作为所谓的核心词汇。TermCut然后基于核心词汇的出现与否划分短文本集,划分结果中一个簇包含该核心词汇,而另一个簇不包含此词。通过不断的二分文档集,最终,一系列的聚类结果得以形成。 基于TermCut聚类策略,本文进一步提出了两种具体的聚类算法,分别是基于目标类数的TermCut (CNTC),以及基于阈值的TermCut (TTC).二者的区别在于终止条件的不同。CNTC使用先验的目标聚簇数作为终止条件。当算法已经产生了足够多的聚类时,便停止继续二分的过程。在某些特定情况下,很难获得具体的目标聚簇数。这种情况下,本文提出了TTC算法。与CNTC不同,TTC使用一个相似度阈值作为算法的终止条件。当划分过程不能导致类内相似度的增加和类间相似度的减少时,便终止该算法,并将结果输出。 本文然后设计了一个原型系统,将所提出的短文本聚类算法应用到问题推荐中去。首先,提出了一种基于主题的用户兴趣度模型来获取交互式问答系统中不同用户的兴趣。基于该兴趣模型,可以按照用户的兴趣,将系统中的问题进行排序。排序较高的问题将被聚类,并推荐给用户。文中将会给出该算法的展示界面。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 潘炜;沈超;;列表问答系统中的答案聚类重排序[J];计算机应用与软件;2010年07期
2 党琰,张冬茉,李芳;角色反演算法在问答系统中的应用[J];计算机工程与应用;2004年36期
3 张晓孪;王西锋;;中文问答系统中语义角色标注的研究与实现[J];科学技术与工程;2008年10期
4 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
5 付鸿鹄;基于W eb的开放领域问答系统研究[J];现代图书情报技术;2005年09期
6 高明霞;刘椿年;;基于模糊描述逻辑的PNL网络问答系统[J];计算机工程;2006年21期
7 王树西;赵星秋;潘硕;;问答系统在教学中的应用[J];中国教育信息化;2007年07期
8 杜玮;邸书灵;孙树静;;基于互联网技术的问答系统研究[J];微计算机信息;2007年36期
9 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
10 李东园;白宇;蔡东风;;面向中文问答的信息检索系统及评测[J];沈阳航空工业学院学报;2009年03期
11 李季;一个标准中文问答系统的研究与实现[J];计算机系统应用;2004年06期
12 王国金,康耀红;基于布尔检索策略的问答系统性能研究[J];科技广场;2005年10期
13 黄莉;;浅析汉语问答系统中的句子检索方法[J];价值工程;2010年14期
14 卢志坚,张冬茉;基于事例的问句分析器[J];计算机仿真;2004年05期
15 李秋青;;基于问答(Q&A)系统原理的WAP信息检索[J];科技广场;2006年01期
16 张亮;王树梅;黄河燕;张孝飞;;面向中文问答系统的问句句法分析[J];山东大学学报(理学版);2006年03期
17 张莉;李东生;肖燕峰;;基于Web的受限领域问答系统研究及应用[J];电脑开发与应用;2007年05期
18 张莉;刘雅举;李东明;侯晨伟;;中文问句分类系统的分析[J];科技情报开发与经济;2007年25期
19 谢能付;;基于交互式接口的农产品问答系统[J];农业网络信息;2008年08期
20 李波;邱锡鹏;曹均阔;;查询扩展在开放领域问答系统中的应用[J];计算机应用与软件;2009年07期
中国重要会议论文全文数据库 前10条
1 何靖;陈翀;闫宏飞;;开放域问答系统研究综述[A];第六届全国信息检索学术会议论文集[C];2010年
2 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
3 王树西;刘群;白硕;王斌;程学旗;姜吉发;;基于动态知识库的问答系统研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 张琼;陈群秀;;面向网络的问答系统研究综述[A];第一届学生计算语言学研讨会论文集[C];2002年
5 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 于士涛;袁晓洁;师建兴;杨娜;;一种Web问答系统中基于XML片段的语义项模型[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 栾家阳;张文波;姚天昉;;基于汽车领域的情感问答系统设计与实现[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 葛正荣;李婷玉;姚天昉;;汉语情感问题类型分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 张宇;刘挺;文勖;;基于改进贝叶斯模型的问题分类[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王树西;白硕;;中文问答系统中的模式推理[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
2 路遥;用户交互式问答系统中问题推荐机制的研究[D];中国科学技术大学;2012年
3 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
4 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
5 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
6 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
7 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
8 夏天;研究性学习支持系统[D];华东师范大学;2007年
9 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
10 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 卜文娟;基于概念图的中文问答系统的研究与实现[D];西北大学;2010年
2 刘祥;基于课程知识的问答系统研究与应用[D];大连海事大学;2010年
3 刘渊杰;社区问答系统最佳回答机制的研究[D];上海交通大学;2010年
4 李旭锋;中文问答系统中问句理解和相似度计算的研究与实现[D];华南理工大学;2010年
5 胡家豪;基于互联网的WEB舆情问答系统[D];电子科技大学;2011年
6 孙林;基于在线论坛的问答对识别研究与问答系统实现[D];哈尔滨工业大学;2010年
7 高艳影;中文问答系统中的问题分类研究[D];合肥工业大学;2011年
8 张诚;基于领域知识的限定域中文问答系统研究[D];上海交通大学;2010年
9 张兰轩;基于潜在语义分析的大学概况中文问答系统[D];大连理工大学;2004年
10 李畅;智能问答系统在高中物理教学中的应用[D];陕西师范大学;2011年
中国重要报纸全文数据库 前10条
1 张丽娜 记者 孙悦群;依兰投资60万创建农业科技信息平台[N];黑龙江经济报;2006年
2 郑鸿海叶聿辉;轻点鼠标 要点尽览[N];人民公安报;2007年
3 ;腾讯网2007证券中国投资论坛在京举办[N];财会信报;2007年
4 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
5 本报记者 朱文利 熊雯琳 本报美国特约记者Andriy Cole;人机大战,沃森赢了 它还只是一台电脑吗?[N];电脑报;2011年
6 郑杏果;林永青:不要问我盈利模式![N];中国计算机报;2006年
7 陈沛 刘学习编译;门户与搜索日渐融合[N];计算机世界;2006年
8 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
9 黄锴;团购网的线下体验[N];21世纪经济报道;2008年
10 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978