收藏本站
《重庆大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

聊天机器人知识库自动抽取算法的研究与实现

黄际洲  
【摘要】: 聊天机器人(chatbot)是一种通过自然语言同人进行交流的人机交流对话智能系统(conversational agent),人机之间的对话交流往往都局限于某个领域或者主题。聊天机器人一般都基于刺激——反应原理:用户提出一个问题,聊天机器人回答问题;或者用户做出某些评论,聊天机器人做出相应的反应。为了增加对话的连续性,聊天机器人往往还会在聊天过程中主动向用户提出新的问题。通常,聊天机器人都含有一个聊天知识库以及对话控制模块,聊天知识库就像聊天机器人的大脑,存储着回复用户输入的聊天知识,而对话控制模块则用于控制对话进程。一般而言,典型的聊天知识库都由一系列的模板组成,模板用于匹配用户的输入并根据一定的规则产生相应的机器人回复。但是目前用在聊天机器人中的模板,都是由人来手工构建的,因此聊天知识库的构建是一件费时费力的工作,并且缺乏灵活性,由此导致这种人工书写的方法在应用到新的知识领域或者新语言时,困难重重,比如一旦聊天机器人的知识领域发生了变化,就需要重新构建知识库。 本文提出并实现了一种新颖的聊天知识库构建方法,通过该方法,就能自动从在线论坛中抽取出形式为帖子标题,回复对的聊天知识。使用该方法,就能快速、有效地为聊天机器人构建某个领域的聊天知识。本文介绍的这种方法,是一种瀑布式模型(cascaded framework),给定一个论坛,经过以下步骤的处理,就能自动从中抽取出高质量的帖子标题,回复对。首先,通过使用一个基于回复和帖子标题之间的各种关系(如结构和内容特征)的SVM分类器,将所有和帖子标题在逻辑上相关的回复抽取出来。接着,再根据回复的内容质量等特征对这些抽取出来的帖子标题,回复对进行排序(采用的排序模型为ranking SVM)。最后,将排在前N的帖子标题,回复对选用为聊天知识。通过在一个电影论坛中进行的相关实验得到的结果表明,本文提出的自动抽取聊天知识的方法能快速、有效地构建聊天知识库。 本文的主要贡献为:1.本文第一个提出了使用在线论坛为聊天机器人自动抽取聊天知识;2.本文设计并实现了一种瀑布式模型来从在线论坛中抽取出高质量的形式为帖子标题,回复对的聊天知识。瀑布式模型可以在不同的阶段优化使用不同的特征,因此保证了抽取出来的聊天知识具有很高的质量;3.实验结果表明,在判别相关回复时,结构特征是最有效的特征,而在识别高质量回复时,作者信息是最有效的特征。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP393.09;TP301.6

知网文化
【引证文献】
中国期刊全文数据库 前1条
1 郭书杰;黄明;梁旭;;陪护机器人口语对话系统设计与实现[J];网络安全技术与应用;2010年12期
中国硕士学位论文全文数据库 前2条
1 梁文婷;汉语文本主题分析技术的研究与实现[D];重庆大学;2008年
2 杨哲萍;网络聊天机器人在少数民族汉语教学中的关键技术研究[D];中央民族大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
5 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
6 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
7 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期
8 李卓远,吴为民,王旸,洪先龙;一种新的光学临近校正方法(英文)[J];半导体学报;2003年12期
9 王一丁;杨虹;;基于多目标线性规划的人脸识别方法[J];北方工业大学学报;2009年01期
10 梁万路;;代价敏感支持向量机的投影次梯度求解方法[J];兵工自动化;2011年04期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 颜七笙;;基于PCA-SVM的动态联盟候选伙伴绩效评价方法[A];第十三届中国管理科学学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
3 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
4 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
7 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
8 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
9 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
10 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
3 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
4 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
5 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
6 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
7 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年
8 韩艳;基于支持向量机的发酵过程建模研究[D];大连理工大学;2010年
9 马稳;基于支持向量机的模拟电路故障诊断研究[D];大连理工大学;2010年
10 梁怀志;基于嵌入式的车型分类系统的设计与实现[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 盛锦华,张巧;人工智能研究的进展与发展趋势[J];安徽大学学报(自然科学版);1996年01期
2 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
3 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
4 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
5 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
6 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
9 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期
10 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
中国博士学位论文全文数据库 前2条
1 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
2 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前5条
1 吴曾;文本主题切分技术和ROCCHIO模型在信息检索中应用的研究[D];中国科学院研究生院(软件研究所);2004年
2 王彬;汉语人机对话系统中口语处理的研究[D];清华大学;2004年
3 倪丹;信息技术主题学习实践研究[D];东北师范大学;2007年
4 武旭晶;活知识的本质和形成[D];陕西师范大学;2007年
5 丁宏伟;内容知识库的研究和应用[D];北京信息控制研究所;2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 彭展;;三种不同类型语音对话系统的分析与研究[J];现代计算机;2013年15期
中国硕士学位论文全文数据库 前1条
1 高琦;基于Bootstrapping的本体标注方法研究[D];重庆大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 孔敬;;本体学习:原理、方法与相关进展[J];情报学报;2006年06期
2 安纪霞;李锡祚;宋冰;曾伟;;服务于词典编纂的特定领域专业术语自动抽取[J];计算机与数字工程;2007年11期
3 李亚桥;王晓东;李智;;基于树结构的包装器全自动生成方法的研究[J];河北工业大学学报;2007年06期
4 曾苏;马建霞;张秀秀;;元数据自动抽取研究新进展[J];现代图书情报技术;2008年04期
5 何琳;;领域本体的关系抽取研究[J];现代图书情报技术;2008年04期
6 张永奎,赵辄谦,陈鑫卿,白丽君;基于机器学习的网页主题词自动抽取[J];计算机应用;2003年03期
7 张秀秀;马建霞;;PDF科技论文语义元数据的自动抽取研究[J];现代图书情报技术;2009年02期
8 熊平原;王毅;陈庆新;毛宁;;基于压铸模本体的领域概念自动抽取方法研究[J];机械设计与制造;2011年07期
9 刘步中;杨继刚;张曦煌;;多分类SVM和RDF的生物信息元数据自动抽取[J];计算机工程与设计;2010年11期
10 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
中国重要会议论文全文数据库 前10条
1 邱艳霞;余正涛;张志坤;司圣涛;韩露;孟祥燕;;领域术语自动抽取方法研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 岳昆;李劲;石磐;刘惟一;;基于语义的Web服务主题自动抽取[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 胡东东;孟小峰;;一种基于树结构的Web数据自动抽取方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 王海雄;郭剑毅;余正涛;毛存礼;张朝胜;雷春雅;;基于CRFs的中文领域术语自动抽取研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 王栋;盛玉麒;;汉语否定极项(NPI)自动抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 聂志强;李庆忠;;电子政务信息集成中本体的自动抽取及优化[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
8 肖诗斌;乔春庚;李渝勤;施水才;;基于未标注语料的领域词汇自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 李超;王会珍;朱慕华;张俐;朱靖波;;基于领域类别信息C-value的多词串自动抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 彭国珍;邹纲;;基于汉英双语语料库述宾短语的自动抽取[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 本报记者 何飞 通讯员 林斓韬;清远落实“一网考”和“三挂钩”严把奖惩关[N];人民公安报;2010年
2 记者 许多;瑞安“三环”智能型湿巾包装机推向市场[N];中国包装报;2005年
3 ;潍坊专家抽取杜绝人为干扰[N];政府采购信息报;2006年
4 文心;不要光治标不治本[N];政府采购信息报;2007年
5 张厚美 李丹;自动监测站盯住千里嘉陵江[N];中国环境报;2007年
6 张厚美 青兴海 记者 张发政;千里嘉陵江第一“眼”实时监控川陕界水质[N];广元日报;2007年
7 王炳良;进场交易 规范运行[N];中国纪检监察报;2008年
8 江苏省淮安市政府采购中心 淮纪妍 孙建英 郑银东;依托科技监控手段确保评审公平公正[N];中国财经报;2009年
9 刘林记者 欧维佳;搬“家”前 先过环保检查关[N];南充日报;2007年
10 沈俊霖;我市有形建筑市场“蛋糕”越做越大[N];青岛日报;2008年
中国博士学位论文全文数据库 前10条
1 杨月华;基于领域知识模型的突发事件智能信息检索系统研究[D];北京邮电大学;2013年
2 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
3 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
4 李卫;领域知识的获取[D];北京邮电大学;2008年
5 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
6 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
7 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
8 林贤明;复杂场景下的人体行为识别若干关键技术研究[D];厦门大学;2014年
9 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
10 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱鑫;词语搭配自动抽取方法对比研究[D];大连海事大学;2011年
2 李姗;面向术语自动抽取的英语词汇形态特征分析[D];大连海事大学;2012年
3 孙蝉娟;航空器及其安全领域术语定义的自动抽取[D];南京航空航天大学;2010年
4 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
5 康琪;基于Bootstrapping的领域知识自动抽取技术的研究[D];山东大学;2012年
6 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
7 马晶晶;金融领域信息的自动抽取与分析方法[D];哈尔滨工业大学;2013年
8 杨继刚;基于J2EE-SSH框架的小鼠信息数据库系统的设计与实现—PBMICE-SR语义检索框架[D];江南大学;2009年
9 颜佳伟;基于Hadoop的Web评论自动抽取方法研究[D];杭州电子科技大学;2013年
10 卢凤琴;针对模板生成网页的数据自动抽取方法的探讨与应用[D];华东师范大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026