收藏本站
《昆明理工大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

问答对自动获取的研究

孟祥燕  
【摘要】:问答对的规模和质量是影响基于常问问题集问答系统性能的重要因素,目前所使用的问答对库一般是人工构建的,往往需要耗费大量的时间和人力物力。本文围绕问答对库构建过程中的网页问答对自动获取,领域问答对过滤及相关问答对过滤等技术进行了一系列的研究和探讨,主要取得了以下几个方面的成果: (1)提出了一种基于DOM的网页问答对自动获取方法。该方法将HTML页面解析成DOM树形式,抽取树的文本节点作为问答对的候选,根据DOM树的节点和结构信息提取分类特征,采用改进贝叶斯分类算法,构造分类模型,实现了从网页中自动获取问答对的方法。问答对自动获取实验结果表明,该方法具有较好的效果。 (2)提出了一种结合句法结构关系和领域特征的领域问答对过滤方法。研究领域知识库构建方法,结合云南旅游领域特点,构建了云南旅游领域知识库。在句法结构分析的基础上,选取句子主干与领域词汇作为分类特征,采用改进贝叶斯分类器进行领域问答对过滤。实验结果表明,结合句法结构关系和领域特征进行领域问答对过滤具有很好的效果。 (3)针对问答对特点,提出了一种面向词组合与句子的相关问答对过滤方法。该方法通过计算词组合或句子和问答对的相似度来判断两者是否相关。以“知网”为基础,计算词语语义相似度。在句法结构分析的基础上,提取问答对中的有效搭配对,并计算有效搭配对之间的相似度,从而实现了融合词法、句法和语义的问答对相似度计算。而向词组合与句子的相关问答对过滤实验结果表明,该方法具有较好的效果。 (4)利用上述研究成果,搭建了网页问答对自动获取原型系统,云南旅游领域问答对过滤原型系统,面向词组合与句子的相关问答对过滤原型系统。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
2 秦兵;刘挺;王洋;郑实福;李生;;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
3 余正涛,樊孝忠,郭剑毅;基于支持向量机的汉语问句分类[J];华南理工大学学报(自然科学版);2005年09期
4 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
5 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 刘艳敏;刘飚;封化民;宋国森;方勇;;Web页面主题信息抽取研究与实现[J];计算机工程与应用;2006年21期
8 唐菁;沈记全;杨炳儒;;基于Web的文本挖掘系统的研究与实现[J];计算机科学;2003年01期
9 张亮;陈肇雄;黄河燕;;问题分类的计算模型研究[J];计算机科学;2006年04期
10 广凯;潘金贵;;一种基于向量夹角的k近邻多标记文本分类算法[J];计算机科学;2008年04期
【共引文献】
中国期刊全文数据库 前10条
1 刘建舟;刘晓华;;主观题自动批改技术的研究[J];湖北工业大学学报;2006年04期
2 王保民;刘明生;邢飞;;基于语义的语句相似度计算研究[J];河北科技大学学报;2011年04期
3 胡广朋;钱遥立;沈继峰;;一种应用规划识别建立自然语言接口的方法[J];江苏科技大学学报(自然科学版);2006年03期
4 刘亮亮;林乐宇;;基于查询模板的特定领域中文问答系统的研究与实现[J];江苏科技大学学报(自然科学版);2011年02期
5 江志雄,丁岳伟;基于K-近邻方法的网络信息文本分类[J];上海理工大学学报;2005年01期
6 王广正;王喜凤;;基于知网语义相关度计算的词义消歧方法[J];安徽工业大学学报(自然科学版);2008年01期
7 孙铁利;邓凯英;;基于Web的文本信息检索技术[J];信息技术;2007年09期
8 李丽莉;李娅;周琪云;;正则表达式在网络信息监控分析系统中的应用[J];信息技术;2008年04期
9 许增福,梁静国,田晓宇;基于加权模糊推理网络的文本自动分类方法[J];哈尔滨工程大学学报;2004年04期
10 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
中国博士学位论文全文数据库 前10条
1 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
4 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
5 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
6 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
7 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
8 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
9 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
10 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
2 秦兵;刘挺;王洋;郑实福;李生;;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
3 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
4 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
5 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
6 黄河燕,陈肇雄,胡曾剑;IHSMTS中实例模式获取机制的设计与实现[J];计算机研究与发展;2002年05期
7 葛瑞芳,李涓子;一个汉语词义自动标注系统的设计与实现[J];计算机工程与应用;2001年17期
8 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
9 王长胜,刘群;基于实例的汉英机器翻译系统研究与实现[J];计算机工程与应用;2002年08期
10 高思丹,袁春风;语句相似度计算在主观题自动批改技术中的初步应用[J];计算机工程与应用;2004年14期
【相似文献】
中国期刊全文数据库 前10条
1 王波;薛媛媚;;网上销售常问问答系统的构建[J];软件导刊;2009年02期
2 赖擎;曹力立;;受限领域中文问答系统的中心句识别的研究[J];计算机时代;2006年02期
3 李欢;刘倩;张英;;基于元搜索的信息检索模块的研究和实现[J];计算机系统应用;2011年05期
4 余刚;裴仰军;朱征宇;陈华月;;基于词汇语义计算的文本相似度研究[J];计算机工程与设计;2006年02期
5 魏保子;王儒敬;;隐含语义索引在农业技术问答系统中的应用[J];微电子学与计算机;2008年07期
6 卜文娟;张蕾;;基于概念图的中文FAQ问答系统[J];计算机工程;2010年14期
7 樊康新;;基于常见问题集的OTC问答系统的设计与实现[J];计算机系统应用;2008年12期
8 周俏丽;蔡东风;吕德新;朱江涛;吴英泽;;基于语义相似度的句法歧义结构消解[J];沈阳航空工业学院学报;2006年01期
9 田卫东;祖永亮;;基于答案模式和语义特征融合的答案抽取方法[J];计算机工程与应用;2011年13期
10 李伟;;中文语句相似度计算的方法初探[J];兰州工业高等专科学校学报;2009年04期
中国重要会议论文全文数据库 前10条
1 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 骆正华;;基于E-Chunk问句实例库问答系统的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
4 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
5 栾家阳;张文波;姚天昉;;基于汽车领域的情感问答系统设计与实现[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 张亮;尹存燕;陈家骏;;基于语义树的中文词语相似度计算与分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 何靖;陈翀;闫宏飞;;开放域问答系统研究综述[A];第六届全国信息检索学术会议论文集[C];2010年
9 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
2 本报记者 段裕祥 通讯员 舒军忠 刘学永;回家“就业”天地宽[N];桂林日报;2009年
3 张丽娜 记者 孙悦群;依兰投资60万创建农业科技信息平台[N];黑龙江经济报;2006年
4 记者 洪奕宜;网站特设专区 委员“开博议政”[N];南方日报;2007年
5 郑鸿海叶聿辉;轻点鼠标 要点尽览[N];人民公安报;2007年
6 本报特约撰稿人 夏玉霞 高为民;擅自通过财政返还税收的十大弊端[N];中国财经报;2003年
7 俞志新 李水根;创新——中药跨出国门的基础[N];健康报;2006年
8 田振坤 王连芝;黑龙江中医药大学建立蔓荆子药材指纹图谱[N];中国医药报;2005年
9 ;腾讯网2007证券中国投资论坛在京举办[N];财会信报;2007年
10 记者 高智虹 通讯员 董学文 李秀国;全市首家生态猪场落户青龙[N];秦皇岛日报;2008年
中国博士学位论文全文数据库 前10条
1 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
2 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
3 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
4 张显;信息距离理论及其在问答系统中的应用研究[D];清华大学;2008年
5 路遥;用户交互式问答系统中问题推荐机制的研究[D];中国科学技术大学;2012年
6 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
7 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
8 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
9 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
10 李茹;汉语句子框架语义结构分析技术研究[D];山西大学;2012年
中国硕士学位论文全文数据库 前10条
1 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
2 李旭锋;中文问答系统中问句理解和相似度计算的研究与实现[D];华南理工大学;2010年
3 刘祥;基于课程知识的问答系统研究与应用[D];大连海事大学;2010年
4 张诚;基于领域知识的限定域中文问答系统研究[D];上海交通大学;2010年
5 牛彦清;中文问答系统的问句分类研究[D];太原理工大学;2011年
6 卜文娟;基于概念图的中文问答系统的研究与实现[D];西北大学;2010年
7 胡家豪;基于互联网的WEB舆情问答系统[D];电子科技大学;2011年
8 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
9 刘桥妹;基于开放域问答系统的问题分类技术研究与实现[D];华南理工大学;2010年
10 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026