收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于潜在语义分析的大学概况中文问答系统

张兰轩  
【摘要】:问答系统是指能够根据用户输入的自然语言描述的问题从大量文本集中找出确切答案的计算机程序。 目前的检索系统只能定位出相关文本,却把具体信息检索的任务留给了用户自己,人们迫切需要一个能定位出用户感兴趣的信息而不是整篇文本的检索系统。基于以上原因,我们设计了一个基于潜在语义分析技术的大学概况中文问答系统QASYS,由于中国大学有上千所,每所大学的网页又是包罗万象,想查出确切信息要花费很长的时间。本系统将使这种查询变得相对简单,这对于想了解各院校情况的高考生们会提供很大的帮助。 本系统引入了潜在语义分析技术进行信息检索,避免了传统信息检索系统的同义词和多义词问题,提高了检索精度。另外,自然语言处理技术在问答系统中也起着至关重要的作用,包括特征项抽取、词频统计、语法和语义分析等。 整个系统划分为三个模块:文本库预处理模块、问题分析模块和答案抽取模块。 文本库预处理模块包括网页抓取、HTML格式滤除、分词、标注、词频统计、特征项提取等工作,并根据tf*idf变形公式计算每一个项的权重,生成项/文本矩阵;最后,对项/文本矩阵进行奇异值分解生成潜在语义空间。 问题分析模块同样要对用户提出的问题进行分词、标注、词频统计以及特征项提取,并根据词频把问题表示成易于处理的向量形式;这一模块中最重要的任务是进行答案类型分析,针对于不同类型的问题制定相应的答案抽取规则,以便在答案抽取阶段应用这些规则来抽取问题的答案。 在答案抽取模块,包括相关文本检索、相关文本段检索以及答案限长处理三部分内容。本文中提出了不同的文本和文本段的权重计算函数,将潜在语义分析技术与关键字匹配结合起来,即考虑了查询的语义信息,又充分认识到焦点对于返回答案的不容忽视的限制性作用,实验表明,将二者结合起来的检索方法比单纯采用其中一种的结果要理想得多;最后验证返回文本段的长度,将答案限制在50字之内返回给用户。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张莉;刘雅举;李东明;侯晨伟;;中文问句分类系统的分析[J];科技情报开发与经济;2007年25期
2 李波;邱锡鹏;曹均阔;;查询扩展在开放领域问答系统中的应用[J];计算机应用与软件;2009年07期
3 张莉;李东生;肖燕峰;;基于Web的受限领域问答系统研究及应用[J];电脑开发与应用;2007年05期
4 康海燕;李飞娟;苏文杰;;基于问句表征的web智能问答系统[J];北京信息科技大学学报(自然科学版);2011年01期
5 康海燕;刘文华;庄祺彦;;受限领域智能问答系统的研究与实践(英文)[J];西华大学学报(自然科学版);2008年02期
6 拜战胜;蓝岚;彭佳红;陈哲;;对话系统中控制模型的比较研究[J];郑州大学学报(理学版);2006年04期
7 张巍;陈俊杰;;浅层语义分析及SPARQL在问答系统中的应用[J];计算机工程与应用;2011年02期
8 夏天;杨瑛霞;田爱奎;张际平;;学习支持系统问题理解模块的架构[J];开放教育研究;2006年04期
9 周法国;杨炳儒;;句子相似度计算新方法及在问答系统中的应用[J];计算机工程与应用;2008年01期
10 李婷玉;葛正荣;姚天昉;;汉语情感问题类型分类研究[J];中文信息学报;2011年02期
11 陈哲;文敦伟;;用自然语言处理改进问答系统的研究和实现[J];计算机工程;2006年20期
12 游斓,周雅倩,黄萱菁,吴立德;基于最大熵模型的QA系统置信度评分算法[J];软件学报;2005年08期
13 李季;孙冀侠;;标准中文问答系统的研究与实现[J];鞍山师范学院学报;2005年06期
14 郭涛;郭浩;;图书信息领域中文问句浅层语义分析技术[J];太原理工大学学报;2009年04期
15 付鸿鹄;基于W eb的开放领域问答系统研究[J];现代图书情报技术;2005年09期
16 杜玮;邸书灵;孙树静;;基于互联网技术的问答系统研究[J];微计算机信息;2007年36期
17 余正涛;樊孝忠;郭剑毅;耿增民;;基于潜在语义分析的汉语问答系统答案提取[J];计算机学报;2006年10期
18 张晓孪;王西锋;;中文问答系统中语义角色标注的研究与实现[J];科学技术与工程;2008年10期
19 李季;一个标准中文问答系统的研究与实现[J];计算机系统应用;2004年06期
20 林鸿飞;丁洪文;杨志豪;赵晶;;基于概念和统计的问答系统实现机制[J];大连理工大学学报;2006年02期
中国重要会议论文全文数据库 前10条
1 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
2 刘艳芳;封化民;丁天昌;;中文视频问答系统研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
3 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
4 宋晓雷;王素格;李红霞;;基于概率潜在语义分析的词汇情感倾向判别[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 何靖;陈翀;闫宏飞;;开放域问答系统研究综述[A];第六届全国信息检索学术会议论文集[C];2010年
6 王树西;刘群;白硕;王斌;程学旗;姜吉发;;基于动态知识库的问答系统研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 于士涛;袁晓洁;师建兴;杨娜;;一种Web问答系统中基于XML片段的语义项模型[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 张琼;陈群秀;;面向网络的问答系统研究综述[A];第一届学生计算语言学研讨会论文集[C];2002年
9 葛正荣;李婷玉;姚天昉;;汉语情感问题类型分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 刘昌钰;郭颖;唐常杰;翟静;李海宏;;基于潜在语义分析与Bayes分类的BBS文档鉴别[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国博士学位论文全文数据库 前10条
1 夏天;研究性学习支持系统[D];华东师范大学;2007年
2 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
3 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
6 张显;信息距离理论及其在问答系统中的应用研究[D];清华大学;2008年
7 姚红玉;基于教师专业化发展的虚拟导师系统设计[D];华东师范大学;2006年
8 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
9 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
10 宣云干;基于潜在语义分析的社会化标注系统标签语义检索研究[D];南京大学;2011年
中国硕士学位论文全文数据库 前10条
1 张兰轩;基于潜在语义分析的大学概况中文问答系统[D];大连理工大学;2004年
2 卜文娟;基于概念图的中文问答系统的研究与实现[D];西北大学;2010年
3 刘祥;基于课程知识的问答系统研究与应用[D];大连海事大学;2010年
4 李旭锋;中文问答系统中问句理解和相似度计算的研究与实现[D];华南理工大学;2010年
5 高艳影;中文问答系统中的问题分类研究[D];合肥工业大学;2011年
6 刘渊杰;社区问答系统最佳回答机制的研究[D];上海交通大学;2010年
7 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
8 刘艳芳;中文视频问答系统[D];燕山大学;2007年
9 张晓孪;中文问答系统中问题理解与信息检索的研究与实现[D];西北大学;2007年
10 胡家豪;基于互联网的WEB舆情问答系统[D];电子科技大学;2011年
中国重要报纸全文数据库 前10条
1 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
2 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
3 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
4 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
5 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
6 蓝岸;微软亚洲研究院在深设立实验室[N];深圳特区报;2006年
7 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
8 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
9 张丽娜 记者 孙悦群;依兰投资60万创建农业科技信息平台[N];黑龙江经济报;2006年
10 郑鸿海叶聿辉;轻点鼠标 要点尽览[N];人民公安报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978