收藏本站
《电子科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语词语及句子相似度算法研究与应用

刘青磊  
【摘要】:词语和句子的相似度计算在信息检索、文本分类、问答系统以及基于实例的机器翻译等各领域中都有着广泛的应用。作为目前讨论的重点,本文主要从语义的角度出发对基于“知网”的词语及句子相似度计算方法进行了深入的研究。 基于“知网”的词语(句子)相似度计算通常是把义原(词语)之间的最优匹配对作为运算的基本单位,最终的整体相似度可由每一部分的相似度值通过适当的加权计算合成而来,这样的做法往往会造成一些匹配对内部信息的重复和结构的不合理。本论文正是针对该问题,在深入分析“知网”体系结构的基础上,对词语和句子的相似度计算以及词义消歧做了创新性和探索性的研究。主要内容为: 1.详细研究了当前基于“知网”的义原相似度计算方法。这类义原相似度计算机制往往是通过计算两个义原在上下位层次关系树中的路径距离来得到义原之间的相似度,没有或者很少考虑义原在层次树中的深度,本文综合考虑了义原间的路径距离以及义原层次树的深度,从义原所包含的信息结点数量出发,得到了一种新的义原相似度计算方法。 2.详细研究了目前常用的词语及句子相似度计算方法,并把讨论的重点放在了基于“知网”的词语及句子相似度计算上面。文章从信息论的角度出发,在上文所提出的义原相似度算法基础上,分别对两个义原集合之间的共有信息和差异信息进行统计,并据此得出两个义原集合之间的相似度,最终的词语(句子)相似度计算是以义原集合为计算单位的。 3.研究了目前常用的词义消歧算法的基本原理和具体方法。在“知网”提供的搭配实例以及上文中提出的句子相似度算法基础上,得到了一种简便快捷的词义消歧方法。 4.具体分析了自动问答系统构建的技术方法和模块架构,以基于常问问题集的问答系统模型为实例,体现了词语及句子相似度在具体应用领域中的重要性。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 卢志茂,刘挺,张刚,李生;基于依存分析改进贝叶斯模型的词义消歧[J];高技术通讯;2003年05期
2 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期
3 王荣波,池哲儒,常宝宝,柏晓静;基于词串粒度及权值的汉语句子相似度衡量[J];计算机工程;2005年13期
4 章志凌;虞立群;陈奕秋;罗海飞;邵晓敏;;基于Corpus库的词语相似度计算方法[J];计算机应用;2006年03期
5 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
6 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期
7 李峰;李芳;;中文词语语义相似度计算——基于《知网》2000[J];中文信息学报;2007年03期
8 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
9 胡俊峰 ,俞士汶;唐宋诗中词汇语义相似度的统计分析及应用[J];中文信息学报;2002年04期
10 全昌勤,何婷婷,姬东鸿,刘辉;从搭配知识获取最优种子的词义消歧方法[J];中文信息学报;2005年01期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
【共引文献】
中国期刊全文数据库 前10条
1 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 王小海;关于计算词典学[J];辞书研究;2003年05期
4 王祁,邹冰;现行英汉机器翻译系统存在的问题及解决策略[J];东北大学学报(社会科学版);2003年05期
5 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
6 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
7 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
8 刘亚军,徐易;一种基于加权语义相似度模型的自动问答系统[J];东南大学学报(自然科学版);2004年05期
9 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报;2003年02期
10 袁保宗,阮秋琦,王延江,刘汝杰,唐晓芳;新一代(第四代)人机交互的概念框架特征及关键技术[J];电子学报;2003年S1期
中国重要会议论文全文数据库 前10条
1 张俊萍;冯志伟;;CTT在汉语语法研究和教学中的应用[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 冯志伟;;确定切词单位的某些非语法因素[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 李晋霞;;面向计算机的“V_双+N_双”结构类型研究[A];语言文字应用研究论文集(Ⅱ)[C];2004年
4 章志凌;虞立群;罗海飞;邵晓敏;;基于改进Corpus库的词语相似度计算方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
5 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
6 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 毛家菊;张琳;夏爱军;陆汝占;;情景中汉语指示代词短语解释的形式化[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 姚建民;张晶;赵铁军;于浩;李生;;英语句法分析树向汉语分析树的转换[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
10 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
2 Xu Luomai;[D];广东外语外贸大学;1999年
3 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 马红妹;汉英机器翻译中汉语上下文语境的表示与应用研究[D];中国人民解放军国防科学技术大学;2002年
6 张蕾;概念结构及其应用[D];西北工业大学;2001年
7 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年
8 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
9 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
10 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 李晓丹;限定领域内基于web的智能问答系统[D];内蒙古大学;2005年
2 袁亮;一个基于WEB的信息组织与检索模型(WIORS)研究[D];武汉大学;2005年
3 汤赛丽;常识知识问答系统中知识库构建的研究与设计[D];河南大学;2005年
4 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
5 金珠;基于知网的话题跟踪和倾向性跟踪研究[D];大连理工大学;2005年
6 朱国华;文本信息处理中汉语句法分析方法研究[D];大连理工大学;2006年
7 李波;一种基于统计的汉语多义词排歧方法[D];大连理工大学;2000年
8 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
9 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
10 朱彦;复合词的语义结构与词素义的提示机制[D];广西师范大学;2000年
【二级参考文献】
中国期刊全文数据库 前10条
1 胡俊峰,俞士汶;唐宋诗之计算机辅助深层研究[J];北京大学学报(自然科学版);2001年05期
2 王鹏浩,朱璇,张京涛;高性能语音拨号器的设计与实现[J];电子技术应用;2000年12期
3 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
4 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期
5 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
6 吴健,吴朝晖,李莹,邓水光;基于本体论和词汇语义相似度的Web服务发现[J];计算机学报;2005年04期
7 郑杰,茅于杭,董清富;基于语境的语义排歧方法[J];中文信息学报;2000年05期
8 胡俊峰 ,俞士汶;唐宋诗中词汇语义相似度的统计分析及应用[J];中文信息学报;2002年04期
9 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
10 盛秋艳,何文广;基于Hopfield神经网络的概念检索技术[J];情报科学;2004年03期
中国重要会议论文全文数据库 前2条
1 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 颜伟;荀恩东;;基于WordNet的英语词语相似度计算[A];第二届全国学生计算语言学研讨会论文集[C];2004年
【相似文献】
中国期刊全文数据库 前10条
1 余刚;裴仰军;朱征宇;陈华月;;基于词汇语义计算的文本相似度研究[J];计算机工程与设计;2006年02期
2 傅鹤岗;徐晨霞;;基于知网的元搜索引擎多关键词检索研究[J];计算机工程与应用;2008年22期
3 张磊;高雪霞;;基于匈牙利算法的语义相似度分析在信息安全泄密检查中的应用[J];新乡学院学报(自然科学版);2010年06期
4 李晗静;李生;赵铁军;;汉语中方位参考点恢复研究[J];计算机研究与发展;2007年02期
5 程莉,卢正鼎,文坤梅,李娟;基于语义的模糊匹配探索与应用[J];华中科技大学学报(自然科学版);2003年02期
6 廖剑;冷静;李艳燕;黄荣怀;;知网的形式概念分析及概念相似度研究[J];计算机应用研究;2007年11期
7 张振幸;李金厚;;一种基于义原重合度的词语相似度计算[J];信阳师范学院学报(自然科学版);2010年02期
8 曹立勇;郑诚;;基于知网的语义相似度的改进算法[J];电子技术;2010年05期
9 蔡月红;朱倩;程显毅;杨天明;;基于句义三维模型的汉语句子相似度计算[J];广西师范大学学报(自然科学版);2009年01期
10 刘青磊;顾小丰;;基于《知网》的词语相似度算法研究[J];中文信息学报;2010年06期
中国重要会议论文全文数据库 前10条
1 苏伟峰;李绍滋;李堂秋;尤文建;;可分义原向量空间中的跨语种文本过滤模型[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 张宇;刘挺;高立琦;车万翔;朱传靖;;基于常问问题集的在线客服实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
6 杨晓峰;李堂秋;洪青阳;;汉英机器翻译系统中的一种词义排歧方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 郝长伶;董强;;知网知识库描述语言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 张亮;尹存燕;陈家骏;;基于语义树的中文词语相似度计算与分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 姚琦;乐国安;伍承聪;张宠;李燕飞;;目标实现的主观历史与调节定向:《调节定向问卷(RFQ)》在中国情景下的有效性[A];中国社会心理学会2008年全国学术大会论文摘要集[C];2008年
中国重要报纸全文数据库 前10条
1 本报记者 段裕祥 通讯员 舒军忠 刘学永;回家“就业”天地宽[N];桂林日报;2009年
2 本报特约撰稿人 夏玉霞 高为民;擅自通过财政返还税收的十大弊端[N];中国财经报;2003年
3 本报记者 柳春秋 许慧颖;顺义新城定位高端社区 五年建成[N];第一财经日报;2005年
4 记者 高智虹 通讯员 董学文 李秀国;全市首家生态猪场落户青龙[N];秦皇岛日报;2008年
5 杨建顺;公务员管理“一刀切”值得商榷[N];法制日报;2003年
6 本报记者  赵玫;在保护中开发[N];平凉日报;2006年
7 李卫东;浅论从法律上提高消费者维权案件中赔偿数额的必要性[N];国际商报;2003年
8 邢成;建立我国信托税收制度的基础条件及基本原则[N];证券时报;2003年
9 梁耀国记者 梁宏波;拜泉“啃住”两个亿元大项目不放[N];齐齐哈尔日报;2007年
10 任清雄;“生命线”系两头[N];山西经济日报;2000年
中国博士学位论文全文数据库 前10条
1 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
2 王菁华;文本中知识的获取[D];北京邮电大学;2008年
3 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
4 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
5 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
6 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
7 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
8 车超;知识自动获取的词义消歧方法[D];大连理工大学;2010年
9 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
10 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘青磊;汉语词语及句子相似度算法研究与应用[D];电子科技大学;2011年
2 薛慧芳;句子相似度计算理论及应用研究[D];西北大学;2011年
3 张振幸;基于知网的模块化的中文句子相似度计算研究[D];安徽工业大学;2010年
4 刘欣;智能答疑系统中句子相似度计算的研究与应用[D];电子科技大学;2011年
5 杨茂;基于句子相似度的文本比对算法研究[D];电子科技大学;2010年
6 黄妮;网络学习平台中的分词与句子相似度算法研究[D];陕西师范大学;2012年
7 岳烈骧;异构数据分析研究及在社保审计中的应用[D];哈尔滨工程大学;2008年
8 蔡开敏;基于本体映射的概念相似性算法研究[D];华中师范大学;2011年
9 张祎挺;语义角色标注及其在句子相似度计算上的应用[D];北京邮电大学;2008年
10 王春喜;融合多元信息的句子相似度计算研究[D];河南大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026