收藏本站
《华中师范大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

词语语义相关度计算研究

游博  
【摘要】:词语语义相关度是表示两个词语相关程度的一个概念,它反映的是词语的关联程度,即看到一个词语,是不是可以想到另外一个词语,我们可以用两个词语在同一语境下共同出现的可能性来衡量这两个词语的语义相关度。语义相似度和语义相关度是两个很容易混淆的概念,语义相似度是指词语之间的相似性。语义相关度和语义相似度之间是有联系的,如果两个词语语义相似,那么它们一定语义相关,但是反过来,如果两个词语语义相关,它们不一定语义相似,所以我们可以将语义相似度作为语义相关度计算的一个组成部分。 语义相关度计算对于机器翻译、信息检索、文本分析等自然语言处理研究任务具有重要意义,是一项基础性的研究工作。本文研究了现有的语义相关度计算方法,然后提出了一种基于搜索引擎的语义相关度计算方法,具体的工作如下: 第一、现有的词语语义相关度计算方法大致可以分为传统的语义相关度计算方法和基于网络百科全书的语义相关度计算方法;而传统的方法又可以进一步分为两类:基于语义词典(WordNet、知网)的计算方法和基于语料库的计算方法。本文对这些方法需要用到的语义资源做了详细的介绍,紧接着阐述了每一类中具有代表性的几种语义相关度计算方法,详细分析它们的理论基础和特点。 第二、提出了一种核函数与Page Counts相结合的语义相关度计算方法,Page Counts是我们使用搜索引擎进行查询时返回的页面数。这为我们进行语义相关度研究提供了一个新的方向,充分利用高速发展的网络技术,为我们的研究服务。同时,我们还从以下三个方面验证了该方法的有效性:1、分析其理论依据;2、在标准测试集上实验,然后与人工判断的结果做比较;3、特定环境下评估该方法。通过实验验证,本文提出的方法与单独使用核函数或者Page Counts计算语义相关度对比,得到的结果与人工判断的结果更接近,所以本文提出的方法是有效的。 第三、本文介绍了语义相关度计算的一个应用——文本聚类,在词语语义相关度计算结果的基础上,对文本的语义相关度进行计算,我们可以提高文本聚类的精度。
【关键词】:语义相关度 核函数 文本聚类
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 绪论10-14
  • 1.1 研究背景及意义10-11
  • 1.2 论文的主要研究内容11-12
  • 1.3 论文的组织结构12-14
  • 第二章 语义相关度计算研究现状14-26
  • 2.1 语义资源14-19
  • 2.1.1 WordNet14-17
  • 2.1.2 知网17-18
  • 2.1.3 维基百科18-19
  • 2.2 传统方法19-23
  • 2.2.1 基于语义词典的方法19-22
  • 2.2.2 基于语料库的方法22-23
  • 2.3 基于维基百科的语义相关度计算方法23-24
  • 2.4 本章小结24-26
  • 第三章 基于搜索引擎的语义相关度计算26-39
  • 3.1 相关技术26-29
  • 3.1.1 核函数26-27
  • 3.1.2 搜索引擎资源27-29
  • 3.2 基于网络资源的语义相关度计算方法29
  • 3.3 核函数与Page Counts相结合的语义相关度计算方法29-33
  • 3.3.1 基于核函数的语义相关度计算29-31
  • 3.3.2 基于Page Counts的语义相关度计算31-32
  • 3.3.3 核函数与Page Counts相结合的语义相关度计算32-33
  • 3.4 实验评测33-37
  • 3.4.1 理论分析33
  • 3.4.2 标准测试集33-34
  • 3.4.3 实验结果34-37
  • 3.5 本章小结37-39
  • 第四章 语义相关度计算的应用39-42
  • 4.1 语义相关度计算在文本聚类中的应用39-41
  • 4.1.1 文本聚类的定义39
  • 4.1.2 文本聚类的过程39-40
  • 4.1.3 语义相关度计算在文本聚类中的应用40-41
  • 4.2 本章小结41-42
  • 第五章 总结与展望42-44
  • 5.1 全文总结42-43
  • 5.2 下一步研究工作43-44
  • 参考文献44-47
  • 攻读硕士学位期间参加的科研项目与公开发表的学术论文47-48
  • 致谢48

【参考文献】
中国期刊全文数据库 前3条
1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
2 吴友政,赵军,段湘煜,徐波;问答式检索技术及评测研究综述[J];中文信息学报;2005年03期
3 董振东;董强;郝长伶;;知网的理论发现[J];中文信息学报;2007年04期
中国博士学位论文全文数据库 前1条
1 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 黄春燕;上义词与下义词的选用[J];安徽大学学报;1999年03期
2 刘艳;浅析英语中语境对意义的影响[J];安徽大学学报;2003年06期
3 周海鸿;;《红楼梦》前八十回匾额翻译中的超额和欠额现象[J];安徽广播电视大学学报;2008年04期
4 张小红;;语言背后的镜子——简析预设在语言概念功能中的深层特征[J];安徽农业大学学报(社会科学版);2010年01期
5 李先华;;唐诗词语隐含义个案考察及相关问题研究[J];安徽师范大学学报(人文社会科学版);2006年06期
6 陈芙蓉;试论语境中的语义理解[J];华东冶金学院学报(社会科学版);2000年03期
7 易保树;;数量词的认知语义扩展:从精确到模糊[J];安徽工业大学学报(社会科学版);2009年04期
8 侯松山;张莹;;《洗澡》英译本中归化翻译策略的使用[J];安徽工业大学学报(社会科学版);2010年06期
9 李雯婧;;预设研究综述[J];安徽文学(下半月);2008年03期
10 黄宇红;;再析“非常”的词性[J];安徽文学(下半月);2008年05期
中国重要会议论文全文数据库 前10条
1 谢婷玉;;原型理论在英语学习型词典释义中的应用——以《牛津高阶英语学习词典》(第八版)为例[A];首届海峡两岸外语教学与研究学术研讨会暨福建省外国语文学会2011年会论文集[C];2011年
2 金明;;对英汉“文化限定词语”的思考[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
3 于伟昌;;汉译外来语言学术语标准化的必要性及其原则[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
4 储常胜;;语言与文化——浅析中英习语的文化差异[A];福建省外国语文学会2006年年会暨学术研讨会论文集(下)[C];2006年
5 李传芳;;EGP词义石化对ESP词汇学习的负迁移——基于对商务英语英汉翻译的实证研究[A];福建省外国语文学会2008年年会论文集[C];2008年
6 张煜;;《楚辞》的英译比较研究——以《九歌山鬼》为例[A];福建省外国语文学会2010年年会论文集[C];2010年
7 熊文新;宋柔;;信息检索查询语句的表述分析[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
8 刘克彬;李芳;刘磊;韩颖;;基于特征选择和语义扩展的词序列核函数研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年
10 周俏丽;蔡东风;张桂平;季铎;林晓庆;;基于最大熵的“vp np的np”句法结构排歧[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 吴善子;汉韩反诘语气副词对比研究[D];上海外国语大学;2010年
2 卢玉卿;文学作品中言外之意的翻译研究[D];南开大学;2010年
3 李秉震;汉语话题标记的语义、语用功能研究[D];南开大学;2010年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
6 方清明;现代汉语名名复合形式的认知语义研究[D];暨南大学;2011年
7 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
8 冀芳;济宁方言义位研究[D];山东大学;2011年
9 杨一飞;语篇中的连接手段[D];复旦大学;2011年
10 崔智英;电视访谈的语体特征研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄雪;俄汉语词汇理据性对比研究[D];哈尔滨师范大学;2010年
2 高健;与“半”相关格式的量范畴研究[D];哈尔滨师范大学;2010年
3 姚雅宁;汉语“玉”的多角度研究[D];上海外国语大学;2010年
4 杨帆;基于前景/背景分割和特征包算法的目标跟踪[D];大连理工大学;2010年
5 张文玲;基于特征联合和多核学习的运动目标跟踪[D];大连理工大学;2010年
6 魏春妮;“一样”结构的语义研究[D];湘潭大学;2010年
7 伍凌;“可是”的虚化及三个平面研究[D];湘潭大学;2010年
8 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
9 赵蓉梅;语境与高中英语词汇教学[D];华东师范大学;2010年
10 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
2 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
3 谭振华;程维;常桂然;高晓兴;;基于词汇相关度模型的个性化信息检索算法[J];东北大学学报(自然科学版);2008年04期
4 张志琴;图式知识与语篇衔接关系的建立[J];山西大学师范学院学报;2002年01期
5 王广正;王喜凤;;基于知网语义相关度计算的词义消歧方法[J];安徽工业大学学报(自然科学版);2008年01期
6 陈莉萍;;汉语篇章结构标注的理论支撑[J];南京航空航天大学学报(社会科学版);2008年03期
7 张德禄;语篇内部衔接的原则[J];解放军外国语学院学报;2001年06期
8 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
9 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期
10 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
中国重要会议论文全文数据库 前2条
1 郎君;刘挺;秦兵;;基于决策树的中文名词短语指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 吴友政;赵军;段湘煜;徐波;;构建汉语问答系统评测平台[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 凌坚;新闻视频主题识别与跟踪的研究[D];浙江大学;2007年
2 乐明;汉语财经评论的修辞结构标注及篇章研究[D];中国传媒大学;2006年
中国硕士学位论文全文数据库 前1条
1 马楠;现代汉语句段内的语义联系[D];黑龙江大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 李生琦;田巧燕;汤承;;基于《〈知网〉》词汇语义相关度计算的消歧方法[J];情报学报;2009年05期
2 龚永恩;袁春风;武港山;;基于语义的词义消歧算法初探[J];计算机应用研究;2006年03期
3 裘江南;罗志成;叶鑫;;语义相关度算法在主题抽取中的适用性研究[J];情报学报;2009年01期
4 陈肖雨;郭雷;方俊;;应用搜索引擎计算语义相关度的实现[J];计算机工程与应用;2010年30期
5 郑家恒,钱揖丽,李竞;二字词词义组合推理方法的研究[J];中文信息学报;2001年06期
6 车超;金博;滕弘飞;屈福政;;基于义原关系的多策略汉语词义消歧方法[J];大连理工大学学报;2010年04期
7 裘江南;李丽冬;吴力文;;客观知识体系中的相关性研究[J];情报学报;2009年03期
8 聂卉;龙朝晖;;结合语义相似度与相关度的概念扩展[J];情报学报;2007年05期
9 李赟;黄开妍;任福继;钟义信;;维基百科的中文语义相关词获取及相关度分析计算[J];北京邮电大学学报;2009年03期
10 赵应秋;罗军;张君艳;;基于知网的词语语义相关度计算[J];信息技术;2010年03期
中国重要会议论文全文数据库 前10条
1 田萱;杜小勇;李海华;;一种基于语义关系计算领域本体中概念间语义相关度的方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 张红春;何婷婷;涂新辉;周琨峰;;中文维基百科的结构化信息抽取及词语相关度计算[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王红玲;吕强;徐瑞;;一种基于知网的中文语义相关度计算模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 吴晨;张全;;基于HNC的自然语言问答处理系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 张运良;张全;;概念优先组合判断研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
9 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 夏云庆;郝博一;徐睿峰;;意见目标网络与意见目标抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前10条
1 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
2 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
3 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
4 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
5 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
6 康乐;漫谈搜索引擎技术[N];中国化工报;2002年
7 本报记者 高耀彬;质量 永恒的主题[N];中国教育报;2004年
8 记者 高敬云;我国少数民族语言信息化进程提速[N];中国民族报;2004年
9 ;发挥学科特色 创新理论体系[N];中国社会科学院院报;2005年
10 oov;视频搜索大决斗一触即发?[N];中国电脑教育报;2005年
中国博士学位论文全文数据库 前10条
1 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
2 赵英海;基于内容的多媒体视觉信息搜索研究[D];中国科学技术大学;2010年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
5 吴超;在线社会化网络的语义分析和语义社会网的构建[D];浙江大学;2010年
6 王琦;古代壁画的语义检索技术及应用研究[D];浙江大学;2011年
7 生佳根;基于本体的知识获取、管理和应用方法研究[D];南京航空航天大学;2012年
8 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
9 戈鹏;敏捷化CAPP系统原理、关键技术与应用实践[D];四川大学;2003年
10 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
中国硕士学位论文全文数据库 前10条
1 游博;词语语义相关度计算研究[D];华中师范大学;2013年
2 汪祥;基于中文维基百科的语义相关度计算的研究与实现[D];国防科学技术大学;2011年
3 肖江涛;基于本体的语义相关度算法研究[D];国防科学技术大学;2010年
4 吕文龙;基于AF模型的语义相关度的研究与应用[D];北京邮电大学;2013年
5 周文磊;基于链接开放数据的命名实体语义相关度算法设计[D];上海交通大学;2013年
6 王璐;基于本体的个性化推荐系统[D];电子科技大学;2013年
7 张功亮;基于领域本体的Web语义信息检索研究[D];广西师范大学;2011年
8 伍成志;基于维基百科的知识查找系统的研究与实现[D];华南理工大学;2012年
9 徐瑞;一个中文语义语料库的研究与建设[D];苏州大学;2006年
10 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026