收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文短语相似度计算方法研究及应用

王莹莹  
【摘要】: 文本相似度计算作为中文信息处理中的一项基础性技术,被广泛应用到文本分类、文本聚类、信息检索等多个领域,长期以来受到了众多学者的关注和研究。在信息大爆炸所带来的大量文本信息的数据堆积中,很大一部分是短文本数据或短语数据,因此,在短文本数据信息的处理问题上,短语的相似度计算变得越来越重要。本文就是针对中文短语信息的处理问题,提出了一种新的中文短语相似度计算方法。在算法的设计过程中,本文分析了短语间相匹配文字的位置、匹配位置的偏移值、匹配文字长度等多种因素,提出了中文短语间相似度的计算公式,并给出了该算法的实现代码。 围绕中文短语相似度计算问题,本文主要做了以下几方面工作: 首先,研究了多种文本相似度计算方法,并分析了文本相似度计算的现状和几种经典的文本相似度算法,对其适用领域和优缺点进行了剖析;分析了文本相似度计算在文本聚类中的应用和几种文本聚类方法。 其次,在对现有文本相似度计算方法分析研究的基础上,针对短语级别文本的信息处理问题,提出了一种新的中文短语相似度计算方法,然后对该方法的合理性进行了检验,并通过将不同的文本相似度算法用于同一种聚类算法,对本文提出的方法的有效性进行了检验。 最后,将中文短语相似度计算方法用于高校培养计划管理系统中的相似课程排查模块,实现了相似课程的聚类,并对整个系统进行设计实现。 本课题的研究及其成果对于中文信息处理中的多个领域尤其是中文短语的处理问题,都有一定的参考价值和良好的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 钱丽萍;汪立东;;基于中心短语及权值的相似度计算[J];郑州大学学报(理学版);2007年02期
2 郑德权;张迪;赵铁军;于浩;;Blog网页分类与识别技术研究[J];通信学报;2007年12期
3 丁振国;陈海霞;;一种基于知网的主观题阅卷算法[J];微电子学与计算机;2008年05期
4 谌志群;周其力;;基于综合语义的XML文档相似度计算方法[J];杭州电子科技大学学报;2009年03期
5 冉婕;孙瑜;;语义检索中的词语相似度计算研究[J];计算机技术与发展;2011年04期
6 丁传明;黎放;齐欢;;一种基于相似度的混合型多属性决策方法[J];系统工程与电子技术;2007年05期
7 姚全珠;孟丽;崔杜武;;基于CBR和XML的软构件检索方法[J];计算机应用;2007年07期
8 郭帆;余敏;叶继华;;一种基于分类和相似度的报警聚合方法[J];计算机应用;2007年10期
9 段寿建;杨朝凤;甘健侯;;基于领域本体的概念语义相似度和相关度综合量化研究[J];现代图书情报技术;2009年11期
10 马琳;苏一丹;莫锦萍;;协同推荐系统检测模型的一种优化方法[J];微计算机信息;2010年03期
11 陈千;向阳;魏韡;;概念匹配方法综述[J];计算机应用研究;2010年04期
12 王刚;邱玉辉;;基于本体及相似度的文本聚类研究[J];计算机应用研究;2010年07期
13 冉婕;孙瑜;漆丽娟;;基于本体的概念相似度计算及其应用[J];微型机与应用;2010年11期
14 邹李;杜小勇;何军;;B3:图间节点相似度分块计算方法[J];计算机科学与探索;2010年09期
15 刘文剑;郭宁;金天国;;制造资源本体的相似度计算模型[J];计算机集成制造系统;2010年11期
16 杨立波;;基于CFN的相似度计算在实例机器翻译中的应用[J];电脑开发与应用;2011年06期
17 卫瑜,曾凡平,蒋凡;基于相似度分析的分布式拒绝服务攻击检测系统[J];计算机辅助工程;2005年02期
18 宋琦;薛建武;;智能检索中基于用户模型的本体映射方法研究[J];现代图书情报技术;2006年09期
19 ;图书与情报工作[J];电子科技文摘;2006年12期
20 李鹏;陶兰;王弼佐;;一种改进的本体语义相似度计算及其应用[J];计算机工程与设计;2007年01期
中国重要会议论文全文数据库 前6条
1 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
2 张晓莹;张桂平;王裴岩;;领域本体构建中关系辅助判断技术研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩敏;唐常杰;段磊;李川;巩杰;;基于TF/IDF相似度的标签聚类方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
4 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
5 陈希友;冯少荣;张东站;薛永生;;基于反馈的用户访问预测模型[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 李默涵;王宏志;李建中;高宏;;一种基于二分图最优匹配的重复记录检测算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前6条
1 胡伟;面向MEMS产品概念设计的多模式实例检索与评价方法研究[D];华南理工大学;2012年
2 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
3 许鹏飞;图像结构化特征表达方法研究[D];哈尔滨工业大学;2013年
4 尹华罡;基于海量时空数据的路线挖掘与检索[D];中国科学技术大学;2012年
5 胡德鹏;基于农业本体问句分析的问答系统研究与架构设计[D];中国农业科学院;2013年
6 邢星;社交网络个性化推荐方法研究[D];大连海事大学;2013年
中国硕士学位论文全文数据库 前10条
1 唐中林;基于本体的概念相似度计算方法的研究[D];武汉理工大学;2013年
2 陈欣;一种基于多属性本体的概念相似度计算方法的研究[D];东北师范大学;2010年
3 俞云飞;多特征融合的电影相似度计算方法研究[D];华东师范大学;2012年
4 程佳;热点新闻间关系的研究[D];上海交通大学;2011年
5 李男男;交通数据中文名称与标准术语对应方法研究与实现[D];长安大学;2013年
6 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
7 王茹;交通术语与标准规范的符合性检测技术研究[D];长安大学;2011年
8 牛庆鹏;博客朋友推荐技术的研究[D];东北大学;2009年
9 牛庆鹏;博客潜在朋友推荐技术的研究[D];东北大学;2009年
10 李佳媛;汉语句子相似度计算技术及其应用[D];北京信息科技大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978