收藏本站
《湖北工业大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

带罚分因子的文本相似度计算

韩雅清  
【摘要】:随着信息技术的迅速发展,各类信息呈现出爆炸式增长,而文本数据依旧是最主要、最直接的信息载体,如何从海量文本信息中快速有效地提取有价值的信息,已成为信息处理领域的重要课题,并使得信息检索、信息过滤等技术被深入研究和广泛应用。作为它们的基础工作,文本相似度计算特别是中文文本相似度计算具有重要的研究意义。本课题就带罚分因子的中文文本相似度计算展开了研究,在改进现有的特殊标识符分词算法的基础上,提出了一种带罚分因子的中文文本相似度计算方法。算法将基于统计方法的高效性和基于语义方法的准确性相结合,借助向量空间模型的建模思想进行建模,然后以语义因素为切入点,考虑到中文文本在相似度的计算过程中词序、近义词等因素所带来的影响,提出了罚分因子的概念,并在相似度的计算过程中对近义词进行一定处理,得到了一种面向句子的文本相似度计算方法。论文首先改进了基于特殊标识符的分词算法,利用沙普利值模型对分词结果进行优化。过程可分为两大步:第一步根据非汉字类和汉字类的特殊标识符对文本进行分词,此过程中借助了二字词语分词的思想,对非特殊标识符的文本部分进行二字词语分词;第二步是利用沙普利值模型对分词结果进行优化,优化过程主要解决了某些汉字类的特殊标识符将一个完整的词切分成了几部分和某些固定的三字词或者四字词在二字词语的切分过程中被切开的问题,得到了更为准确的分词结果。对文本进行分词预处理后,可以以句子为单位建立词语向量,然后建立距离矩阵模型,计算出句子的罚分因子,并带入相似度计算公式,得出句级别的中文文本相似度。当处理完文本的所有句子之后,将句级别的相似度扩展到整个文本,从而可以得出文本相似度。计算过程中,考虑到近义词对相似度计算的影响,通过查询近义词词典,将近义词作为相同词语进行处理,以得到更加理想的文本相似度计算结果。论文最后,通过算例对不同的相似度计算方法进行了比较,说明带罚分因子的相似度计算方法在相似度计算准确性方面有了一定的提高。
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 廉站俊;吕学强;张玉杰;施水才;;基于句子相似度计算的信息抽取[J];现代图书情报技术;2007年06期
2 李伟;;中文语句相似度计算的方法初探[J];兰州工业高等专科学校学报;2009年04期
3 兰美辉;任友俊;徐坚;高炜;;k-部排序本体相似度计算[J];计算机应用;2012年04期
4 詹志建;梁丽娜;杨小平;;基于百度百科的词语相似度计算[J];计算机科学;2013年06期
5 田芳;;基于词语情感倾向的问句相似度计算[J];安庆师范学院学报(自然科学版);2014年02期
6 李锋,周凯波,冯珊;基于统计特征的属性相似度计算模型[J];华中科技大学学报(自然科学版);2005年06期
7 李仲生;王家琴;;基于本体的上层概念间相似度计算的研究[J];科学技术与工程;2007年10期
8 智慧来;智东杰;刘宗田;;基于概念格的概念相似度计算[J];计算机科学;2008年09期
9 贾宗福;王知非;;中文句子相似度计算的研究[J];科技信息;2009年11期
10 袁正午;李玉森;张雪英;;基于属性的文本相似度计算算法改进[J];计算机工程;2009年17期
中国重要会议论文全文数据库 前10条
1 刘磊;张桂平;蔡东风;季铎;;基于语义预测的双语术语相似度计算[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
5 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
6 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 郭文宏;范学峰;;基于语义词典和本体知识的概念相似度计算[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 关毅;王晓龙;王强;;论系统相似的度量[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前1条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
中国博士学位论文全文数据库 前4条
1 冯晓文;基于GPU的相似度计算关键技术研究[D];华中科技大学;2014年
2 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
3 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
4 任磊;推荐系统关键技术研究[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 薛慧芳;句子相似度计算理论及应用研究[D];西北大学;2011年
2 张玉娟;基于《知网》的句子相似度计算的研究[D];中国地质大学(北京);2006年
3 王石颖;基于情景框架和依存树的突发事件相似度计算[D];大连理工大学;2013年
4 张猛;基于话题的事件相似度计算[D];河北大学;2014年
5 张福华;本体自动生成中词汇相似度计算的研究[D];大连海事大学;2008年
6 李国佳;汉语全文相似度计算的研究及应用[D];电子科技大学;2011年
7 孙鸿伟;基于相似度计算的编程题自动评判方法研究[D];哈尔滨工程大学;2011年
8 郭勇;基于《知网》的词语相似度计算研究及应用[D];湖南大学;2012年
9 刘俊;基于依存关系的汉语复句内分句的相似度计算[D];华中师范大学;2014年
10 唐琦;基于语义分析的句子相似度计算研究[D];华北电力大学(北京);2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026