收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义的文本相似度算法研究及应用

张金鹏  
【摘要】:互联网时代的快速发展,科技日新月异的进步,越来越多的信息充斥在网络平台上,网络平台上的数据表现出级数增长的势头,文本在众多信息载体中无疑是互联网上主要的载体形式,导致对文本的挖掘研究逐渐成为计算机领域的热点。文本分词、文本词性标注和文本表示等相关的基础研究都是为了最终的文本相似度计算,而文本的相似度计算则是众多上层文本应用领域进行深度研究的基础,文本相似度算法的研究作为联系基础研究和上层应用的纽带,已经在自然语言处理、文本分类、文本聚类、问答系统、信息检索、搜索引擎等众多文本挖掘领域中崭露头角,得到了极其广泛的应用。 文本相似度算法是指采用一定的策略来比较两个文本之间的相似程度。目前文本相似度算法主要朝着两个方向发展:其一为基于向量空间模型的余弦相似度算法;其二为基于语义词典的语义相似度算法。这两种做法在计算文本之间相似度时都具有一定的意义,但是都缺乏对文本自身特性(文本篇幅和文本语言特征等)的深入分析,余弦向量法相对适用于大篇幅文本,然而该相似度算法中各个关键词的关联性却被全盘忽略;语义词典法受词典容量的制约难以较为准确地反映文本之间的相似度。 不同文本应用领域中文本的特性存在着一定的差异(文本篇幅存在长、短之分,文本语言也存在中、英文之分),本文从实际的文本应用出发,展开对不同篇幅、不同语言文本之间相似度计算的研究。针对大篇幅文本中关键词数目丰富而关键词存在多义性的特性,对文本进行语义单元划分,语义单元中关键词间语义相关性采用不同的策略(关键词共现频率投票因子和关键词词性权重等)获得;针对不同语言特性(中文和英文)的小篇幅文本,对文本以词性为标识进行词性向量的划分,针对不同语言特性的文本,关键词语义化权值的定义也采用不同策略。 本文主要研究长-长文本、短-短文本和短-长文本之间的相似度比较,并将长-长文本之间的相似度比较算法应用于文本分类领域,短-短文本相似度比较算法应用于FAQ系统领域,短-长文本相似度比较算法应用于搜索引擎领域,实验表明,改进的语义相似度算法使得文本分类的准确率、句子相似度计算的准确率都有了较为明显的提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郭帆;余敏;叶继华;;一种基于分类和相似度的报警聚合方法[J];计算机应用;2007年10期
2 许鹏远;党延忠;;基于元相似度的推荐算法[J];计算机应用研究;2011年10期
3 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期
4 杨云;朱学峰;;一种新的计算中药指纹图谱相似度方法与实现[J];计算机测量与控制;2007年10期
5 熊子奇;张晖;林茂松;;基于相似度的中文网页正文提取算法[J];西南科技大学学报;2010年01期
6 刘萍;陈烨;;词汇相似度研究进展综述[J];现代图书情报技术;2012年Z1期
7 孙瑶瑶;刘杰;;基于Embedded MATLAB函数模块的图像相似度的实现[J];计算机与数字工程;2010年02期
8 朱新懿;耿国华;;颅面重构中颅面相似度比较[J];计算机应用研究;2010年08期
9 厉晗;徐向民;尤芳敏;钱民;马东;;利用相似度分割特征集的混合核构造方法[J];科学技术与工程;2007年04期
10 邢长征;孙伟;;一种改进的基于句子相似度的检测算法[J];计算机系统应用;2010年02期
11 刘婵;;基于相似度比较的文档碎片拼接到图像拼接[J];科技资讯;2014年04期
12 王小林;王义;;改进的基于知网的词语相似度算法[J];计算机应用;2011年11期
13 周明建;廖强;;基于属性相似度的知识推送[J];计算机工程与应用;2011年32期
14 张振海;王晓明;党建武;闵永智;;基于整体相似度的铁路应急救援预案推理决策方法研究[J];铁道学报;2012年11期
15 傅间莲,陈群秀;基于连续段落相似度的主题划分算法[J];计算机应用;2005年09期
16 曹灿;赵方;陈航;;基于权重树的领域本体片段相似度算法[J];计算机工程与设计;2010年20期
17 韩诚;;Vague集的相似度理论[J];计算机工程与应用;2010年36期
18 冯凯;王小华;谌志群;;基于动态规划的汉语句子相似度算法[J];计算机工程;2013年02期
19 朱云峰;;余弦距离算法在固定资产管理系统中文本相似度查询的应用[J];无锡商业职业技术学院学报;2013年06期
20 高迎;程涛远;;基于上下文相似度的对象识别模型的研究[J];计算机工程与应用;2008年23期
中国重要会议论文全文数据库 前4条
1 杜琦;巩政;;基于字符串相似度的自动评分算法实现[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
2 韩敏;唐常杰;段磊;李川;巩杰;;基于TF/IDF相似度的标签聚类方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 郭帆;叶继华;余敏;;分布式IDS报警聚合研究与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 何梅;刘亚军;陈耿;;词性划分和差额法在主观题阅卷中的应用[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前2条
1 朱新懿;三维颅面相似度比较的研究[D];西北大学;2012年
2 吴迪;基于加权相似度的序列聚类算法研究[D];燕山大学;2014年
中国硕士学位论文全文数据库 前10条
1 唐凌志;基于语义理解的论文相似度研究[D];湘潭大学;2011年
2 梁浩;网络新闻相似度检测系统[D];吉林大学;2011年
3 单晗怀;跨媒体相似度机制研究和实现[D];浙江大学;2006年
4 朱松;术语相似度和术语相关度的融合研究及应用[D];河北大学;2008年
5 裴冬梅;程序代码相似度中的代码转换技术的研究[D];内蒙古师范大学;2008年
6 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
7 黄妮;网络学习平台中的分词与句子相似度算法研究[D];陕西师范大学;2012年
8 王艳红;基于节点相似度的复杂网络社区发现算法的研究[D];西安电子科技大学;2014年
9 吕瑞鹏;基于移动概括的新用户相似度衡量方法[D];山东大学;2014年
10 胡正军;程序代码相似度检测方法研究及应用[D];中南大学;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978