收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于文本语义及结构的中文文本相似度研究

钟杰  
【摘要】:信息化技术的快速发展,互联网每天新增的网页成千上万,大量网页的产生增加了人们获取有效知识的难度,如何从海量网页信息中快速准确挖掘出有用信息成为了人们关注的重点。而文本相似度的有效计算对信息处理起着关键作用,除信息检索领域外,文本相似度计算在页面去重、自动问答、文本聚类分类等领域都有着广泛应用。现有绝大部分文本相似度算法都是基于英文文本基础上而提出来的,这类算法虽然能够很好的解决英文文本相似性度量,却无法有效解决中文文本所存在的同义词,一词多义等自然语言问题。虽然国内也有很多专家学者提出了基于中文文本的相似度度量方法,但是都存在一定的问题,比如考虑了文本语义信息却忽略了文本结构信息,比较有代表性的是晋耀红提出计算基于语境框架的文本相似度计算方法,同时加上中文文本自身的一些特点,如词与词之间没有明显间隔、一词多义、同义词、褒贬倾向等,这些都加大了中文文本度量的处理难度。论文通过对现有基于中文的文本相似度算法进行分析,指出各算法应用场景,阐述了算法模型优点以及所存在的局限性。在此基础上对传统算法进行改进,从而提高算法度量的准确性和执行效率。针对中文文本本身特点,论文提出了两种新颖的文本相似度度量方法,分别是基于概念子树的文本相似度算法CST-TS和基于图模式发现的文本相似度算法GM-TS,CST-TS算法通过结合统计方法与语义词典,借助概念树的概念子树集来找到文本所对应的匹配子树,并借助匹配子树来衡量文本相似度,此算法通过降低特征词向量空间维度来提高文本相似度度量的性能,虽然CST-TS算法能够提高文本相似度度量精度,但却没有考虑文本本身的层次结构信息,而GM-TS采用图模式发现表示文本,最大程度保留了文本语义和结构信息,利用图节点相似从语义角度确保文本度量的精度,达到语义理解模型度量效果,同时考虑文本本身结构信息,在度量精度上又有了进一步提高。计算效率方面,由于GM-TS算法需要进行图结构相似度度量,相对于语义理解模型而言,时间复杂度会有所提高,但是并不明显,而度量精度方面确有着明显改进。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 兰杰;在西文状态下阅读中文文本文件[J];电脑知识;1997年02期
2 骆卫华,罗振声,宫小瑾;中文文本自动校对技术的研究[J];计算机研究与发展;2004年01期
3 顾益军,樊孝忠,于江德,李良富;受限领域中文文本主题标引系统研究[J];计算机应用;2004年01期
4 李长荣,阚戈;中文文本2-分类模型在上证指数趋势分析中的应用研究[J];齐齐哈尔大学学报;2005年02期
5 许细清;林世平;;面向中文文本的观点检索技术研究[J];福州大学学报(自然科学版);2010年05期
6 薛丽敏;李殿伟;肖斌;;中文文本情感倾向性五元模型研究[J];通信技术;2011年07期
7 韩清月;;浅谈对外传播中文文本的写作[J];对外传播;2012年10期
8 刘开瑛,薛翠芳,郑家恒,周晓强;中文文本中抽取特征信息的区域与技术[J];中文信息学报;1998年02期
9 刘晶茹,王开铸;中文文本自动校对技术研究及系统组成[J];电脑学习;1999年06期
10 游荣彦;中文文本简易压缩与即时加密研究[J];计算机工程与设计;1999年06期
11 刘来旸,樊孝忠,李淑芳;基于变长编码集合扩展的中文文本压缩算法[J];北京理工大学学报;2001年04期
12 汪维家,陈笑蓉,秦进,陆汝占;一种基于窗口技术的中文文本自动校对方法[J];贵州大学学报(自然科学版);2003年02期
13 张仰森,曹元大,徐波;中文文本自动校错系统中知识库及其构造方法研究[J];小型微型计算机系统;2004年12期
14 徐永东;徐志明;王晓龙;刘远超;;中文文本时间信息获取及语义计算[J];哈尔滨工业大学学报;2007年03期
15 杨志晓;徐朝辉;张德贤;;基于虚拟和物理化身的中文文本信息具体化[J];系统仿真学报;2007年10期
16 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[J];杭州电子科技大学学报;2010年05期
17 刘文;吴陈;;一种新的中文文本分类算法——One Class SVM-KNN算法[J];计算机技术与发展;2012年05期
18 贾满磊;李大展;王水;;巧用R进行中文文本信息处理[J];电脑编程技巧与维护;2012年22期
19 刘茂福;李妍;姬东鸿;;基于事件语义特征的中文文本蕴含识别[J];中文信息学报;2013年05期
20 贺前华,徐秉铮,彭磊;中文文本压缩的自适应算法[J];中文信息学报;1993年03期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
3 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 李思;张浩;徐蔚然;郭军;;基于合并模型的中文文本情感分析[A];第五届全国信息检索学术会议论文集[C];2009年
5 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 徐艳华;;中文文本中时间日期表达形式的自动检索[A];2004年辞书与数字化研讨会论文集[C];2004年
7 张云涛;龚玲;王永成;;识别中文文本中的未登录专有名词的类别[A];2007年中国智能自动化会议论文集[C];2007年
8 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
9 蒙应杰;司蕾;是垚;;基于矢量图形的中文文本零水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
10 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国博士学位论文全文数据库 前4条
1 张虎;面向中文文本的欺骗行为检测研究[D];山西大学;2014年
2 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年
3 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
4 张春菊;中文文本中事件时空与属性信息解析方法研究[D];南京师范大学;2013年
中国硕士学位论文全文数据库 前10条
1 罗广清;基于中文文本情感分类的情感宣泄系统的研究与实现[D];华南理工大学;2015年
2 陈健;自然场景的中文文本定位技术研究[D];华南理工大学;2015年
3 麦跃;无约束联机手写中文文本识别[D];华南理工大学;2015年
4 石敏;中文文本自动校对系统[D];江苏科技大学;2015年
5 孙刚;基于线性回归的中文文本可读性预测方法研究[D];南京大学;2015年
6 钟杰;基于文本语义及结构的中文文本相似度研究[D];江西财经大学;2015年
7 朱万山;中文文本褒贬倾向性分类研究[D];北方工业大学;2015年
8 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
9 夏恒;基于沙普利值的中文文本识错研究[D];湖北工业大学;2013年
10 徐琼;面向自然场景图像中的中文文本定位技术研究[D];南京邮电大学;2014年
中国重要报纸全文数据库 前4条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 詹亦文;签英文合同谨防陷阱[N];中国改革报;2003年
3 熊建;让汉字插上信息化的翅膀[N];人民日报;2013年
4 绨星;注意合同形式和背面条款[N];中国船舶报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978