收藏本站
《长春工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文档内容相似度检测方法研究

徐德玉  
【摘要】:中文文档内容相似度检测方法的研究一直是中文信息处理中的一项基础性技术,尤其在信息大爆炸的时代,无论是检测抄袭还是查找内容类似的文档都需要用到该项技术。近年来,随着中文文档处理技术以及相似度计算算法的发展,为相似度检测方法的研究提供了很好的基础。不过,至今仍然没有一个公认的算法能够达到令人满意的程度。 本文研究的范围是中文文档内容的相似度检测。文档的相似度检测一直是一个难点,它和传统的针对单一对象的相似度检测不同。文档可以说是许多对象的集合,这些对象结合在一起就出现了很多不确定因素。对单个对象的相似度计算可以作为计算文档相似度的技术之一,但是不可能用来准确的计算中文文档的相似度。 文章中首先对传统相似度计算的一些相关技术进行了综述。本文选用的文档是网上新闻。网上新闻取材简单,内容丰富,具有中文文档的典型特征。文中详细分析了中文文档的一些特性,通过分析特性找到了相似度检测的关键问题。文章中对这些问题进行了一一的分析,并在此基础上给出了问题的解决办法,给中文文档的相似度计算提供了一套方案。然后,文章中给出了相似度评价标准,这个标准是通过对大量相似度检测模型分析,依据中文文档特性得出的。在文章的最后,通过对30组各种相似级别的文章进行相似度计算,来验证本文的相似度检测模型,进一步论证了其有效性。 本文在多种相似度计算方法的基础上,对文档各部分的特点进行深入的分析,综合运用这些技术,以达到提高相似度计算准确度的目的。文章最后大量的实验结果表明,该方法确实达到了检测文档内容相似度的目的。
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
2 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
3 张涛,杨尔弘;基于上下文词语同现向量的词语相似度计算[J];电脑开发与应用;2005年03期
4 何明;胡彩霞;;一种文本相似性的度量方法和计算方法[J];黄山学院学报;2005年06期
5 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
6 宋玲;马军;连莉;张志军;;文档相似度综合计算研究[J];计算机工程与应用;2006年30期
7 胡珀;何婷婷;姬东鸿;;基于主题区域发现的中文自动文摘研究[J];计算机科学;2005年01期
8 宋擒豹,杨向荣,沈钧毅,齐勇;数字商品非法复制的检测算法[J];计算机学报;2002年11期
9 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
10 徐建民;白彦霞;吴树芳;;基于同义词扩展的贝叶斯网络检索模型[J];计算机应用;2006年11期
【共引文献】
中国期刊全文数据库 前10条
1 唐勤泉;;经验功能与翻译——功能语言学视角下的翻译策略研究[J];阿坝师范高等专科学校学报;2010年02期
2 束慧娟;系统功能语法对翻译《红房子》的启示[J];安徽大学学报;2003年05期
3 谢辉;语气隐喻与古汉诗英译[J];安徽大学学报;2005年03期
4 刘文捷;精读教学的语域视角[J];安徽农业大学学报(社会科学版);2003年05期
5 孙志农;;语域理论与翻译[J];安徽农业大学学报(社会科学版);2006年03期
6 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
7 余丽君;语篇——英汉翻译的基本单位[J];安徽工业大学学报(社会科学版);2001年01期
8 李更春;;语境理论发展述评[J];安徽工业大学学报(社会科学版);2006年02期
9 朱诗花;;大学生英语作文概念功能研究[J];安徽工业大学学报(社会科学版);2007年06期
10 闻亚云;;语言符号任意性的限制刍议[J];安徽工业大学学报(社会科学版);2007年06期
中国重要会议论文全文数据库 前10条
1 李红霞;袁晓芳;田水承;王莉;;基于义类词典的煤矿瓦斯爆炸案例推理系统研究[A];中国职业安全健康协会2008年学术年会论文集[C];2008年
2 张晓光;;基于功能理论下的英译汉中的情态研究[A];语言与文化研究(第四辑)[C];2009年
3 于伟昌;;汉译外来语言学术语标准化的必要性及其原则[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
4 陈华;;从主位结构角度对比分析英语语篇[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
5 ;The Comparison between Chomskyan Transformal Linguistics and Hallidayean Functional Linguistics[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
6 林晶;;从系统功能语法看中英法律语言的异同[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
7 李颖;;希拉里与奥巴马竞选广告的人际功能分析[A];福建省外国语文学会2009年年会暨学术研讨会论文集[C];2009年
8 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
9 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
10 易美珍;;“我想”的语法化和功能分析[A];江西省语言学会2007年年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张喜荣;英汉叙述语篇参与者标识手段对比研究[D];上海外国语大学;2010年
2 胡洁;建构视角下的外宣翻译研究[D];上海外国语大学;2010年
3 吴善子;汉韩反诘语气副词对比研究[D];上海外国语大学;2010年
4 龙又珍;现代汉语寒暄系统研究[D];武汉大学;2009年
5 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
6 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
7 杨峰;本体映射关键技术研究[D];吉林大学;2011年
8 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
9 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
10 李枫;英语评论附加语的评价意义及其动因研究[D];河南大学;2011年
中国硕士学位论文全文数据库 前10条
1 曹静;语篇动态性的系统功能语言学研究[D];河北大学;2007年
2 吴丹;语言学术语汉译规范化研究[D];南昌航空大学;2010年
3 李敏;对罗斯福和奥巴马就职演说的及物性分析[D];山东科技大学;2010年
4 范姝;从主述位理论看汉语政治报告的翻译[D];上海外国语大学;2010年
5 汪丽;基于人际功能的听力理解测试及教学研究[D];上海外国语大学;2010年
6 胡婕妤;一项关于主位推进模式在汉英交替口译中的研究[D];上海外国语大学;2010年
7 单军锋;图式理论视角下的连贯研究及对读前教学的启示[D];山东农业大学;2010年
8 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
9 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
10 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
3 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
4 何嘉;陈琳;;基于神经网络汉语分词模型的优化[J];成都信息工程学院学报;2006年06期
5 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
6 王增富;“人少任务多”最小分派问题的一种解法[J];燕山大学学报;2004年05期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
9 杨晓兰,钟义信;基于文本理解的自动文摘系统研究与实现[J];电子学报;1998年07期
10 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
中国重要会议论文全文数据库 前1条
1 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前3条
1 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
2 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
3 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 赖擎;曹力立;;受限领域中文问答系统的中心句识别的研究[J];计算机时代;2006年02期
2 郝祥根;杨思春;高远飙;张伟;;基于向量空间模型的中文问答系统研究与实现[J];苏州科技学院学报(自然科学版);2009年01期
3 马桂琴;中文搜索引擎研究[J];兰州商学院学报;2001年S2期
4 陈明;网络的安全维护与故障排除[J];微型电脑应用;2001年03期
5 端木艺;网上中文学位论文数据库简评[J];现代情报;2003年01期
6 沈殊璇;Linux平台中文化的实现方案[J];微处理机;2003年01期
7 霍然;普通高校实施中文素质教育探索[J];杭州电子工业学院学报;2004年02期
8 王知津,孙美丽,蒋伟伟;网上中文社会科学信息资源利用研究——在校与非在校用户对比分析[J];晋图学刊;2003年04期
9 刘其成,肖明,高坚;Java编程中的中文问题及其解决方法[J];计算机系统应用;2003年06期
10 王本中;基于PDA系统的中文语音合成[J];工业技术经济;1998年03期
中国重要会议论文全文数据库 前10条
1 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 王佳;;对中文屋思想实验四个主要版本的考察[A];第三届全国科技哲学暨交叉学科研究生论坛文集[C];2010年
4 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
5 吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 计峰;邱锡鹏;黄萱菁;;中文不确定性句子的识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
7 周小甲;李昊旻;吕旭东;段会龙;;中文病历文本中的时间表达分类与识别[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会青年优秀论文[C];2010年
8 张小衡;;一个支持人工校对的中文简繁体转换工具[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 崔磊;王穗苹;;副中央凹-中央凹效应的中文眼动研究[A];第十一届全国心理学学术会议论文摘要集[C];2007年
10 周学广;张焕国;;一种柔性中文字符串匹配算法[A];第二十七届中国控制会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 张海桐;用中文把歌剧唱出来[N];人民日报海外版;2011年
2 张伟城;中文热持续升温[N];人民日报海外版;2009年
3 朱珉迕;说中文和“拌洋荤”[N];解放日报;2009年
4 本报驻巴黎记者 姚立;“中文热”在法升温速度令人始料不及[N];光明日报;2010年
5 刘菲;关注特殊的学中文群体[N];人民日报海外版;2011年
6 记者钟哲 通讯员李世举;合编首部“民族版”高校中文教材[N];中国社会科学报;2010年
7 ;“汉语桥”世界大学生中文比赛举行[N];人民日报;2011年
8 晓阳;《选报》落户起点中文网[N];中华新闻报;2009年
9 ;中文在线 “九死一生”的出版经历[N];电脑报;2010年
10 本报记者 原小瑛;欧特克发布中文工厂设计软件[N];中国化工报;2010年
中国博士学位论文全文数据库 前10条
1 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
2 朱麟;中国人说英语的节奏模式及在教学中的运用[D];中央民族大学;2007年
3 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
4 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
5 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
6 史先敏;中国栽培灵芝三萜成分的高效液相指纹图谱研究[D];南京农业大学;2008年
7 李进;两性霉素B有关物质的质量研究与多元组分药物的质量控制和分析[D];中国协和医科大学;2007年
8 卢湖川;人脸识别中几个关键算法研究[D];大连理工大学;2008年
9 王吉华;基于特征函数的产品造型进化设计研究[D];山东师范大学;2009年
10 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年
中国硕士学位论文全文数据库 前10条
1 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
2 陈成海;评塞尔的中文屋论证[D];浙江大学;2010年
3 刘冬平;面向中文歌词的音乐情感分类研究[D];广东工业大学;2011年
4 李丽娜;中文专家检索关键技术研究[D];昆明理工大学;2011年
5 李国佳;汉语全文相似度计算的研究及应用[D];电子科技大学;2011年
6 汤明达;基于近邻传播算法的中文文本聚类的研究[D];广西师范大学;2012年
7 梁浩;网络新闻相似度检测系统[D];吉林大学;2011年
8 张山山;中文XML压缩技术研究[D];华中科技大学;2011年
9 陈静;基于综合相似度计算的中文本体映射技术研究与实现[D];西北大学;2011年
10 陈永超;基于字数差别因子的中文文本相似度研究[D];湖北工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026