收藏本站
《燕山大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于指纹和语义知识表示的中文文档复制检测方法

李旭  
【摘要】: 自然语言文档复制检测技术是信息处理领域中一个重要的研究课题,是保护知识产权和提高信息检索效率的一种有力手段。文档复制检测就是判断一篇给定文档是否抄袭﹑剽窃或者复制于另外一篇或者多篇文档的内容,剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换﹑同义词替换以及改变说法重述等方式。本文以前人所研究的文档复制检测理论为基础,研究中文文档复制检测方法,利用指纹和语义知识表示相结合的方法自动发现文档间的重叠信息。 首先,分析现有文档复制检测原型系统的功能和优缺点。在此基础上,提出一种基于指纹的中文文档复制检测方法。根据文档复制检测的特点,设定检测粒度参数和噪声粒度参数,采用Hash函数把已经消解噪声的两种检测粒度文本块映射成相应的数值,设计基于窗口的算法从数值序列中提取指纹,并利用定义的公式度量查询文档与数据库中多篇文档之间的重叠度,进而判断查询文档是否为复制文档。 其次,提出一种汉语全文无指导词义标注方法。根据知网词典定义和词语词性对应关系对单义词和类别歧义词直接标注正确的词义。对于非类别歧义词和混合歧义词,以真实的应用情况出发,提出一种改进的汉语无指导词义消歧方法。针对现存EM(Expectation Maximization)迭代算法计算量大、收敛缓慢的问题,利用互信息和Z-测试结合的算法选取特征,并通过一种统计学习方法估算初始参数值。 再次,提出一种基于概率上下文无关文法的无指导句法分析方法。针对概率上下文无关文法独立性假设这一局限性引入上下文信息,给出新的结合词类和句法范畴共现信息的句法结构树概率评价函数,描述句法分析算法,并利用Inside-Outside算法从未经过标注的语料库中自动获取语法规则概率和结构共现概率,避免了有指导训练方法需要构建大规模标注树库的问题。 最后,为了根据句法结构和句子中每个实词的词义推导出能够反映句子意义的形式表示,提出一种基于框架的语义知识表示方法,能够描述词、短语和句子的语义,并且清楚地表示出语义单位之间的层次性和生成性。介绍利用语义知识表示发现同义词替换、语态变化、词性变化和断句等复杂文本复制方式的检测过程,并给出面向语义知识表示的文档重叠性度量方法。 实验确定设定参数的最佳取值,并验证本文方法的正确性和有效性。本文提出的基于指纹的中文文档复制检测方法从字符串匹配角度发现文档间的重叠信息,基于语义知识表示的中文文档复制检测方法从语义角度进行研究,通过对汉语句子进行语义分析和语义匹配,真正实现了从自然语言处理的语义层面来解决自然语言文档复制检测的问题。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李旭;赵亚伟;刘国华;;基于指纹和语义特征的文档复制检测方法[J];燕山大学学报;2008年04期
2 鲍军鹏,沈钧毅,刘晓东;一个基于网格的文本复制检测系统[J];微电子学与计算机;2004年09期
3 燕继坤,郑辉,席建民;相似文本的快速搜索[J];计算机工程;2004年15期
4 麻会东;刘国华;李现伟;刘春辉;;基于文档指纹的中文复制检测方法[J];广西师范大学学报(自然科学版);2007年04期
5 麻会东;刘国华;梁鹏;苑迎;;文档复制检测技术[J];燕山大学学报;2007年05期
6 仇壮丽;;在线论文复制检测系统设计[J];计算机工程与应用;2011年19期
7 金博,史彦军,滕弘飞;中文文档复制检测系统研究[J];计算机工程;2005年19期
8 杨俊丽;彭新光;;中文文本复制检测系统[J];山西大同大学学报(自然科学版);2008年02期
9 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
10 杨俊丽;武妍;;中文学术失范检测系统研究[J];太原科技大学学报;2010年04期
11 孙伟;邢长征;;关于中文文档复制检测算法的改进[J];计算机工程与科学;2010年08期
12 邓爱萍;徐国梁;肖奔;;基于串匹配方法的源代码复制检测技术研究[J];科学技术与工程;2007年10期
13 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
14 聂规划;付志超;陈冬林;刘平峰;;基于本体的论文复制检测系统[J];计算机工程;2009年06期
15 王森;王宇;;基于文本结构树的论文复制检测算法[J];现代图书情报技术;2009年10期
16 卢小康;王小华;王荣波;;一种句子级别的中文文本复制检测方法[J];杭州电子科技大学学报;2009年06期
17 赵春燕;李峣;;论文抄袭检测技术研究[J];科教导刊(上旬刊);2010年08期
18 李旭;刘国华;余靖;王蕾;;一种面向文档复制检测的特征提取方法[J];小型微型计算机系统;2008年05期
19 王秀红;;学术论文复制检测的研究进展及新方法[J];图书情报工作;2009年05期
20 刘双明;彭新光;;源程序与文档复制检测系统的研究[J];电脑知识与技术;2010年13期
中国重要会议论文全文数据库 前10条
1 杨柳;何婷婷;涂新辉;;基于网络百科全书的中文关联语义知识获取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 宋炜;;语义知识获取与网络信息集成的分析[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
3 冯新;范颖芳;李国强;;损伤动力指纹的模态灵敏度分析[A];第八届全国振动理论及应用学术会议论文集摘要[C];2003年
4 岳海龙;任玉苓;;耐指纹板关键技术与生产实践[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
5 郑新水;;指纹的应用研究——疾病预测学探讨[A];全国中医藏象研究创新思路学术研讨会论文汇编[C];2001年
6 刘长节;翁天钿;;胃癌患者指纹的研究[A];解剖学杂志——中国解剖学会2002年年会文摘汇编[C];2002年
7 赵磊;罗代升;腾奇志;何小海;;高考身份验证指纹识别系统的设计与实现[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
8 党洁;霍正浩;彭亮;钟慧军;焦海燕;朱永生;陈银涛;陆宏;;先天性心脏病患者数量皮纹学特征研究[A];中国的遗传学研究——遗传学进步推动中国西部经济与社会发展——2011年中国遗传学会大会论文摘要汇编[C];2011年
9 王丽华;周春英;;小儿肺炎的指纹望诊与中西医治疗[A];四诊研究论文汇编[C];2000年
10 王明彪;林子清;宋琳;董玉贞;王宁;朱敏;杨洪波;;用PCR方法判定指纹性别的研究[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
中国重要报纸全文数据库 前10条
1 连晓东;我国首款指纹手机即将问世[N];中国电子报;2005年
2 陈丽梅;一指“走”天下[N];光明日报;2000年
3 张军;测叶片便知品种真假[N];农民日报;2001年
4 郭雅楠 记者 向杰;我国建成首个油指纹数字化鉴别系统[N];科技日报;2009年
5 孟凡俊、杨铁良;玉田 指纹生存认证管好企业离退休人员养老钱[N];唐山劳动日报;2009年
6 记者 彭放 实习生 雷云峰;“克隆指纹”骗过考勤机?[N];长沙晚报;2010年
7 中科院自动化所人工智能实验室 段少雄 张堂辉 田捷;指纹圈点未来生活[N];中国计算机报;2001年
8 甘平;指纹加密在你身边[N];科技日报;2004年
9 贾远琨;上海启动“指纹支付”业务[N];中国改革报;2007年
10 杨洋;指纹算法推动重复数据删除发展[N];网络世界;2009年
中国博士学位论文全文数据库 前10条
1 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
4 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
5 回红;基于结构的指纹表达及其匹配算法研究[D];浙江大学;2002年
6 王建军;水稻lrd生理与遗传及Rim2分子指纹研究[D];浙江大学;2004年
7 任传伦;分布环境下身份认证和授权管理的研究[D];北京邮电大学;2007年
8 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
9 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
10 李琼;汉语复句书读前后语言片段的非分句识别[D];华中师范大学;2008年
中国硕士学位论文全文数据库 前10条
1 宋杰;改进的基于串匹配的中文文档复制检测方法研究[D];湖南大学;2012年
2 孙伟;基于文档复制检测技术的研究与实现[D];辽宁工程技术大学;2010年
3 马勤;文档复制检测技术在学术监管中的应用研究[D];郑州大学;2012年
4 李婷婷;基于语义结构的学术论文复制检测技术研究与实现[D];北京邮电大学;2010年
5 刘双明;文档复制检测的应用研究[D];太原理工大学;2010年
6 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年
7 卢小康;中文文本复制检测技术研究[D];杭州电子科技大学;2009年
8 李旭;基于串匹配方法的文档复制检测系统研究[D];燕山大学;2006年
9 李淑静;基于内容的垃圾邮件过滤研究与实现[D];南京信息工程大学;2006年
10 熊志勇;数据挖掘在反垃圾邮件领域中的应用与研究[D];南昌大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978