收藏本站
《昆明理工大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Simhash的文本相似性检测研究与改进

王逍翔  
【摘要】:近年来,随着我国经济的突飞猛进,互联网发展日新月异。网络搜索引擎的出现,使得普通人也能在浩瀚的网络空间里以简短的描述获得自己想要的信息。在搜索引擎在网络上自动爬取信息时,有效识别相似或重复的网页对于提高网页信息搜集效率至关重要;文本相似性的检测也是数据挖掘、知识发现研究中不可或缺的内容,日益增加的知识产权保护需求也要求相似文本识别技术来发现剽窃、抄袭的行为。为了实现对相似文本高效精确的检测,本文对各种相似文本识别方法进行了研究,分析了各个方法的特点,最后选择使用Simhash算法来进行大量文本的快速相似检索。实验利用已有的成熟分词工具进行中文文本的分词,并通过忽略停用词、TF-IDF算法特征提取等方法改进了相似文本特征提取的性能,使文本以段落为单位生成Simhash指纹,建立了指纹与文本的对应关系,针对相似指纹的检索实现了指纹分段建立倒排索引的指纹快速检索方法,从而完成了Simhash技术在文本相似性检测方面的实验,高效获取了文本库中的相似文本,并记录了此算法在相似文本检索方面的召回率和准确率。通过对Simhash算法的实验,结果分析过程中发现了其对长度较短或位置不确定的文本识别存在的不足,针对这些问题,本文给出了局部短文本的定义,提出了局部短文本识别的方法,有效识别了文本中可能相似的片段,并改进了编辑距离的计算方法以衡量短文本间的相似程度,最终实现了Simhash和局部短文本识别相结合的相似文本检索算法,实验得到了效率和精确度都有所兼顾的实验结果,证明了将Simhash与局部短文本识别相结合的方法在相似文本检测方面具有实际意义。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 张广庆;葛唯益;贺成龙;;基于Simhash的海量相似文档快速搜索优化方法[J];指挥信息系统与技术;2015年02期
2 孙昌年;郑诚;夏青松;;基于LDA的中文文本相似度计算[J];计算机技术与发展;2013年01期
3 吕立辉;梁维薇;冉蜀阳;;基于词林的词语相似度的度量[J];现代计算机(专业版);2013年01期
4 黄承慧;印鉴;侯昉;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
5 蔡衡;李舟军;孙健;李洋;;基于LSH的中文文本快速检索[J];计算机科学;2009年08期
6 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
7 张裔智;赵毅;汤小斌;;MD5算法研究[J];计算机科学;2008年07期
8 谢蕙;秦杰;胡双双;;基于用户查询关键词的网页去重方法研究[J];现代图书情报技术;2008年07期
9 贺敏;龚才春;张华平;程学旗;;一种基于大规模语料的新词识别方法[J];计算机工程与应用;2007年21期
10 霍华,冯博琴;基于压缩稀疏矩阵矢量相乘的文本相似度计算[J];小型微型计算机系统;2005年06期
中国硕士学位论文全文数据库 前5条
1 王源;一种基于Simhash的文本快速去重算法[D];吉林大学;2014年
2 陈飞宏;基于向量空间模型的中文文本相似度算法研究[D];电子科技大学;2011年
3 肖鹏元;基于GPU并行计算的重复文本检测系统[D];浙江大学;2011年
4 郜强;基于语义词语相似度计算模型的研究与实现[D];西安电子科技大学;2011年
5 柴春梅;互联网短文本信息分类关键技术研究[D];上海交通大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 邓松;万常选;;基于主题与概率模型的非合作深网数据源选择[J];软件学报;2017年12期
2 李帅;陈笑蓉;;改进卡方统计量的BPNN短文本分类方法[J];贵州大学学报(自然科学版);2015年06期
3 李春梅;;基于TF-IDF的网页新闻分类的研究与应用[J];贵州师范大学学报(自然科学版);2015年06期
4 侯丽;李姣;侯震;陈松景;;基于混合策略的公众健康领域新词识别方法研究[J];图书情报工作;2015年23期
5 万文兵;;面向主题搜索的网络爬虫信息采集策略研究[J];软件导刊;2015年11期
6 高慧;张涛;王付强;夏彬;;面向舆情发现系统的中文语料分词研究[J];软件导刊;2015年11期
7 郝宁;夏士雄;牛强;赵志军;;基于类别重要度的MIMLBoost改进算法[J];计算机应用;2015年11期
8 申玫;徐宁;赵晓玲;;自然语言处理技术在中高职课程衔接中的应用[J];职业教育研究;2015年11期
9 石雁;李朝锋;;结合统计和词间关系的文本关键词计算方法[J];计算机技术与发展;2015年12期
10 甘宗平;;“天地图·中山”兴趣点检索技术研究[J];地理空间信息;2015年05期
中国硕士学位论文全文数据库 前10条
1 魏巍;基于微博数据流的热点话题发现方法研究及系统设计[D];北京交通大学;2018年
2 冯高磊;基于VSM结合词语语义的文本相似度算法研究[D];北京建筑大学;2018年
3 梁涛;基于网络爬虫与短文本相似度的网售化妆品监管系统的研究与设计[D];南昌航空大学;2018年
4 李优;基于Hadoop的分布式网络爬虫设计与实现[D];西北大学;2018年
5 李孟亚;图书作者身份辨识方法研究与应用[D];北方工业大学;2018年
6 查晨;面向短文本的舆情本体概念抽取方法研究[D];新疆大学;2018年
7 刘浩坤;英语作文自动评分算法的研究与设计[D];中国科学技术大学;2018年
8 李玲;基于词向量的推荐算法研究[D];华东师范大学;2018年
9 杨贞;基于知识关联的学习资源个性化检索策略研究与实现[D];华中师范大学;2018年
10 胡炎贵;面向“书联网”的富媒体教学资源管理平台的设计与开发[D];华中师范大学;2018年
【二级参考文献】
中国期刊全文数据库 前10条
1 徐济惠;;基于Simhash算法的海量文档反作弊技术研究[J];计算机技术与发展;2014年09期
2 宋金玉;陈爽;郭大鹏;王内蒙;;数据质量及数据清洗方法[J];指挥信息系统与技术;2013年05期
3 董博;郑庆华;宋凯磊;田锋;马瑞;;基于多SimHash指纹的近似文本检测[J];小型微型计算机系统;2011年11期
4 黄承慧;印鉴;侯昉;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
5 江敏;肖诗斌;王弘蔚;施水才;;一种改进的基于《知网》的词语语义相似度计算[J];中文信息学报;2008年05期
6 李峰;李芳;;中文词语语义相似度计算——基于《知网》2000[J];中文信息学报;2007年03期
7 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
8 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
9 唐培丽;胡明;解飞;;元搜索引擎研究[J];气象水文海洋仪器;2005年Z1期
10 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
中国硕士学位论文全文数据库 前10条
1 赵立磊;基于网页去重的垂直搜索引擎设计与实现[D];大连理工大学;2012年
2 尹睿;基于语义相似度的论文文本聚类算法研究[D];大连理工大学;2009年
3 郭丽;基于上下文的词语相似度计算及其应用[D];沈阳航空工业学院;2009年
4 唐琦;基于语义分析的句子相似度计算研究[D];华北电力大学(北京);2009年
5 刘岩;基于概念图的中文语义分析系统的研究与实现[D];西北大学;2008年
6 邹文科;基于本体技术的语义检索及其语义相似度研究[D];北京邮电大学;2008年
7 张妍;基于相对词频的相似度研究[D];东北师范大学;2008年
8 张福华;本体自动生成中词汇相似度计算的研究[D];大连海事大学;2008年
9 罗思明;基于语义相似度的汉语未登录动词语义框架识别[D];北京邮电大学;2008年
10 苏振魁;基于马尔科夫模型的文本相似度研究[D];大连理工大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
3 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期
4 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期
5 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期
6 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期
7 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期
8 袁鹏;江媛媛;;多元化文本数据的智能提取[J];测绘与空间地理信息;2015年09期
9 王海燕;胡学钢;李培培;;基于向量表示和标签传播的半监督短文本数据流分类算法[J];模式识别与人工智能;2018年07期
10 陈伟;勾东升;徐发亮;;基于文本数据分析的大数据审计方法研究[J];中国注册会计师;2018年11期
中国重要会议论文全文数据库 前10条
1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
3 周纯洁;黎巎;徐翼龙;;文本情感分析研究[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年
4 刘伟;陈春林;;基于注意模型深度学习的文本情感倾向性研究[A];第19届中国系统仿真技术及其应用学术年会论文集(19th CCSSTA 2018)[C];2018年
5 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 李洋;倪丽萍;李莹;;电子商务平台在线评论对冰箱销量的影响——基于文本情感分析方法[A];第十三届(2018)中国管理学年会论文集[C];2018年
7 李锋刚;张亚南;汪兵;;基于词向量和AP聚类的短文本主题演化分析[A];第十三届(2018)中国管理学年会论文集[C];2018年
8 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
9 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
10 刘建伟;于守健;乐嘉锦;;基于分裂-凝聚的Web新闻主题聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国重要报纸全文数据库 前1条
1 通讯员 王成弟 刘欢 本报记者 廖志林;肺部常见疾病AI诊断产品呼之欲出[N];健康报;2018年
中国博士学位论文全文数据库 前10条
1 徐康;基于主题模型的文本情感和话题建模的研究[D];东南大学;2017年
2 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
5 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
6 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
7 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
9 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
10 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前10条
1 余文礼;基于深度学习的多类标文本分类算法研究[D];哈尔滨工业大学;2017年
2 付钊;基于文本语义分块的中医病情分类问题研究[D];浙江大学;2018年
3 付宇博;基于决策树的英语文本难度评估研究[D];华中师范大学;2018年
4 郝利栋;基于深度学习的短文本情感分类研究[D];华东师范大学;2018年
5 李伟;基于决策树的网页敏感词过滤系统设计[D];西北农林科技大学;2018年
6 夏亮;面向电子商务评论文本的情感分析技术研究[D];华中师范大学;2018年
7 唐玉茹;空间文本数据发布/订阅研究[D];华中师范大学;2018年
8 王逍翔;基于Simhash的文本相似性检测研究与改进[D];昆明理工大学;2018年
9 范创;人机对话中的情感文本生成方法研究[D];哈尔滨工业大学;2018年
10 许萧宇;基于深度语义特征的文本情感分析方法研究[D];杭州电子科技大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026