收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

程序代码相似度中的代码转换技术的研究

裴冬梅  
【摘要】: 程序代码的分词转换技术是实现程序代码相似度判别系统的一个重要技术,一个好的分词转换技术不仅可以提高相似度判别系统中对程序进行相似度计算的速度,还可以提高相似度计算的精度,这对相似度判别系统的发展具有重要的现实意义。 在程序代码相似度判别系统中,程序代码的分词转换技术得到了广泛的应用。我们可以把一个程序看作一个文本串,然后再通过一定的文法分析将这个文本串转换成描述程序基本信息的标记(token)串。所以对程序相似性的比较就转变成比较两个程序的标记串。而比较标记串的过程就是程序代码的分词转换的过程。 本研究首先介绍了关于程序代码相似度判别技术,包括程序代码相似度判别的定义与分类,国内外研究发展的现状以及现有的程序代码相似度判别系统的相关介绍。然后对程序代码分词转换过程中所用到算法情况进行了介绍,包括分词算法,字符串匹配算法等。 本研究设计了一个实验系统,该实验系统主要由四部分组成,第一部分,完成实验系统对程序代码的预处理及分词功能,预处理即去掉那些在程序中存在,但对相似度判别无影响的信息,如程序中的注释语句、连续的空格、空行等,接着对预处理后的程序代码进行分词;第二部分,创建程序代码转换所需的词表;第三部分,将程序代码的预处理及分词之后的程序采用字符串匹配算法转换为字符串标识;第四部分是通过用户界面可得到源程序代码转换后的结果输出。 最后,通过一些实验对该实验系统进行简单的验证与分析。其中实验的数据来自于学生所做的程序作业,实验结果反映出该实验系统不仅可以支持多种程序语言的转换,而且转换后的实验结果可用于基于字符串相似度判别的算法中,为后续的研究,即对转换后的标记串进行相似度计算,从而得到相似程度的数据,提供了可靠的测试信息。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 裴冬梅;聂建忠;赵凤荣;;程序代码转换技术的研究与实现[J];内蒙古煤炭经济;2010年06期
2 钟国祥;葛继科;;基于本体和向量空间模型的服务相似度度量[J];西南师范大学学报(自然科学版);2009年02期
3 赵旭;何聚厚;;Polymorphic蠕虫特征自动提取算法及检测技术研究[J];计算机工程与应用;2008年36期
4 吕文先;彭启民;吕玉增;;光照鲁棒的非线性相关图像匹配方法[J];计算机辅助设计与图形学学报;2009年06期
5 杨则正;计算机编制《中国机械工程文摘》主题索引[J];现代图书情报技术;1984年02期
6 范铮;如何从《工程索引》查找机械工程文献(上)[J];中国机械工程;1988年02期
7 傅兰生;我国词表工作近期发展方向──兼论建立国家主题词库的可行性[J];情报理论与实践;1989年02期
8 周全明;叙词表功能性注释初探[J];情报理论与实践;1994年05期
9 片玉君;情报检索的词表模型[J];现代图书情报技术;1995年01期
10 高岩,雍容;倒立摆控制实验系统中的算法研究[J];实验技术与管理;2005年05期
11 尹晓丽;李济洪;;一种访问者行为的相似度度量方法[J];太原科技大学学报;2007年05期
12 巢文涵;李舟军;陈跃新;;一种用于机器翻译的相似句对检索方法[J];计算机工程与科学;2008年09期
13 张鹏;王国胤;陶春梅;罗海;;基于本体粗糙集的程序代码相似度度量方法[J];重庆邮电大学学报(自然科学版);2008年06期
14 范炜;邹庆;;词表资源关联化[J];情报理论与实践;2010年05期
15 任晓彧;杨锡怀;邹家兴;关旎燕;;基于组合相似度的混合多指标信息聚类分析方法[J];东北大学学报(自然科学版);2010年11期
16 柳培忠;王守觉;;利用多维空间同源连续性的图像检索[J];应用科学学报;2011年02期
17 王丹;刘江;;基于投影直方图的文档图像快速匹配研究[J];计算机技术与发展;2011年07期
18 张惠惠;联机检索中词表使用的有效性[J];现代图书情报技术;1991年03期
19 傅兰生,崔荣英;叙词表的词量控制[J];情报理论与实践;1992年01期
20 朱岩;开发机读词表功能的研究[J];情报理论与实践;1993年01期
中国重要会议论文全文数据库 前10条
1 孙茂松;王洪君;董秀芳;;《信息处理用现代汉语分词词表》规范[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 郗昕;李剑挥;蒋政;冀飞;陈艾婷;赵乌兰;;汉语扬扬格词表的编辑与等价性研究[A];2010全国耳鼻咽喉头颈外科中青年学术会议论文汇编[C];2010年
3 李丽;王宁宇;葛晓辉;陈莉;孟伊;李金兰;;正常人背景噪声下言语测听词表的等价性分析[A];2010全国耳鼻咽喉头颈外科中青年学术会议论文汇编[C];2010年
4 史中琦;张普;;基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 张华;邵广宇;陈静;王硕;张朝慧;李玉玲;韩德民;;普通话单音节完整词表与小词表的比较研究[A];第九届中国语音学学术会议论文集[C];2010年
6 赵艳娟;巴特尔;;一种改进的字符串匹配算法的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
7 张国亮;郑方;吴文虎;;基于两层词法树的大词表连续语音识别搜索算法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
8 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 李腾;李成荣;李鹏;;词表限制下的非母语连续英文字母串识别系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
10 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 崔勇;儿童言语测听词表的设计和人工耳蜗植入对语前聋儿童言语识别的影响[D];复旦大学;2004年
2 杨凡;生物序列分析中若干问题的研究[D];电子科技大学;2011年
3 葛继科;语义网格环境中的服务匹配研究[D];西南大学;2009年
4 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
5 李景涛;P2P环境下的信任模型与副本方案研究[D];复旦大学;2006年
6 张静;视频信息检索研究[D];复旦大学;2006年
7 甘瑞瑗;国别化“对外汉语教学用词表”制定的研究:以韩国为例[D];北京语言大学;2005年
8 孙佳音;音乐要素自动分析关键技术研究[D];哈尔滨工业大学;2011年
9 晏华;交易数据的聚类分析[D];电子科技大学;2008年
10 牛常勇;P2P信任机制和覆盖网络构建算法研究[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 裴冬梅;程序代码相似度中的代码转换技术的研究[D];内蒙古师范大学;2008年
2 曹艳娇;基于聚类的关系相似度度量算法研究[D];华东师范大学;2012年
3 蔡颂梅;语义增强的关系相似度度量算法研究[D];华东师范大学;2011年
4 彭琳;汉语词语语义相似度度量及其在跨语言信息检索中的应用研究[D];复旦大学;2010年
5 张志刚;领域本体构建方法的研究与应用[D];大连海事大学;2008年
6 史中琦;基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析[D];北京语言大学;2005年
7 曾铄然;大学英语词汇对普通英语的词汇覆盖率[D];大连海事大学;2008年
8 刘畅;全文索引结构的压缩与应用[D];吉林大学;2009年
9 刘颖;大学英语四级词汇在轮机英语的语篇覆盖率[D];大连海事大学;2006年
10 王京;基于医学研究论文语料库的医学学术词表的构建[D];第四军医大学;2006年
中国重要报纸全文数据库 前10条
1 秦秋;中医药主题词表国家标准出台[N];中国医药报;2005年
2 记者 隋笑飞;词表收常用词5万余个[N];新华每日电讯;2008年
3 记者 李宝华;七二四所三十华诞[N];中国船舶报;2000年
4 李岩 作者单位系北京市第三十三中学;“写”在教学中[N];中国教师报;2003年
5 本报记者 王敏 实习生 唐穗英;“老熟人”盛赞深圳发展[N];深圳特区报;2006年
6 张杰 马广惠 辛斌 吕俊;跨入新世纪门槛的西方文学与语言学[N];文艺报;2004年
7 记者 王晶、通讯员 沈考;高考大纲补充说明发布[N];湖北日报;2006年
8 健康时报记者 熊江雪;大人应少说小孩儿话[N];健康时报;2006年
9 梁发芾;“庶出”幼女 说法不妥[N];中华新闻报;2004年
10 董永前;关注城市的细节[N];兰州日报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978