收藏本站
收藏 | 论文排版

基于机器学习的恶意代码检测与分类技术研究

刘浏  
【摘要】:随着互联网技术的迅猛发展,信息安全成为了维护社会与经济发展的重要手段。近年来大规模的网络攻击事件层出不穷,严重的损害了个人的隐私与经济利益。同时以APT为代表的高级攻击模式的出现使得社会基础设施、国家的公共服务部门以及军事科技组织等都面临巨大的潜在威胁。从现有的攻击手段分析可知,恶意代码的变种以及零日漏洞已经成为了信息安全面临的最迫切的问题之一。尤其是,海量的网络信息以及恶意代码自保护技术使得传统的以人工分析为基础的反病毒检测系统遭到前所未有的挑战。因此基于机器学习的恶意代码自动化检测与分析技术成为了信息安全领域的热点之一。本文主要针对恶意代码分析技术中自动化的特征提取技术、恶意代码检测技术、恶意家族分类技术以及未知的恶意代码检测技术等四个方面展开研究。主要的研究成果如下:1.由于不同的特征提取技术只能够从单一的角度分析恶意代码,因此本文分别基于静态分析和动态分析技术提出了三种特征提取方法。它们包括基于Gabor滤波器的灰度图纹理特征提取方法、基于控制流程图的Opcode特征提取方法以及基于动态行为轨迹的API特征提取方法等。基于Gabor滤波器的特征提取方法是本文从图像纹理结构的视角出发提出的一种新方法。这种方法首先需要将二进制的恶意代码转化为灰度图的形式,然后使用Gabor滤波器从不同频度与角度去提取样本的纹理特征。基于控制流程图的Opcode特征提取方法的主要目的是为了准确地获得恶意代码中包含的功能函数以及代码块之间的调用关系和上下文语义。它首先通过反汇编工具将二进制的文件逆向的转化为汇编文件,然后使用n-gram方法将汇编文件中的操作码以控制流的形式提取出来。基于动态行为轨迹的API特征提取方法属于动态分析法。本文首先部署蜜网系统以捕获样本的行为轨迹,然后使用基于频度度量方法提取出行为轨迹中关于API的信息。最终,文章通过对不同特征提取方法进行实验对比发现,基于纹理特征与opcode特征的综合特征更适合应用于恶意代码分析。2.目前应用于自动化恶意代码检测技术的机器学习模型主要分为浅层学习模型和深度学习模型。相对于浅层学习模型,深度学习对复杂函数的表达能力更强,这就意味着深度学习更适合被应用于挖掘高维的、复杂的特征空间的分布规律。并且本文针对综合特征的特点,提出了一种深度卷积神经网络模型。虽然该模型已经被广泛的应用于图像处理领域,但是该方法与其他深度模型一样存在过拟合问题。所谓过拟合就是指由于训练样本空间中追求假设的高度一致性,而导致假设的泛化能力变弱。为了缓解过拟合问题,本文提出了一种名为DBCNN的优化深度卷积神经网络模型。不同于经典的深度卷积模型,该模型的各层之间增加一个Dropout层,同时在卷积层与抽样层之间又增加了一个归一化层。该归一化层使用Batch-normalization方法对每一个过滤层的输出进行归一化,而归一化的结果并不会改变数据原有的分布规律。实验结果证明优化模型不仅能够缓解深度学习的过拟合问题,还比其他经典的机器学习模型具有更高的综合性能。3.为了解决恶意代码的自动化分类问题,本文提出了一种基于KNEM选择性集成模型的恶意代码分类技术。KNEM选择性集成模型的提出主要是针对两个问题:一个是单个多分类学习模型存在分类能力有限、欠拟合以及泛化能力不足等问题;另一个是集成学习模型存在内在冲突问题,即集成模型的多样性与准确性之间的矛盾。为此,本文提出的选择性集成模型在训练阶段使用负相关原理对各子模型进行协同训练,在选择阶段使用K-means算法选择具有更强差异性的子分类模型。同时,在KNEM模型的决策阶段,一种具有自适应性的Weight-Decision Strategy决策系统被提出。该决策系统能够根据子分类模型在不同样本家族上的表现进行自适应地调整各自在每次决策中的权重关系,从而提高决策结果的合理性。通过第四章的实验可以看出,我们的方法与经典的机器学习模型相比不仅具有更高的分类准确率,而且在每一个恶意家族的识别率上都有较好的表现。4.未知的恶意代码或零日漏洞检测技术采用的主要方法是聚类算法。本文针对聚类算法在高维样本空间的低效性,设计了一个名为KNNSC的聚类算法。与经典的聚类算法采用的基于欧式距离和密度的样本相似度度量方法不同,该方法采用了一种基于分享最近邻的方法来度量样本相似度。如果两个样本是相似的,那么它们之间必然存在K个相同的最近邻样本。同时,该方法还通过计算核心点以及样本的吸引力,从而实现对边缘点和离群点的区分。实验结果表明该聚类算法不仅能够准确的检测出未知的恶意代码,而且还能够发现新的恶意家族。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 刘玉琳;;基于机器学习的金融投资应用分析[J];数字技术与应用;2021年11期
2 高焕堂;;学贯中西(2):认识AI的记忆(背诵)技能[J];电子产品世界;2021年12期
3 宋可可;钱萍;;机器学习势及其融入的物理模型在计算材料科学中的应用[J];中国冶金教育;2021年06期
4 杨光;陈亚睿;;机器学习案例化教学方法研究[J];电脑与电信;2021年11期
5 凌云志;杨琳;;紧跟科技前沿 提升应急效能——谈“机器学习”在应急领域的应用[J];城市与减灾;2020年05期
6 王泰然;李健聪;舒武;胡素磊;欧阳润海;李微雪;;基于机器学习的合金催化剂表面吸附能预测(英文)[J];Chinese Journal of Chemical Physics;2020年06期
7 本刊讯;;新的机器学习工具可追踪城市交通拥堵[J];数据分析与知识发现;2020年12期
8 王伟宾;;面向大数据环境的大规模机器学习工具研究综述[J];软件导刊;2021年01期
9 王蕴韬;;通信系统优化对分布式机器学习系统性能提升的分析[J];信息通信技术与政策;2021年03期
10 肖畅;吕立华;;全栈式机器学习在钢铁流程智能制造中的应用[J];宝钢技术;2021年02期
11 韦大欢;苏霞;;试析神经网络系统的机器学习过程[J];电脑编程技巧与维护;2021年04期
12 董春利;王莉;;基于机器学习的切换管理和模型浅析[J];电子测试;2021年09期
13 C.J.Abate;禾沐;;机器学习的未来——Daniel Situnayake访谈[J];单片机与嵌入式系统应用;2021年06期
14 赵哲园;;基于人工智能技术的机器学习研究分析[J];电子元器件与信息技术;2021年03期
15 詹东平;;近期热点文章[J];电化学;2021年03期
16 顾凡;;企业成功应用机器学习的四点建议[J];软件和集成电路;2021年07期
17 ;如何通过机器学习挖掘实际业务价值?[J];软件和集成电路;2021年06期
18 潘夏福;;机器学习的数学理论及其算法研究——评《机器学习的数学理论》[J];科技管理研究;2021年15期
中国重要会议论文全文数据库 前20条
1 赵帅;黄晓婷;;依然在路上:教学人工智能的发展与局限[A];中国教育财政政策咨询报告(2019—2021)[C];2022年
2 张旭东;;面向宽口径的机器学习课程和教材建设探索和实践[A];第十五届全国信号和智能信息处理与应用学术会议论文集[C];2022年
3 于海东;邢明;;基于机器学习多模型的SSL加密威胁检测技术研究和应用[A];2021年国家网络安全宣传周“网络安全产业发展论坛”论文集[C];2021年
4 陆烨玮;;基于机器学习的结核分枝杆菌耐药性分析方法[A];中国防痨协会第33届全国学术大会暨中国防痨科技奖颁奖大会论文汇编[C];2021年
5 吴超;陈景文;傅志强;吴思甜;苏利浩;;基于机器学习的化学品致癌性预测模型[A];人工智能与人类健康论文摘要集[C];2021年
6 Jonny Bentwood;;营销中的AI应用与未来发展[A];清研智库系列研究报告(2020年第5期)[C];2020年
7 夏振华;郭先文;陈十一;;关于机器学习RANS建模的一些思考[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
8 王子敬;吴晓妍;宋诚谦;秦丰华;罗喜胜;;基于GPU并行和机器学习的气固相互作用研究[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
9 彭俊;胡宗民;姜宗林;;基于机器学习预测激波相互作用位置的研究[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
10 赖力鹏;;机器学习与计算化学方法在小分子药物筛选与开发中的应用实践(英文)[A];2019中国化学会第十五届全国计算(机)化学学术会议论文集[C];2019年
11 沈超;侯廷军;;基于人工智能技术的蛋白-小分子打分方法研究[A];2019中国化学会第十五届全国计算(机)化学学术会议论文集[C];2019年
12 张伟;;一种用于流动模拟及建模的机器学习方法[A];第三十一届全国水动力学研讨会论文集(上册)[C];2020年
13 无奇;尹杰茜;余晨;王海明;洪伟;;机器学习辅助的多目标天线优化方法[A];2019年全国天线年会论文集(下册)[C];2019年
14 倪欢欢;韩益亮;段晓巍;李喆;;机器学习中的安全和隐私问题研究进展[A];2020中国系统仿真与虚拟现实技术高层论坛论文集[C];2020年
15 周信哲;陈永娟;蒲文鹏;;机器学习在水质预测中的应用[A];2020中国环境科学学会科学技术年会论文集(第四卷)[C];2020年
16 柏晓东;张伟;;基于机器学习的湍流涡激运动[A];第三十一届全国水动力学研讨会论文集(上册)[C];2020年
17 陈一;吴笛;段俐;康琦;;机器学习在BM对流研究中的应用[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
18 骆新斗;郭昊;刘沛清;;基于机器学习对低雷诺数下平板转捩模拟修正[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
19 杨学志;陆达伟;刘倩;江桂斌;;辨微识源:颗粒物的同位素指纹分析[A];中国化学会第22届全国色谱学术报告会及仪器展览会论文集(第一卷)[C];2019年
20 ;中国人工智能产业研究报告(Ⅲ) 公开版 2020年[A];艾瑞咨询系列研究报告(2020年第12期)[C];2020年
中国博士学位论文全文数据库 前20条
1 殷曦;基于机器学习及统计计算模型的膜蛋白结构预测[D];上海交通大学;2017年
2 杨静;蛋白质残基相互作用预测及其在结构建模中的应用研究[D];上海交通大学;2018年
3 韩启迪;基于非线性成矿动力系统的机器学习方法应用研究[D];中国地质大学(北京);2019年
4 薛红新;基于机器学习方法的分类与预测问题研究[D];中北大学;2019年
5 刘浏;基于机器学习的恶意代码检测与分类技术研究[D];国防科技大学;2017年
6 陈旭展;基于机器学习的智能机器人环境视觉感知方法研究[D];华中科技大学;2019年
7 吴念;CO_2电还原的理论计算研究[D];武汉大学;2019年
8 胡胜山;面向机器学习的安全外包计算研究[D];武汉大学;2019年
9 王磊;基于机器学习的药物—靶标相互作用预测研究[D];中国矿业大学;2018年
10 张庆;钙钛矿型功能材料的基因组工程研究[D];上海大学;2018年
11 管月;医学肿瘤影像分类算法研究及其在肝癌上的应用[D];南京大学;2018年
12 郝小可;基于机器学习的影像遗传学分析及其应用研究[D];南京航空航天大学;2017年
13 施建明;基于机器学习的产品剩余寿命预测方法研究[D];中国科学院大学(中国科学院遥感与数字地球研究所);2018年
14 陈再毅;机器学习中的一阶优化算法收敛性研究[D];中国科学技术大学;2018年
15 陆海进;Zr合金热动力学研究及机器学习[D];上海大学;2018年
16 戴望州;一阶逻辑领域知识与机器学习的结合研究[D];南京大学;2019年
17 符丹卉;基于MRI结构成像与静息态功能成像影像特征的机器学习法在AIDS患者中的应用研究[D];广西医科大学;2019年
18 Kashif Sultan(克希夫);5G移动通信网络中的呼叫记录分析[D];北京科技大学;2019年
19 梁霄;机器学习在量子物理学中的应用[D];中国科学技术大学;2019年
20 陈明哲;未来蜂窝网络中基于机器学习的资源管理技术研究[D];北京邮电大学;2019年
中国硕士学位论文全文数据库 前20条
1 王斌;应用机器学习算法对重症手足口病的危险因素筛选与预测[D];郑州大学;2019年
2 徐晓艳;基于机器学习的房颤识别算法研究[D];山东大学;2018年
3 曾中铭;基于机器学习的金属有机框架合成信息提取及形貌测量[D];厦门大学;2019年
4 林兵;机器学习在辐射源个体识别上的应用[D];厦门大学;2019年
5 万晓玥;基于机器学习的水域通信网安全技术研究[D];厦门大学;2019年
6 万露;强PUF抗机器学习攻击方法研究[D];湖南大学;2019年
7 徐英杰;基于机器学习的个人信用风险评估研究[D];西南财经大学;2019年
8 刘航;如何运用金融周期和经济周期改进大类资产配置?[D];厦门大学;2019年
9 李凌宇;基于机器学习方法的量化多因子选股研究[D];厦门大学;2019年
10 关松林;机器学习在疾病诊断中的应用[D];重庆大学;2019年
11 曹甜;基于机器学习的浏览器指纹异常检测模型研究[D];中南财经政法大学;2019年
12 Tahiry ANDRIAMANANTENA;机器学习和”克强指数”预测中国GDP增长[D];厦门大学;2019年
13 邱佳;量子力学辅助的机器学习算法对AIE效应的预测和理解[D];华南理工大学;2019年
14 孟圣然;基于机器学习的机械产品结构建模技术研究[D];杭州电子科技大学;2019年
15 牟多铎;基于机器学习方法的高光谱数据分类对比研究[D];长安大学;2019年
16 谭文杰;基于机器学习混凝土路面裂缝检测算法研究[D];广州大学;2019年
17 徐冠奇;基于机器学习的汽车出厂物流在线调度模型与算法研究[D];上海交通大学;2018年
18 郭志峰;基于机器学习的居民电力消费特征研究[D];合肥工业大学;2019年
19 鲁俊良;基于机器学习的智能电网虚假数据攻击检测研究[D];华北电力大学(北京);2019年
20 胡梓民;基于机器学习的复杂电力设备故障诊断模型研究[D];华北电力大学(北京);2019年
中国重要报纸全文数据库 前20条
1 记者 张梦然;机器学习可预测未上市新型人造毒品[N];科技日报;2021年
2 本报记者 蔡姝雯;机器学习实现“大海捞针”[N];新华日报;2021年
3 记者 张梦然;机器学习成功模拟并预报流感传播[N];科技日报;2021年
4 记者 赵汉斌 通讯员 陈艳;机器学习可预测日冕全日面软X射线辐射分布[N];科技日报;2021年
5 采访人 本报记者 卢健;“中间三天”问题 最对机器学习“胃口”[N];中国气象报;2020年
6 ;你也可以体验的机器学习[N];电脑报;2020年
7 记者 张梦然;机器学习诞生新型“研究员”[N];科技日报;2020年
8 记者 刘霞;机器学习发现数百种潜在新冠药物[N];科技日报;2020年
9 InfoWorld网站特约编辑兼评论员 Martin Heller 编译 陈琳华;如何选择云机器学习平台[N];计算机世界;2020年
10 本报驻波士顿记者 侯丽;深入挖掘机器学习潜力[N];中国社会科学报;2019年
11 本报记者 操秀英;当量子计算遇到机器学习会碰撞出什么火花?[N];科技日报;2019年
12 记者 张梦然;全新算法助机器学习抵抗干扰[N];科技日报;2019年
13 赵熙熙;机器学习有望找到致命病毒宿主[N];中国科学报;2018年
14 本报记者 马爱平;联邦学习或可破解机器学习数据获取难题[N];科技日报;2019年
15 微纳电子系;微纳电子系任天令团队在机器学习器件上取得突破[N];新清华;2018年
16 本报记者 杨博;苹果呼吁放宽自动驾驶测试限制[N];中国证券报;2016年
17 ;大数据未来十大发展趋势[N];中国信息化周报;2016年
18 ;机器学习是否等同于人工智能[N];中国信息化周报;2016年
19 本报记者 何晓亮;工具开放:开启人工智能“全民时代”[N];科技日报;2016年
20 本报记者 李致鸿;人工智能会改变一切[N];21世纪经济报道;2016年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978