收藏本站
《北京建筑大学》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的恶意网址识别方法的研究与发现

张慧  
【摘要】:随着互联网的快速发展以及网民数量的不断攀升,信息在高速与频繁的交换过程中木马注入、网络钓鱼、分布式攻击等网络攻击不断涌现,严重威胁个人用户的隐私、网络环境的生态及国家信息财产安全。许多网络攻击借助传播恶意URLs来实现。本文针对恶意URLs的检测问题进行了相关研究。针对基于黑名单机制只能检测识别已发现的恶意URLs,无法预测新近出现及未标记的恶意网址的问题,本文对大量URLs进行统计分析,设计并提出具有高检出率的恶意URLs检测特征空间,包含基于时间、元辅音比等34维特征。为验证比较特征有效性,结合机器学习及深度学习算法进行检测实验,证明对恶意URLs检测识别具有良好的区分能力,检测准确率高达99.5%。通过对特征集的对比分析发现:时间、子路径最大长度、URLs中元组在负向数据集概率和、URLs中元组在正向数据集概率和、域名最长字串占域名比例、域名中不同种类的字符占域名比例等15维特征在先前研究中未被使用或较少被使用,但在本特征集中起关键性区分作用。针对人工设计特征规则过程中会引入不相关、冗余、噪声特征等问题,本文提出一种发现综合特征空间的方法,主要采用随机森林、J48、贝叶斯等机器学习算法对基于信息增益、信息增益率、基于相关性等多种特征选择算法选定一组准确率高的广谱特征空间。实验证明,采用此方法提取的特征空间对恶意URLs的检测具有良好的贡献能力,检测准确率高达99.4%,多分类器平均准确率达98.6%,高于全特征集0.4%,特征空间维度下降55.9%。针对URLs检测识别中主流的特征提取算法面临的人工设计规则困难、规则更新时效性差的问题,本文设计了一种URLs编码器并结合3种结构的卷积神经网络来实现URLs特征自提取的方法。该方法采用统计n-gram(n=1)字符数量的方式构建URLs编码器并将URLs映射编码成矩阵结构,然后通过预训练完成卷积神经网络初始化,进而实现URLs特征的自提取。再结合多方面因素对本文的特征提取模型进行验证分析。实验表明,本文提出的将URLs编码与卷积神经网络结合的特征提取方法可以有效地完成对良性和恶意URLs的特征自提取,且提取的URLs特征具备良好的区分差异性,多分类器的分类准确率也均超过97%,最高可达99.2%。
【学位授予单位】:北京建筑大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.08;TP181

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 李阳;;机器学习在网络空间安全研究中的应用分析[J];电脑知识与技术;2019年24期
2 高华川;;机器学习在经济学中的应用[J];纳税;2019年24期
3 李兵;林文钊;罗峥尹;;基于机器学习的智慧农业决策系统设计与实现[J];信息与电脑(理论版);2018年24期
4 舒娜;刘波;林伟伟;李鹏飞;;分布式机器学习平台与算法综述[J];计算机科学;2019年03期
5 刘传会;汪小亚;郭增辉;;机器学习在反洗钱领域的应用与发展[J];清华金融评论;2019年04期
6 孟雨;;机器学习让计算机更智能[J];计算机与网络;2019年14期
7 朱辉;;机器学习在企业级场景中的实践与探讨[J];中国建设信息化;2018年03期
8 彭传意;;机器学习——我们该如何与机器竞争[J];数字通信世界;2018年01期
9 陈轶翔;埃里克·布伦乔尔森;汤姆·米切尔;;机器学习的能力范围及其对劳动力的影响[J];世界科学;2018年04期
10 赵长林;;机器学习即服务[J];网络安全和信息化;2017年10期
中国重要会议论文全文数据库 前10条
1 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
2 王衍鲁;张利会;张淑洁;石洁茹;王鹏;;大学新生学校适应的个体与环境因素探究:基于机器学习的考察[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年
3 张长水;;大数据机器学习[A];2015年中国自动化大会摘要集[C];2015年
4 何琳;侯汉清;;基于标引经验和机器学习相结合的多层自动分类[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
5 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
7 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
8 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 吴娜;刁联旺;;基于机器学习的博弈对抗模型优化框架软件系统设计[A];第六届中国指挥控制大会论文集(上册)[C];2018年
10 蒋雍建;程楠;刘泽佳;周立成;汤立群;刘逸平;蒋震宇;;基于响应统计特征和机器学习的桥梁损伤识别方法研究[A];2018年全国固体力学学术会议摘要集(下)[C];2018年
中国重要报纸全文数据库 前10条
1 赵广立;防特网将机器学习应用于高级威胁检测[N];中国科学报;2018年
2 编译 晋楠;机器学习是“炼金术”?[N];中国科学报;2018年
3 CIO.com资深作家 Clint Boulton 编译 Charles;领先一步:机器学习的10个成功案例[N];计算机世界;2018年
4 Bob Violino 编译 Charles;盲目冒进:机器学习的5个失败案例[N];计算机世界;2018年
5 本报驻波士顿记者 侯丽;深入挖掘机器学习潜力[N];中国社会科学报;2019年
6 王方 编译;菌自何方 机器学习早知道[N];中国科学报;2019年
7 Matt Asay 编译 Monkey King;为什么机器学习没有捷径可循?[N];计算机世界;2019年
8 本报记者 操秀英;当量子计算遇到机器学习会碰撞出什么火花?[N];科技日报;2019年
9 彭博企业数据业务全球负责人 Gerard Francis;金融数据质量决定机器学习时代的投资回报[N];计算机世界;2019年
10 Isaac Sacolick 编译 Charles;关于机器学习的5个要点[N];计算机世界;2019年
中国博士学位论文全文数据库 前10条
1 王磊;基于机器学习的药物—靶标相互作用预测研究[D];中国矿业大学;2018年
2 张庆;钙钛矿型功能材料的基因组工程研究[D];上海大学;2018年
3 管月;医学肿瘤影像分类算法研究及其在肝癌上的应用[D];南京大学;2018年
4 郝小可;基于机器学习的影像遗传学分析及其应用研究[D];南京航空航天大学;2017年
5 施建明;基于机器学习的产品剩余寿命预测方法研究[D];中国科学院大学(中国科学院遥感与数字地球研究所);2018年
6 陈再毅;机器学习中的一阶优化算法收敛性研究[D];中国科学技术大学;2018年
7 陆海进;Zr合金热动力学研究及机器学习[D];上海大学;2018年
8 戴望州;一阶逻辑领域知识与机器学习的结合研究[D];南京大学;2019年
9 符丹卉;基于MRI结构成像与静息态功能成像影像特征的机器学习法在AIDS患者中的应用研究[D];广西医科大学;2019年
10 Kashif Sultan(克希夫);5G移动通信网络中的呼叫记录分析[D];北京科技大学;2019年
中国硕士学位论文全文数据库 前10条
1 安延鑫;中文短文本情感分析的研究与实现[D];上海交通大学;2017年
2 余耀;微博用户的用户画像研究与构建[D];上海交通大学;2017年
3 吴珍珍;基于机器学习的无线通信解调研究[D];中国矿业大学;2019年
4 闫铤铤;机器学习在中国A股市场的量化策略研究[D];吉林大学;2019年
5 张诗晨;基于机器学习的电商在线消费者购买行为预测研究[D];吉林大学;2019年
6 王欣;基于机器学习的集成入侵分类器的设计与实现[D];长江大学;2019年
7 宋同峰;基于机器学习的肾病辅助诊断系统的研究[D];青岛科技大学;2019年
8 王英杰;基于分形理论和机器学习的股票预测方法研究[D];河南理工大学;2018年
9 胡芳琴;基于机器学习的P2P网贷平台违约风险预测实证研究[D];安庆师范大学;2019年
10 华琪;基于机器学习的智能建筑行为建模与预测方法研究[D];上海交通大学;2017年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026