多模态端到端加密网络流量识别系统设计与开发
【摘要】:近年来,随着网络技术的发展和互联网普及率的提升,全球范围内的网络流量呈爆炸性增长。同时,随着人们安全意识的提高,流量加密技术被广泛使用,以保护用户在交换网络信息时的隐私安全。然而,流量加密技术是一把双刃剑,它在保护用户隐私的同时,也增加了网络管理员进行合理网络分析的难度。此外,黑客也可通过加密信道进行网络通信来隐蔽其非法的网络攻击行为,使传统的防火墙技术更难准确地识别入侵。流量识别对维护网络安全和提升网络管理水平具有重要意义。如何在加密场景中对网络流量进行准确的识别,是目前亟需解决的难题。传统的基于端口号或有效载荷的流量识别方法不适用于使用动态端口和加密场景下的网络流量识别。虽然许多机器学习方法如马尔可夫链、随机森林等能对加密流量实现一定程度的识别,但其基于人工筛选的网络流量特征依赖先验知识,且会导致信息刻画不完整,从而影响识别的准确性。随着深度学习的出现,卷积神经网络等模型被广泛应用在网络数据包的字节端到端特征提取中,但是卷积神经网络对数据包字节间的相互关系捕捉能力较弱、表达网络流的能力有限。另外,目前大部分的流量识别方法方法都是使用单模态的信息作为输入,导致网络流量特征信息提取不够充分。为了克服以上问题,本文设计了一个多模态端到端的深度学习框架用于加密流量识别。具体而言,本文主要的贡献如下:1.针对传统单模态方法存在的网络流量特征信息提取不充分的问题,提出了一种多模态的训练框架。该框架基于人工提取特征和原始字节流去学习网络流量的隐藏特征信息,并结合两者的优势,从而达到更高的识别精度。2.针对经典卷积神经网络方法对数据包字节间的相互关系捕捉能力弱的问题,提出了一种基于多头自注意力机制的端到端建模方案。该方案采用了无监督的网络流量预训练策略,增强了模型对数据包的表示能力。3.针对实网部署时网络流量识别困难、管理不直观等问题,开发了一个网络异常检测系统。该系统集成了本文所提出的多模态端到端流量识别方法,能有效地对网络流量进行异常行为识别和展示,帮助网络管理员迅速掌握当前的网络安全态势。本文采用国家超级计算深圳中心的真实原始网络流量数据对本文所提出的模型进行了验证。实验表明所提出的模型较好结合了数据包字节和长度序列的优势,能准确地对加密网络流量进行识别,取得了比国际同类模型更好的的识别结果。