收藏本站
《北京化工大学》 2016年
加入收藏

基于决策树的智能广告识别系统的设计与实现

刘昊泽  
【摘要】:在当代,互联网技术和无线网络技术的飞速发展给人们的生活带来了很多便利,通过易于获得的智能终端,互联网用户能够非常轻松的实现网络接入。网络广告作为一种新型的媒体形式,凭借其自身具备的诸多优点以及互联网的平台,正在日常生活中扮演着日益重要的地位。然而随着网络安全问题日益突出,由网络广告所带来的负面影响也日益凸显,为了保护互联网用户的利益,因此产生了设计和实现一个能够对广告进行识别的智能系统的需求。为了解决提出的问题,本文进行了如下的研究:(1)针对本文提出的问题,对互联网广告的一般投放方式进行了研究,发现了用户所访问的正常网页与广告之间所存在的伴生关系,根据这种伴生关系在用户数据包所包含的时间信息中所体现的具体特征以及用户数据包中所包含的其他信息,提出了一种以采集到的用户数据包作为数据来源,采用数据挖掘技术中的分类算法来实现广告识别的方法。按照本课题中所提出问题的实际情况将广告识别问题转化为有监督学习问题。(2)通过分析解决数据包分类问题的需求给出了从初始数据中选取的数据属性,对决策树分类算法中的C4.5算法进行了详细研究,掌握了算法的计算过程,提出了根据图论的相关知识对用户数据进行处理的方法,同时通过提出新概念的方式给出了对于时间属性的处理方法,结合用户数据的特征提出了对数据包进行分类的新方法,(3)按照新方法的指导提出了具体的实验步骤,实验将使用经过处理后的数据作为输入,将数据输入到算法中后,得到的输出便是一棵决策树,之后对算法生成的决策树进行了解释和性能评估,经过实验表明新的分类方法具有比较理想的准确性,通过该方法能够比较成功地实现网络广告的识别。(4)根据不同模块所应具有的功能,对各个模块的工作情况进行了介绍,同时将这五个模块全部实现,分别实现各个模块之后进行了整合经过整合最终实现了文中开始提到的智能广告识别系统。
【关键词】:决策树 数据挖掘 无线网络 图论
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:O157.5;TP311.13
【目录】:
  • 摘要4-6
  • ABSTRACT6-15
  • 第一章 绪论15-21
  • 1.1 背景与现状15-18
  • 1.1.1 无线网络的发展概述15-16
  • 1.1.2 网页广告的发展概述16-17
  • 1.1.3 课题的研究意义17-18
  • 1.2 本文所做的工作18-19
  • 1.3 论文章节安排19-21
  • 第二章 预备知识21-35
  • 2.1 图论的基本介绍21-23
  • 2.1.1 图论的发展概述21
  • 2.1.2 图的基本概念21-23
  • 2.2 数据挖掘的相关研究23-30
  • 2.2.1 数据挖掘的基本概念24-25
  • 2.2.2 数据挖掘处理的数据对象25-26
  • 2.2.3 数据挖掘的基本流程26-28
  • 2.2.4 数据挖掘的主要技术28-29
  • 2.2.5 数据挖掘技术的应用领域29-30
  • 2.3 决策树分类方法介绍30-34
  • 2.3.1 决策树分类方法概述30-31
  • 2.3.2 决策树的生成过程31-32
  • 2.3.3 分类模型的评估方法32-33
  • 2.3.4 决策树的评价指标33-34
  • 2.4 本章小结34-35
  • 第三章 基于决策树的数据包分类方法35-43
  • 3.1 数据包分类问题的一般定义35
  • 3.2 C4.5分类算法35-38
  • 3.2.1 C4.5算法的伪代码描述35-36
  • 3.2.2 C4.5算法的详细介绍36-38
  • 3.3 数据包分类的具体流程38-41
  • 3.3.1 数据包分类的主要依据38-39
  • 3.3.2 数据包属性的选取39
  • 3.3.3 训练数据集的确定39-41
  • 3.3.4 数据包属性的预处理41
  • 3.4 本章小结41-43
  • 第四章 数据包分类实验与结果讨论43-53
  • 4.1 实验的初始设置43-44
  • 4.1.1 实验的数据来源43
  • 4.1.2 实验环境43-44
  • 4.1.3 算法初始参数的选择44
  • 4.2 本实验采用的评估标准44-45
  • 4.3 决策树的生成45-48
  • 4.3.1 测试数据集的数据分布情况45-47
  • 4.3.2 处理后的数据形式47-48
  • 4.3.3 通过训练数据集生成决策树48
  • 4.4 模型评估48-51
  • 4.4.1 交叉验证评估48-49
  • 4.4.2 保留法评估49
  • 4.4.3 对比实验49-51
  • 4.5 结果讨论51-52
  • 4.5.1 不同的网站类型的分类结果讨论51
  • 4.5.2 总体分类结果讨论51-52
  • 4.6 本章小结52-53
  • 第五章 智能广告识别系统的设计与实现53-67
  • 5.1 智能广告识别系统的总体设计53-55
  • 5.1.1 总体设计思路53
  • 5.1.2 系统模块简介53-55
  • 5.2 无线广播模块55-57
  • 5.2.1 无线广播模块的硬件设备55-56
  • 5.2.2 无线广播的具体流程56-57
  • 5.3 信息采集模块57-60
  • 5.3.1 在Linux系统下使用抓包软件59
  • 5.3.2 用户数据包的过滤策略59-60
  • 5.4 信息处理模块60-64
  • 5.4.1 文件转化61
  • 5.4.2 图的生成61-62
  • 5.4.3 .txt文件解析62-64
  • 5.5 决策树分类模块64-66
  • 5.5.1 生成初始决策树64
  • 5.5.2 对采集数据进行分类64-65
  • 5.5.3 评估和优化65-66
  • 5.6 系统展示66
  • 5.7 本章小结66-67
  • 第六章 结论与展望67-71
  • 6.1 本文工作总结67-68
  • 6.2 后续工作展望68-71
  • 参考文献71-75
  • 致谢75-77
  • 研究成果及发表的学术论文77-79
  • 作者及导师简介79-80
  • 附件80-81

中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026