收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM算法的web分类研究与实现

陈燃燃  
【摘要】: 随着全球互联网的普及,世界已经进入到一个高速信息化时代。在互联网上,web信息每天以几何级数增长,通过网络,人们可以很方便地浏览和共享巨大网络资源,然而与此同时网络上消极、不健康内容迅猛增长,影响国家安定团结,人们希望通过对网页进行内容识别和分类过滤,实现用户上网行为控制,营造和谐洁净的网络环境。随着文本分类研究及应用的逐步深入,Web分类成为数据挖掘一个重要的研究方向。本文主要研究Web分类算法,并对SVM算法进行了改进,应用在基于安全网络网关(SIG)和统一威胁管理(UTM)的电信项目中的URL过滤,具体内容有以下几个方面: (1)对Web分类模型的研究。本文研究的Web分类是对HTML页面的数据挖掘,通过研究分析web数据挖掘的来源、页面预处理、常用分词算法、文本特征词的提取与训练以及分类器的训练,来从整体流程上把握Web分类的模型。 (2)研究包括决策树、K-最近邻、朴素贝叶斯的Web分类算法。介绍了决策树算法中较为典型的二叉树分类器的生成和修剪,同时研究基于概率论模型的朴实贝叶斯分类算法和数据挖掘领域中小样本分类应用较多的K-最近邻分类算法。 (3)重点研究基于统计学理论,适用于空间维度较高的支持向量机分类算法。考虑到Web分类涉及种类繁多,并且近些年SVM多分类算法已得到广泛验证,本文对SVM多分类算法进行了比较,对其增量学习算法进行了初步探讨。 (4)对于分类器的训练本文在强大统计理论支撑的SVM多分类器基础上不断修改核函数,得到最优分类器,由于实际分类过程中是增量学习的过程,而单一的SVM算法可能引起重分类或者空分类问题,所以我们对其进行改进,结合经典SVM分类算法和效率较高的KNN算法对URL进行分类过滤,实验证明,改进后SVM算法无论在查准率还是查全率上都有很大的提高,有效过滤了不健康URL,净化网络内容,实现“绿色上网”


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 胡明;曾联明;;基于网格计算的大规模数据集SVM分类方法研究[J];现代计算机(专业版);2010年07期
2 任俊旭;;基于SVM的企业信息化能力成熟度测度模型研究[J];商业文化(下半月);2011年04期
3 杨克领;姜慧霖;;基于SVM的新多类分类算法[J];电脑知识与技术(学术交流);2007年13期
4 王明高;王琰;;基于小波提取特征的SVM目标识别[J];沈阳理工大学学报;2006年05期
5 吴春辉;陈洪生;;基于内容的音频分类技术综述[J];现代计算机(专业版);2011年05期
6 王双亭;艾泽天;都伟冰;康敏;;基于SVM不同核函数的多源遥感影像分类研究[J];河南理工大学学报(自然科学版);2011年03期
7 周珂;彭宏;胡劲松;;支持向量机在心电图分类诊断中的应用[J];微计算机信息;2006年09期
8 霍东云;聂峰光;郭力;;利用Medline文摘数据库研究文本分类[J];计算机与应用化学;2007年09期
9 刘磊;;多类分类支持向量机方法研究[J];福建电脑;2010年08期
10 崔爱国;;文本分类中特征提取方法的比较与研究[J];电脑知识与技术;2009年20期
11 杨福刚;孙同景;庞清乐;孙波;;基于SVM和小波的木材纹理分类算法[J];仪器仪表学报;2006年S3期
12 万雅静;贺明;;最大间隔分类器及其在入侵检测中的应用[J];微计算机信息;2007年18期
13 靳红梅;刘蓉;张俊梅;梁荣;;基于SVM的SAR图像分割方法[J];北京服装学院学报(自然科学版);2009年03期
14 周绮凤;洪文财;邵桂芳;;基于SVM的不同特征空间多分类方法研究[J];厦门大学学报(自然科学版);2010年01期
15 王世卫;李爱国;;基于SVM的报税欺诈检测[J];计算机工程;2006年09期
16 陈伟宏;;基于SVM的人脸表情识别[J];科学技术与工程;2008年21期
17 徐健;李柏年;张孔生;蒋利华;;基于SVM分类机的一种DNA序列判别方法[J];安徽理工大学学报(自然科学版);2009年01期
18 李秦渝;;SVM入侵检测系统中数据预处理方法改进[J];交通科技与经济;2009年03期
19 张问银;金宁德;刘印锋;;基于支持向量机的CD4细胞图像识别方法[J];计算机工程与科学;2009年07期
20 张春红;谢卫;;基于SVM-KNN算法的特色数据库分类体系初探[J];情报科学;2009年11期
中国重要会议论文全文数据库 前10条
1 司爱威;冯辅周;江鹏程;饶国强;王建;;基于可变风险SVM模型的故障识别方法研究[A];第十届全国振动理论及应用学术会议论文集(2011)上册[C];2011年
2 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 王红伟;董慧;;一种提高SVM分类精度的调制信号识别方法[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
4 蔡志理;姜桂艳;;多SVM分类器融合技术在高速公路AID中的应用[A];第二十七届中国控制会议论文集[C];2008年
5 ;A Tool Wear Predictive Model Based on SVM[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
6 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
7 ;Improved Particle Swarm Optimized SVM for Short-term Traffic Flow Predication[A];第二十六届中国控制会议论文集[C];2007年
8 邵杰;叶宁;容亦夏;;基于SVM的多波束测深数据滤波[A];第二十九届中国控制会议论文集[C];2010年
9 于湘涛;周峰;张兰;魏超;;基于SVM和田口方法的石英挠性加速度计健壮性设计[A];质量——持续发展的源动力:中国质量学术与创新论坛论文集(下)[C];2010年
10 ;Adaptive Control of Nonlinear System Based on SVM Online Algorithm[A];中国自动化学会控制理论专业委员会D卷[C];2011年
中国博士学位论文全文数据库 前10条
1 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
2 申丰山;样例权重估计及在此基础上的SVM[D];西安电子科技大学;2011年
3 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
4 张婧;基于SVM的肺结节自动识别方法研究[D];华南理工大学;2011年
5 龙艳花;基于SVM的话者确认关键技术研究[D];中国科学技术大学;2011年
6 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
7 渐令;基于核的学习算法与应用[D];大连理工大学;2012年
8 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
9 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
10 杨晓峰;基于机器学习的Web安全检测方法研究[D];南京理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 陈燃燃;基于SVM算法的web分类研究与实现[D];北京邮电大学;2010年
2 吴迪;基于SVM分类器的分步定位算法研究[D];哈尔滨工业大学;2010年
3 严会霞;基于SVM的眼动轨迹解读思维状态的研究[D];太原理工大学;2010年
4 赵行;SVM分类器置信度的研究[D];北京邮电大学;2010年
5 冯青;基因微阵列数据的SVM分类器优化方法[D];东北师范大学;2010年
6 刘莹;基于SVM维吾尔文印刷体识别分类器设计[D];新疆大学;2011年
7 魏磊磊;基于SVM的深孔加工状态监测技术研究与系统开发[D];西安理工大学;2010年
8 杨焕;基于Basic-N-Units特征的SVM方法预测MicroRNA[D];吉林大学;2010年
9 邓昌葛;基于SVM的图像内容检索研究[D];中国科学技术大学;2010年
10 曾玉祥;盲抽取与SVM方法在地球化学异常下限提取中的应用[D];成都理工大学;2010年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978