收藏本站
《北京邮电大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的聚类及文本分类研究

平源  
【摘要】:随着大数据(Big Data)时代的来临,互联网上分布、流动并急剧膨胀的不仅有多样化应用所产生的具有可用性、有效性的内容资源,还充斥着大量干扰正常业务、侵犯隐私、误导公众甚至危害社会稳定并同样多样化的信息和行为。从数据管理的角度,有必要根据不同行业、领域用户的需要,快速、高效地组织、分析、提取并分级保护有用的数据或敏感信息;而从内容安全的角度,人们更期待能够对正在或即将泄露的敏感信息进行检测和保护,对存在虚假、恶意或诱导意图的内容或行为进行分类、过滤和分析,以便及时地发现攻击源、保护受害者,同时调动智能防御系统进行数据处理、知识学习和模型更新。在众多机器学习方法中,聚类分析(无监督学习)和分类(有监督学习)被认为是快速、准确地发现、定位、组织和分析具有特定用途的可用信息和行为模式,实现信息安全保护效率最大化的有效途径和关键技术。 作为一种基于统计学习理论的机器学习方法,支持向量机不仅具有优秀的小样本学习能力,而且较好地解决了非线性、高维度、局部极小值等问题。它既能通过构造闭合分界面来进行无监督的数据聚类分析,又可以通过构造非闭合分界面来处理有监督的数据分类问题,尤其适于处理高维、稀疏且特征之间具有较大相关性的文本数据,因而具有高效地解决前述以数据管理和内容安全为目的数据分析问题的优秀品质。然而,当样本规模较大、维数较高、类别数较多、分布不规则且存在噪声数据干扰时,传统的基于支持向量机的聚类分析模型存在训练速度较慢、参数敏感且难以找到合适的簇原型来提升簇标定的效率和准确率等问题;作为互联网信息存在的主要形式,文本数据通常具有前述特征,并且会以降低数据可分性的方式影响基于支持向量机的文本分类系统性能,包括降低训练和分类速度、准确率以及收集到的支持向量样本的指示意义等。 为了解决这些问题,本文的主要研究内容及创新工作可归纳如下: (1)针对支持向量聚类算法兼具边界聚类与原型查找聚类的特点,从参数选择、对偶问题求解及簇标定策略等方面分析并总结了影响支持向量聚类算法性能的关键原因及可行的改进方向,并在分析了核函数宽度q与簇的分裂/合并模式之间的关系之后,提出了通过二分查找法快速定位簇规模稳定时的q值来同时取得最优参数和最佳聚类结果。 (2)作为基于边界的聚类方法,能够对具有任意形状或不规则簇轮廓的数据集进行高效率的聚类是支持向量聚类算法相对于其他算法的一大优势。然而,这一优点也导致了支持向量聚类对簇轮廓比较敏感,受一些稀疏分布且干扰簇轮廓或数据分布结构的噪声数据影响较大。针对传统的支持向量聚类算法因未能有效界定噪声数据点和孤立点而允许噪声数据点参与对偶问题求解,降低了训练阶段的效率、影响了算法对数据分布结构探索的有效性等问题,本文首次从分布特点和簇隶属关系的角度给出了噪声数据的定义,并提出了一种无监督的噪声消除算法。利用该算法,可在数据进入对偶问题求解之前的输入空间快速地移除噪声数据,避免了一部分无意义的特征空间映射操作,降低了聚类算法对核矩阵的存储空间要求,并且可在不对数据集的分布结构或簇轮廓造成任何负面影响的前提下,为提升支持向量聚类算法的效率提供帮助。 (3)寻找合适的簇原型是提升支持向量聚类算法效率的主要途径之一。传统的支持向量聚类算法或者使用支持向量分组作为簇原型,或者将其转换为单簇单原型的问题。前者在处理大规模高维数据时效率较低,后者得到的簇原型对结构不规则或内部样本分布不均匀的簇的指代效果不理想,并可能降低簇标定的准确率。针对这一问题,本文提出了一种单簇多个簇原型,并且每个簇原型同时使用形状质心和密度质心进行指代的双质心支持向量聚类(Double Centroids Support Vector Clustering,简称DBC)算法。从原理上看,DBC算法是前两种传统模型的折中,特点是能允许在不规则的簇内部自适应地分布多对簇原型。大量的实验表明,DBC算法不仅继承了经典支持向量聚类算法对不规则簇轮廓的识别能力,而且还可发现簇内样本的分布均匀程度、显著提高簇标定的效率和准确率,同时双质心具有较强的簇指代能力,可用于大规模数据的分析。 (4)簇标定算法与簇原型的查找或生成模式有着紧密的联系。研究发现,当前的支持向量聚类算法在通过对簇原型点对之间的线段抽样完成组件连接性判定时,使用了大量的冗余点对和采样点,严重影响了簇标定效率却没能带来准确率的提升。针对这一问题,本文提出一种基于凸分解的簇标定(Convex Decomposition based Cluster Labeling,简称CDCL)算法,该算法属于单簇多个簇原型方案的变体,其最大特点是不再通过已有的或者优化生成的单一样本作为簇原型,而是能够根据簇结构的不同,自适应地将其分解为一定数量、不同形状和大小的凸包来作为簇原型使用。本文还详细分析并定义了以凸包为簇原型时影响凸包连接性判断的关键因素—准支持向量,并将簇的连接性分析转换为最近邻凸包之间的连接性判断问题,通过构造最大概率穿越准支持向量密集区域的采样线段来避免抽样点对的冗余。另外,本文还提出了一种与凸分解模型相匹配的非线性抽样序列生成模式来最大程度避免点对之间的冗余采样,降低实际的平均抽样频率。大量实验表明,本论文所提出的CDCL算法不仅提高了簇标定的效率,并且对参数设置不敏感,能显著提高标定的准确率。 (5)研究表明,对于以构造特征空问的最小包含超球体和支持函数为目的的支持向量聚类而言,那些簇轮廓内部的样本、外部的孤立点及噪声数据点都是不必要的,它们的存在只会增加存储空间的占用,降低训练效率。为此,本文提出一种快速的支持向量聚类(Fast Algorithm of Support Vector Clustering,简称FASVC)算法。该算法先在数据输入空间直接提取簇轮廓(或边界)样本来构造超球体、提取支持向量并完成支持函数的构造,然后采取一种自适应的簇标定策略,根据所构造的超球体半径R是否大于1来选择使用基于凸分解或圆锥的簇标定算法。由于FASVC算法高度约简了求解优化问题的规模,并且所采用的自适应簇标定策略不会增加优化问题的约束条件,可大幅度地提升聚类分析过程的存储空间利用率和运行时间效率,故而非常适合在存储空间受限的情况下实施大规模的数据分析。另外,算法还与惩罚因子C无关,并对其他参数设置不敏感。实验证明,本论文所提出的FASVC算法能高效地处理文本聚类和P2P流量分类问题。 (6)在文本分类领域,支持向量机是公认最好的分类器之一。由于基于结构化风险最小化原理,使用支持向量机进行文本分类的性能与数据的可分性(即不同类别样本之间的分类间隔)直接相关,因此寻找最合适的增强数据集可分性的文本表示方法是提升文本分类性能的关键。研究表明,文本向量化表示过程实际上是对文本信息进行压缩的过程,因而最大程度的信息保留对提升文本分类性能意义重大。然而,目前主流的文本表示方案则因存在“单一的文档频率依赖”、“特征权重量化的全局策略”及“忽略文本结构的作用”等问题导致大量重要信息在文本向量化过程中被丢失,影响了数据的可分性。针对这些问题,本文从多个角度提出了不同的性能提升方案。1)首先,本文定义了特征的类别贡献度的概念,并提出兼顾“类别贡献度”与“类间区分能力”相结合的方案(Category Contribution Enhanced,简称CCE)来避免文本特征量化时对单一文档频率的依赖。2)其次,本文设计了自适应的文本块划分算法,以此为基础可进行文本块分布重要性的描述,并将其作为结构信息嵌入到不同的特征中。3)然后,本文还定义了特征的类别倾向和类别偏好的概念,并基于此提出了融合多类别倾向的特征类间区分能力强化方案;在将该方案与CCE权重方案、文本块分布重要性描述相结合后构建了一种融合多类别倾向的文本向量化(co-contributions of terms on class tendency for vectorizing text,简称C2TCTVT)算法,该算法不仅保留了那些因遵循“全局策略”而丢失的特征类别倾向的分布信息,而且实现了将文本向量从高维、稀疏到低维、稠密的高度压缩,并且所得到的低维向量还保留了文本的多类别倾向信息、提升了数据可分性和支持向量样本的指代价值;基于该算法框架可在显著提升文本分类效率的同时获得与传统方法相当的分类性能。4)最后,作为对特征的局部重要性的改进,本文还提出了两组嵌入文本块重要性分布信息的特征频率方案,该方案可替代传统的特征频率方案,在结合CCE方案后可显著提升基于支持向量机的文本分类性能。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP181;TP391.1

【参考文献】
中国期刊全文数据库 前3条
1 赵军;金千里;徐波;;面向文本检索的语义计算[J];计算机学报;2005年12期
2 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
3 彭建芬;周亚建;王枞;杨义先;平源;;TCP流量早期识别方法[J];应用科学学报;2011年01期
【共引文献】
中国期刊全文数据库 前10条
1 魏晋;;地下水流动对埋地换热器影响的模拟研究[J];中国建设动态.阳光能源;2006年06期
2 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
3 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
4 周世斌;白敬华;刘玉树;;统计流形上基于核近邻算法的文本分类研究[J];北京理工大学学报;2010年03期
5 易玉峰,丁福臣,李术元;轻质烷烃异构化进展述评[J];北京石油化工学院学报;2003年01期
6 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期
7 黄文良;李石坚;刘菊新;徐从富;;一个大规模垃圾短信实时过滤系统[J];北京邮电大学学报;2008年03期
8 刘百东;;配电系统的可靠性分析[J];玻璃;2011年07期
9 柯丽;王明文;何世柱;黎佳;罗远胜;;基于频率共现熵的跨语言网页自动分类研究[J];江西师范大学学报(自然科学版);2011年03期
10 曾立梅;;基于文本数据挖掘的硕士论文分类技术[J];重庆邮电大学学报(自然科学版);2010年05期
中国重要会议论文全文数据库 前10条
1 龙威;宗洪锋;;节流器类型对空气静压导轨静特性的影响分析[A];第十五届流体动力与机电控制工程学术会议论文集[C];2011年
2 高洁;孙鹤旭;董砚;何林;;开关磁阻电机RBF神经网络滑模控制器的设计与转矩脉动优化的研究[A];中国自动化学会控制理论专业委员会D卷[C];2011年
3 蔡銮;徐栋;;钢筋混凝土双向偏心受力截面非线性分析[A];第十一届后张预应力学术交流会论文集[C];2011年
4 徐宏;张瑚;;DVR逆变单元补偿方法分析与研究[A];2010年云南电力技术论坛论文集(文摘部分)[C];2010年
5 李玉株;肖江;黄丽燕;刘君;;基于TDC-GP2的激光测距系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
6 彭思敏;王世敏;万丽;董兵海;;原位聚合制备氧化石墨烯/聚酰亚胺纳米复合薄膜[A];第七届中国功能材料及其应用学术会议论文集(第4分册)[C];2010年
7 徐锦华;;丙烯酸改性水性聚氨酯涂料[A];中国聚氨酯工业协会第十四次年会论文集[C];2008年
8 殷杰;徐伟弘;王顺;张旭苹;;海底光缆护套层故障探测技术[A];第二届全国海底光缆通信技术研讨会论文集[C];2009年
9 赵剑利;刘锡良;陈志华;田浩;;攀达穹顶体系设计计算前处理程序的开发[A];庆贺刘锡良教授执教五十周年暨第一届全国现代结构工程学术报告会论文集[C];2001年
10 王洪军;刘锡良;张其林;;索穹顶结构施工过程跟踪[A];第三届全国现代结构工程学术研讨会论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 张春玉;预应力空间网格结构优化理论及可靠性分析[D];哈尔滨工程大学;2010年
2 程军娜;基于形态学多尺度图像分析的海藻细胞图像分割及特征提取[D];中国海洋大学;2010年
3 刘高峰;长江口水沙运动及三维泥沙模型研究[D];华东师范大学;2011年
4 石云龙;基于CAS理论的地震紧急救援系统模型构建与模拟仿真[D];中国地质大学(北京);2010年
5 王正家;ACA互连的多因素作用分析与性能优化[D];华中科技大学;2010年
6 胡平平;多屏同步三维显示技术的研究和实现[D];中国电力科学研究院;2010年
7 詹越;知识型员工个人知识管理能力影响因素研究[D];南开大学;2010年
8 王琳;不确定环境下的班轮企业资源管理研究[D];南开大学;2010年
9 李丹;CuO-Mn_xO_y/γ-Al_2O_3催化剂的制备、表征及其催化还原NO的性质研究[D];南京大学;2011年
10 韩嵘;水泥基压电智能器件特性分析[D];北京交通大学;2010年
中国硕士学位论文全文数据库 前10条
1 程祥;农产品冷链物流库存管理应用研究[D];华中农业大学;2010年
2 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
3 钟宇翔;植物纤维增强热塑性本薯淀粉复合材料的制备与性能研究[D];广西师范学院;2010年
4 俞亚明;LOFT建筑中的节能设计[D];浙江理工大学;2010年
5 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
6 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
7 王海波;泰安山城结合部公园游人行为研究[D];山东农业大学;2010年
8 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
9 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
10 余文华;CFRP增强高强混凝土柱延性性能研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前4条
1 马永立;钱宗珏;寿国础;胡怡红;;机器学习用于网络流量识别[J];北京邮电大学学报;2009年01期
2 王建会,王洪伟,申展,胡运发;一种实用高效的文本分类算法[J];计算机研究与发展;2005年01期
3 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
4 陈毅松,汪国平,董士海;基于支持向量机的渐进直推式分类学习算法[J];软件学报;2003年03期
中国重要会议论文全文数据库 前2条
1 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 金千里;赵军;徐波;;弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 卢祖友;桑永胜;;基于球向量机的中文文本分类[J];计算机工程与科学;2008年12期
2 郝海涛;;基于向量机的文本分类中词典结构研究[J];福建电脑;2009年03期
3 王彦明;奉永桃;奉国和;;1999-2008年我国SVM文本分类文献计量分析[J];图书情报工作;2009年20期
4 吴守用;;基于SVM的哈萨克语文本分类初探[J];现代计算机(专业版);2010年04期
5 赵延平;谢丽聪;;面向电信领域的文本分类研究[J];计算机与现代化;2011年02期
6 吴巧敏;林亚平;;一种基于重复训练的支持向量机方法[J];计算机工程与应用;2007年31期
7 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
8 闫超;;基于改进的SVM线性可分文本分类算法[J];电脑开发与应用;2010年08期
9 张玉峰;何超;;基于潜在语义分析和HS-SVM的文本分类模型研究[J];情报理论与实践;2010年07期
10 陈立孚,周宁,李丹;基于机器学习的自动文本分类模型研究[J];现代图书情报技术;2005年10期
中国重要会议论文全文数据库 前10条
1 朱慕华;朱靖波;陈文亮;;面向支持向量机的降维方法比较分析[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
4 曹菲菲;朱慕华;朱靖波;;基于抽样的两阶段支持向量机训练算法[A];第三届学生计算语言学研讨会论文集[C];2006年
5 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
6 刘晓勇;;基于GA与SVM融合的网页分类算法[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
7 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 栾江;唐常杰;黄晓冬;阴小雄;廖勇;;一种增量式支持向量机文本分类模型[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
3 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
4 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 符信;30个指标评价社会发展水平[N];南方日报;2005年
7 记者 李远治 通讯员 邹超 敖翔;重庆号百传媒探索聚类市场新模式[N];人民邮电;2009年
8 本报记者 薛海滨;四大概念技术秀[N];计算机世界;2005年
9 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
10 李水根;计算机详解配伍与药效关系[N];健康报;2005年
中国博士学位论文全文数据库 前10条
1 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
2 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
3 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
4 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
5 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
6 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
7 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
8 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
9 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
10 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
中国硕士学位论文全文数据库 前10条
1 张滨;中文文档分类技术研究[D];武汉大学;2004年
2 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
3 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
4 李强;基于支持向量机的文本分类方法研究[D];西安科技大学;2009年
5 于海龙;面向PU问题的文本分类的研究与实现[D];吉林大学;2005年
6 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
7 杨丽华;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2006年
8 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
9 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
10 代亮;基于支持向量机的文本分类问题研究[D];大连海事大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026