收藏本站
《华中师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于集成特征选择的网络书写纹识别研究

孙建文  
【摘要】:互联网固有的开放性与隐匿性降低了用户在网络空间的责任感,网络信任危机与安全挑战日益严峻。通过分析用户的网络留言,提取用户在字里行间留下的、可反映其独特书写风格的“网络指纹”,即网络书写纹,可达到识别其身份的目的。 从机器学习角度,网络书写纹识别是一个多类别单标签的文本分类问题。本文针对中文网络文本,围绕网络书写纹的特征提取和识别技术两个关键问题,对基于N-gram字符的网络书写纹特征提取、基于集成特征选择的识别技术和动态选择性集成策略等内容展开研究,以进一步提高网络书写纹的识别性能,提高识别模型的可伸缩性与可理解性。 首先结合中文的语言特点和N-gram字符特征的优点,将变长N-gram字符特征应用于中文网络书写纹识别,通过实验研究了中文环境下N-gram字符特征的识别性能以及字符串长度N的最佳取值。然后针对N-gram字符特征具有高维、冗余和稀疏等特点,提出一种三阶段串联组合式的N-gram字符特征提取方法(Three-stage Tandem Combined N-grams Extract Method, TTCNEM),分别进行基于特征频率与分布信息的降维、基于Local Maxs规则的去冗余和基于作者个体特征域的降稀疏等三个阶段的提取操作。最后根据中文词长普遍较短的特点,提出用非连续N-gram字符特征来表示作者的书写风格,并给出了同时包含连续\非连续N-gram字符的 一体化特征提取方案。 关于网络书写纹识别技术,本文提出了基于作者个体特征域构建识别模型的总体思路,使用基于作者个体特征域的特征集结构和基于集成特征选择技术的集成学习分类算法,训练出与待识别作者数相同的基分类器,使每一个基分类器对其关联作者具有局部最优的识别性能。为此,本文分别以性能和效率为优先考虑因素,提出了基于混合遗传算法(Hybrid Genetic Algorithm based Ensemble Feature Selection, HGAEFS)和半随机子空间划分(Semi Random Subspace based Ensemble Feature Selection, SRSEFS)两种基于集成特征选择的网络书写纹识别算法。其中,HGAEFS算法基于遗传算法框架,利用了基于作者个体特征域的特征权重信息来引导搜索过程,包括对初始种群种子个体的设置,以及对交叉和变异算子的改进。HGAEFS算法的适应度函数基于集成学习差异性理论设计,基分类器间的差异度计算采用Kappa方法。SRSEFS算法结合了基于作者个体特征域划分特征空间的思想与Kuncheva所提出的一个用于指导随机子空间法进行参数选择的概率模型,首先通过改进Kuncheva的概率模型,确定特征子集大小和重要特征个数两个参数,然后将基于作者个体特征域的特征权重信息用于引导特征空间的划分,变完全随机子空间划分为半随机子空间划分。 在采用HGAEFS和SRSEFS算法所构建的网络书写纹识别模型的基础上,根据识别模型基于作者个体特征域的特点,本文将基于局部性能评估的动态选择性集成策略应用于网络书写纹识别,提出了基于Oracle的混合型动态选择性集成算法(Hybrid Dynamic Selection based on Oracle, HDSORA),以进一步提高识别性能和识别模型的可理解性。HDSORA结合了DCS(Dynamic Classifier Selection)和DES (Dynamic Ensemble Selection)两种动态选择性集成策略,首先采用KNN (K-Nearest Neighbor)与BKS (Behavior Knowledge Space)相结合的方法,从特征几何空间与分类器知识行为空间两个维度确定测试样本在特征空间的局部近邻区域,然后根据局部性能最优基分类器的信度在DCS与DES之间进行选择。在DES集成部分,融合了Oracle和LCA (Local Class Accuracy)的思想,在基分类器子集的选择中有效利用了类别信息。 为验证以上方法的有效性,本文从校园论坛上采集了50个用户的实验数据。为了提高数据集的质量,在设计与采集实验数据时尽可能地排除了主题、时间等易对书写风格识别研究带来干扰的因素。通过实验研究,结果表明:(1) N-gram字符特征在中文网络书写纹识别中是有效的,可以取得和常用组合特征集相当的性能。对于定长N-gram字符特征,N的最佳取值为2。TTCNEM提取方法在保证一定识别性能的前提下,有效达到了降维、去冗余和降稀疏的目的。非连续N-gram字符特征丰富了特征项,并提高了识别性能。(2)与当前网络书写纹识别研究领域最具代表性的单分类器识别技术支持向量机(SVM)和多分类器方法(EDS)相比,HGAEFS算法取得显著的性能提升,SRSEFS显著优于EDS,并在待识别作者数较大时优于SVM。相比SVM和EDS, HGAEFS和SRSEFS均提高了识别模型的可伸缩性。对于识别模型的可理解性,HGAEFS优于SRSEFS。(3)相比简单投票法、DCS和DES等几种典型的集成方法,HDSORA方法进一步提高了网络书写纹的识别性能,并且在一定程度上提高了识别模型的可伸缩性与可理解性。 在以上研究的基础上,结合“十二五”国家科技支撑计划课题“面向个体的网络行为分析、监管与保护技术研究”,设计与研制了网络行为个体书写纹分析与主体辨识系统,应用网络书写纹识别技术来解决网络行为主体的辨识问题。
【学位授予单位】:华中师范大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.43

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 孙建文;刘三(女牙);杨宗凯;王佩;;采用集成特征选择的网络书写纹识别研究[J];小型微型计算机系统;2012年05期
2 孙亮;韩崇昭;沈建京;戴宁;;集成特征选择的广义粗集方法与多分类器融合[J];自动化学报;2008年03期
3 吕斌;夏利民;;一种多特征选择的自适应跟踪[J];计算机工程与应用;2011年20期
4 张子宁;单甘霖;段修生;张岐龙;;基于改进遗传算法的支持向量机特征选择[J];电子产品世界;2010年Z1期
5 曹彦;王倩;周驰;;基于特征选择技术的集成方法研究[J];计算机工程与科学;2013年08期
6 姚旭;王晓丹;张玉玺;薛爱军;;基于正则化互信息和差异度的集成特征选择[J];计算机科学;2013年06期
7 张红涛,胡玉霞,邱道尹;遗传算法在储粮害虫特征选择中的应用[J];华北水利水电学院学报;2004年03期
8 杜政霖;李云;;基于特征聚类集成技术的在线特征选择[J];计算机应用;2017年03期
9 崔亚芬;解男男;;一种基于特征选择的入侵检测方法[J];吉林大学学报(理学版);2015年01期
10 徐雷;阎平凡;常迥;;用于特征选择的BF算法及其与B&B算法的比较[J];自动化学报;1988年05期
中国重要会议论文全文数据库 前10条
1 史彩娟;沙宇阳;刘健;闫晓东;刘利平;;基于自适应半监督稀疏特征选择的图像标注[A];第十届全国信号和智能信息处理与应用学术会议专刊[C];2016年
2 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
3 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 陈友;戴磊;程学旗;;基于MRMHC-C4.5的IP流分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 于丽丽;丁德鑫;曲维光;陈小荷;石民;;基于多分类器集成的古代汉语词义消歧[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 邱诚;倪子伟;陈珂;苏旋;邹权;;基于聚类方法的基分类器选择策略研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
7 刘希玉;徐志敏;段会川;;基于支持向量机的创新分类器[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
8 翟静;李海宏;唐常杰;陈敏敏;李智;;可验证对象集分类器的再训练演进[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
9 冯军;李夕海;祁树锋;;基于差异性度量的多分类器融合及其在核爆地震识别中的应用[A];国家安全地球物理丛书(七)——地球物理与核探测[C];2011年
10 夏俊士;杜培军;张伟;;遥感影像多分类器集成系统的设计与实现[A];中国测绘学会2010年学术年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 本报记者 李振辉;根据自身特征选择健身方式[N];广东科技报;2008年
2 记者 邱凌;电子积木搭出“垃圾分类器”[N];扬州日报;2019年
3 本报记者 丁建峰;这项集成应用解决了657项技术难题[N];宁夏日报;2019年
4 北京林业大学教授 郭洪武;浅议装配式内装集成技术体系[N];中国建材报;2019年
5 唐人;多品类集成或成未来主旋律[N];建筑时报;2019年
6 记者 崔昊;改革创新集成 为高质量发展探路[N];厦门日报;2019年
7 ;聚焦便民 集成改革 系统推进[N];湄洲日报;2019年
8 ;中车株机 集成与协同 中车株机数字化再造[N];中国信息化周报;2019年
9 本报记者 徐微;市双创中心创新集成效应凸显[N];长春日报;2019年
10 汤翠玲 记者 陈其珏;协鑫集成罗鑫:下半年光伏市场会更加火爆[N];上海证券报;2019年
中国博士学位论文全文数据库 前10条
1 孙建文;基于集成特征选择的网络书写纹识别研究[D];华中师范大学;2011年
2 袁明冬;基于图的特征提取和特征选择及其应用研究[D];西安电子科技大学;2017年
3 胡小娟;基于特征选择的文本分类方法研究[D];吉林大学;2018年
4 任宇林;结构化预测中N元特征选择算法的研究[D];华中科技大学;2018年
5 Reehan Ali Shah;基于稀疏模型组合的网络入侵分类[D];浙江大学;2019年
6 滕旭阳;面向特征选择问题的优化方法研究[D];哈尔滨工程大学;2017年
7 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
8 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
9 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
10 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年
中国硕士学位论文全文数据库 前10条
1 周广博;集成特征选择与基因调控网络构建研究[D];大连理工大学;2016年
2 侯宇亮;基于极限学习机的分类方法研究及应用[D];中原工学院;2019年
3 尹春燕;基于集成特征选择的冠心病筛查模型研究[D];山东大学;2019年
4 薛瑞;转子故障诊断中的特征选择问题研究[D];兰州理工大学;2019年
5 周雨;基于互信息与决策树的特征选择[D];兰州大学;2019年
6 Wei Wang;P值的不稳定性与其他因素对统计特征选择的影响[D];天津大学;2018年
7 游仁春;基于特征选择聚类和张量分析的碳纤维增强复合材料超声缺陷识别[D];厦门大学;2017年
8 闫文凯;基于特征选择的致病SNP识别方法研究[D];南京农业大学;2017年
9 周至;复杂环境下无人工干预的室内定位算法研究[D];南京大学;2019年
10 马必焕;一种多任务特征选择金字塔及其在电力设备检测的应用[D];浙江大学;2019年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026