收藏本站
收藏 | 论文排版

超高维两值数据的动态分类方法研究

官国宇  
【摘要】:随着科技的进步和大数据时代的到来,各种复杂多样的数据集不断涌现。这些数据往往呈现出海量、超高维、稀疏、时变结构等特点。统计学作为一项基本的数据分析工具,越来越多地得到社会各界的关注,也迎来了新的挑战。文本分类问题就是大数据时代的产物之一,各种分类方法应运而生。如何从复杂的文本数据中获取有用的信息,并实现自动分类,是本文主要研究的问题。 本文提出了一种新的汉语文本分类方法,即动态朴素贝叶斯模型。这是一种数据驱动的方法。汉语文本数据集来自于长春市市长公开电话项目,其目的是将百姓的电话投诉文档自动地分配给政府的各个职能部门,然后使投诉事件得到及时地处理。为此,收集了该数据集中出现的大量汉语词汇。根据这些词在文档中是否出现,构造出了高维两值向量。由于这个数据集中出现的汉语词汇量是极其庞大的,这就导致了两值特征向量是超高维的。所以过去一直使用简单且高效的朴素贝叶斯方法对该数据集进行分类。然而,绝大多数词(或特征)是与类别无关的,不仅带来了大量的冗余计算,而且影响分类的精度。因此,特征选择问题就变得尤为重要.本文首先研究了超高维两值数据的特征选择问题,针对朴素贝叶斯模型,提出了一种基于Lo正则化的特征选择方法。该方法在模型选择的意义下是最优的。并从理论上和模拟数据分析分别验证了在超高维情况下该方法的特征选择相合性。然而,在实际问题中,特征是否与类别相关往往没有明确的界定,而是相关程度有强弱之分。在这种想法的驱动下,提出了一种特征加权的方法,使得分类精度得到进一步提高。 研究经验表明,在每天的不同时间,投诉文档可能遵循不同的分类模式。不幸的是,标准的朴素贝叶斯方法并不能把这一重要信息考虑进来。为了解决这一问题,提出了动态朴素贝叶斯模型。这种新方法在每天的同一时间采用标准的朴素贝叶斯方法,而在不同时间允许按照不同的模式进行分类。这是通过让模型参数随时间平滑变化来实现的。本文应用非参数平滑技术(如核平滑方法)来估计参数,并提出了用BIC型模型选择准则来选择特征。此外,还给出了该方法的渐进性质,并通过模拟数据分析和实例分析证实了该方法的优越性能。 尽管动态朴素贝叶斯方法是基于汉语文本数据集而提出的,但它还可应用于任何具有两值特征和时变结构的分类问题,也可以自然地推广到连续数据和其它离散数据。可以预见,该动态分类方法将具有广阔的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张葛祥;金炜东;胡来招;;满意特征选择及其应用[J];控制理论与应用;2006年01期
2 蒋盛益;王连喜;;基于特征相关性的特征选择[J];计算机工程与应用;2010年20期
3 张禹;刘云东;;基于相容粒的特征选择[J];宿州学院学报;2011年02期
4 孙建文;刘三(女牙);杨宗凯;王佩;;采用集成特征选择的网络书写纹识别研究[J];小型微型计算机系统;2012年05期
5 付涛;;基于特征选择的多示例学习算法研究[J];科技通报;2013年08期
6 朱鹏飞;胡清华;于达仁;;基于大间隔粒计算的特征选择[J];重庆邮电大学学报(自然科学版);2010年05期
7 王卫平;唐志煦;;基于混合CatfishPSO-LSSVM特征选择的入侵检测[J];计算机系统应用;2012年01期
8 李丽娜;欧阳继红;刘大有;高文杰;;一种结合特征选择和链接过滤的主动协作分类方法[J];计算机研究与发展;2013年11期
9 宋家勇,杨杰;针对信息缺失的复杂系统的特征选择[J];红外与激光工程;2004年05期
10 桑农;谢衍涛;高如新;张天序;;神经模糊网络特征选择[J];模式识别与人工智能;2006年06期
11 吕彦红;陈基漓;阮百尧;;基于遗传算法的中文自动分类特征选择[J];山东理工大学学报(自然科学版);2009年01期
12 ;生物特征身份识别中的特征选择与先进的识别算法[J];北京邮电大学学报;2009年02期
13 刘阿力;;关系积理论在特征选择中的应用研究[J];微型机与应用;2009年22期
14 孟犇;胡暾;杨杰;;基于多特征选择及粒子滤波的目标稳健跟踪[J];计算机仿真;2011年01期
15 田卫新;郑胜;;一种基于特征选择的主观性文本分析方法[J];计算机系统应用;2011年08期
16 张永;曹东侠;;一种高效的特征选择机制应用于入侵检测[J];甘肃科学学报;2011年03期
17 陆慧娟;张金伟;马小平;杨小兵;;基于特征选择的过抽样算法的研究[J];电信科学;2012年01期
18 曹军;刘光远;赖祥伟;;量子粒子群和相关性分析在心电特征选择中的应用[J];计算机科学;2012年03期
19 王连喜;蒋盛益;;一种基于类别区分互补性的特征选择[J];小型微型计算机系统;2013年08期
20 曹彦;王倩;周驰;;基于特征选择技术的集成方法研究[J];计算机工程与科学;2013年08期
中国重要会议论文全文数据库 前10条
1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 倪友平;王思臣;马桂珍;陈曾平;;分支界定算法在低分辨雷达飞机架次判别中的应用[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
6 蒙新泛;王厚峰;;主客观识别中的上下文因素的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 范丽;许洁萍;;基于GMM的音乐信号音色模型研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年
9 陈友;戴磊;程学旗;;基于MRMHC-C4.5的IP流分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 申昇;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
2 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年
3 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
4 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
5 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
6 王锋;基于粒化机理的粗糙特征选择高效算法研究[D];山西大学;2013年
7 刘波;组稀疏子空间的大间隔特征选择[D];重庆大学;2013年
8 梁建宁;特征选择与图像匹配[D];复旦大学;2011年
9 王瑞;针对类别不平衡和代价敏感分类问题的特征选择和分类算法[D];中国科学技术大学;2013年
10 姚兰;支持向量机特征选择中的L_p正则化方法研究[D];湖南大学;2014年
中国硕士学位论文全文数据库 前10条
1 郑莎;基于特征选择的量表条目筛选方法研究[D];北京交通大学;2008年
2 宁永鹏;高维小样本数据的特征选择研究及其稳定性分析[D];厦门大学;2014年
3 孙伟艳;模式分类中特征选择问题的研究[D];哈尔滨理工大学;2009年
4 陈东;半监督特征选择和特征选择的稳定性研究[D];上海交通大学;2013年
5 唐志煦;基于特征选择的入侵检测研究[D];中国科学技术大学;2011年
6 王姝勤;肝脏CT辅助诊断系统中特征选择和提取研究[D];上海交通大学;2010年
7 杨打生;特征选择的信息论算法研究[D];东南大学;2005年
8 秦奇伟;聚类分析中的特征选择研究[D];山西大学;2012年
9 颉嘉;文档内容抽取与特征选择技术的研究与实现[D];西安电子科技大学;2011年
10 詹林强;模式识别中的特征选择与评价方法研究[D];天津科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978