收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

高性能文本分类算法研究

谭松波  
【摘要】: 因特网上的文本信息的爆炸式增长给文本分类的精度与速度提出了新的标准与挑战。这就要求文本分类在提高精度的同时,还要进一步提升训练与分类速度。为了面对时代的挑战,作者从特征选择与学习算法两个角度展开了深入的研究,取得了一系列突破性进展。 作者从基于分辨矩阵的粗糙集属性约简中受到启发,提出了一系列基于粗集理论的文本特征选择算法,即DB1、DB2、LDB。实验结果表明,DB2与LDB极为稳定,达到了与信息增益相当的精度;当特征数较少时,DB2与LDB的精度要明显高于信息增益。同时,在时间上也具有相当的优势,DB2与LDB的时间代价与文档频次、互信息、CHI统计大体相当,但明显低于信息增益。 “没有免费的午餐定理”表明:任何一种模式分类算法都不存在“与生俱来”的优越性。换句话说,所有分类器都存在一定程度上的“分类器偏差”。原因很简单,因为所有分类器都建立在某种假设(模型)之上。通常,这个偏差会导致训练集与测试集错误率增大。很自然地,作者就考虑采用训练集错分样本来在线修正分类器模型。这便是拉推策略的基本思想。作者将拉推策略应用到三个基本的分类器,即中心法、贝叶斯、最近邻,于是得到三个修正的分类器,即RCC、RNB、RKNN。其中RCC的性能最为卓越。实验结果表明算法RCC取得了逼近SVM的分类精度,但运行时间需求却与问题规模成线性关系,因此实际运行时间要远远低于SVM。 但是,拉推策略只是降低了经验误差,还没有有效地降低推广误差。作者的一个非常直接的想法就是,不但要求训练样本与正确类别的相似度大于所有与其它类别的相似度,而且要至少存在一个间隔,即近似Margin。算法的具体做法就是,不但对误分样本要修正相应类代表,而且对Margin较小的样本也要修正相应类代表。实验结果表明该算法既能降低训练集误差,又能在一定程度上降低推广误差。并且,分类质量要比拉推策略高出1个百分点。 考虑到层次化分类的实用性与有效性。作者将拉推策略推广到层次化分类。作者给出了两种将拉推策略推广到层次模型的方法。其一是选取整棵树进行拉推修正。其二是选取每个非叶子节点进行拉推修正。实验结果表明,层次拉推策略的分类质量与非层次拉推策略基本相当,但运行时间上具有明显的优越性。 概念索引采用类中心作为压缩空间的坐标。但是,简单地采用类中心来代表一个类别,往往受到类中样本分布情况的影响。因此,为了提高类中心的表达能力,作者借助于拉推策略来修正类中心。然后再把修正的类中心作为压缩空间的坐标。实验结果表明,修正的概念索引在精度上要明显优于普通的概念索引。同时,修正的概念索引在与SVM分类器的兼容性方面表现得更为出色。


知网文化
【相似文献】
中国期刊全文数据库 前10条
1 朱颢东;钟勇;;基于并行二进制免疫量子粒子群优化的特征选择方法[J];控制与决策;2010年01期
2 贺一帆;江铭虎;;网络文本分类中基于信息瓶颈的特征提取[J];清华大学学报(自然科学版);2010年01期
3 田昕辉;李成基;;带有短语切分的中文文本分类方法(英文)[J];计算机技术与发展;2010年01期
4 刘忠红;储珺;;特征提取与模板匹配结合的图像拼接方法[J];微计算机信息;2010年01期
5 朱颢东;周姝;钟勇;;结合差别对象对集的综合性特征选择方法[J];计算机工程与设计;2010年03期
6 罗林波;陈绮;;氨基酸序列特征提取方法研究[J];计算机技术与发展;2010年02期
7 李万臣;叶铂;;基于统计学方法的水面目标特征提取[J];中国新技术新产品;2010年03期
8 姜文涛;陈卫东;李良福;;一种基于特征点跟踪的电子稳像算法[J];应用光学;2010年01期
9 王春梅;;基于二阶系统的脱机中文签名鉴定[J];计算机系统应用;2010年01期
10 曹红兵;魏建明;刘海涛;;无线传感器网络中声震信号的特征提取算法[J];小型微型计算机系统;2010年02期
中国重要会议论文全文数据库 前10条
1 林源;王生进;丁晓青;;基于正交图像的全自动三维头部重建[A];图像图形技术研究与应用(2010)[C];2010年
2 汤伟昌;;脉象の客观的デジタル化に关する研究のその今后の展望[A];日中中医诊断学研究学术研讨会论文集[C];2010年
3 易超群;李建平;朱成文;;一种改进的浮动搜索特征子集算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
4 王毅;孙佳俊;任建奇;项杰;黄思训;;基于正交匹配小波算法的台风云系提取研究[A];第27届中国气象学会年会灾害天气研究与预报分会场论文集[C];2010年
5 杨继鉝;王建军;;基于混沌时间序列法的平潭浪高预测研究[A];第27届中国气象学会年会灾害天气研究与预报分会场论文集[C];2010年
6 唐圣学;陈丽;何怡刚;;模拟集成电路故障诊断改进遗传神经网络方法[A];第六届中国测试学术会议论文集[C];2010年
7 吴丽丽;;基于仿生模式识别的说话人识别学习模型研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
8 程克勤;周健;;一种P2P流特征提取方法[A];第六届中国测试学术会议论文集[C];2010年
9 肖涛;殷勇;于慧春;周秋香;;不同包装对牛奶存放质量影响的电子鼻检测[A];2010国际农业工程大会数字化设计与仿真技术分会场论文集[C];2010年
10 鲁恒;李永树;;面向对象的无人机高空间分辨率影像分类研究[A];信息工程大学测绘学院第五届博士生学术论坛论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 陈潇;图像目标三维几何不变量特征构造与应用[D];上海交通大学;2011年
2 张健;基于机器视觉的强化木地板表面质量检测方法研究[D];北京林业大学;2010年
3 刘成材;发动机爆震小波包变换分析及其特征提取研究[D];吉林大学;2010年
4 杨文宏;爆震特征提取及累积量检测算法研究[D];吉林大学;2010年
5 温万惠;基于生理信号的情感识别方法研究[D];西南大学;2010年
6 金晶晶;心冲击图信号的无感觉检测与分析方法研究[D];东北大学 ;2010年
7 吕江涛;基于荧光机理的水中油类污染物检测识别技术研究[D];燕山大学;2010年
8 刘思远;信息融合和贝叶斯网络集成的故障诊断理论方法及实验研究[D];燕山大学;2010年
9 杨晨;基于机器学习的土地覆盖遥感信息提取方法研究[D];吉林大学;2010年
10 丁筠;基于生物技术与计算机视觉的食品微生物快速检测研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 李丹丹;基于支持向量机的G蛋白偶联特异性预测研究[D];华东师范大学;2011年
2 钱斐斐;纸币残损状态识别技术研究[D];上海交通大学;2011年
3 曾静静;基于Map-Reduce构建高效文本聚类系统[D];上海交通大学;2011年
4 周云云;基于指纹与手写签名相融合的身份识别技术[D];华东理工大学;2011年
5 李晋博;特征提取的核方法与非线性多核学习的研究[D];华东师范大学;2010年
6 金凤;多视角的构建及其在单任务学习和多任务学习中的应用[D];华东师范大学;2010年
7 唐铭一;脉搏信号数据分析与管理的研究[D];北京服装学院;2010年
8 盛大玮;牛眼虹膜识别技术研究[D];华东师范大学;2010年
9 钱艺;嵌入式系统上基于近红外图像的人脸识别研究[D];华东师范大学;2010年
10 乔西娅;拉曼光谱特征提取方法在定性分析中的应用[D];浙江大学;2010年
中国重要报纸全文数据库 前10条
1 本报记者 滕继濮;无损检测技术:不放过一个“坏蛋”[N];科技日报;2011年
2 记者 史玉成;攻克技术难题 创造巨大效益[N];中国质量报;2011年
3 群芳;萝卜白菜各有所爱择偶标准催生新种[N];科学时报;2008年
4 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
5 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
6 郑卫生;架子牛引进与饲养要点[N];吉林农村报;2008年
7 华泰证券 吴璟;权证投资:只买对的,不买便宜的[N];上海证券报;2008年
8 ;瑞星发布基于互联网的全新安全模式[N];人民邮电;2008年
9 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
10 广西钦州灵山县灵城二小 纪雪林;小场地训练途中跑的方法[N];中国体育报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978