收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于张量空间模型的文本分类研究

何伟  
【摘要】: 互联网和信息技术的飞速发展所引发的信息爆炸对文本分类任务提出了新的挑战:建立分类器时所获得的样本相对于海量的未知数据非常有限,模拟样本的空间分布变得困难,这可能带来过拟合及数据偏斜的问题。基于张量的数据表示和学习方法能减少学习模型中的未知参数,从而能够降低模型的复杂性,增强学习模型的泛化能力,缓解学习任务中小样本问题。对于不具有高阶特性的数据,构造基于张量的数据表示方法是使用张量统计学习框架的首要步骤。本文对基于张量空间模型(TSM)的文本分类问题进行了研究,主要工作如下: (1)在研究支持张量机学习机制的基础上,分析和比较了多种TSM文本表示方法,并从理论和实验两个方面解释了这些方法的局限性。 (2)提出两种基于张量的文本表示方法随机映射TSM(RM_TSM)和小类随机映射TSM(SRM_TSM),实验结果表明RM_TSM和SRM_TSM在小样本数据集上的表现优于其他的TSM文本表示方法。 (3)将STM引入到多类分类方法中,根据样本分布稀疏程度和偏斜程度来选择不同的TSM表示方法及其维数。实验证明该方法能有效提高分类器的分类精度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张小艳;宋丽平;;论文本分类中特征选择方法[J];现代情报;2009年03期
2 蒲筱哥;;Web自动文本分类技术研究综述[J];情报学报;2009年02期
3 王锦;王会珍;张俐;;基于维基百科类别的文本特征表示[J];中文信息学报;2011年02期
4 张华;;文本分类技术[J];电脑知识与技术;2009年24期
5 刘茂旺;林世平;;BOOSTING算法在多类多标签文本分类中的应用[J];福建电脑;2006年03期
6 周瑛;刘政怡;;覆盖算法在文本分类中的应用[J];情报理论与实践;2006年01期
7 付德宇;代成琴;;一个面向文本分类的中文特征词自动抽取方法[J];计算机工程与应用;2006年15期
8 王煜;;机器学习技术在文本分析中的应用[J];华南金融电脑;2007年05期
9 奉国和;;自动文本分类技术研究[J];情报杂志;2007年12期
10 高秀梅;陈芳;宋枫溪;金忠;;特征权对贝叶斯分类器文本分类性能的影响[J];计算机应用;2008年12期
11 王海涌,郑丽英,刘丽艳;基于文本表示的特征项权值确定方法研究[J];甘肃科学学报;2005年03期
12 刘海峰;王元元;姚泽清;王倩;;一种基于特征聚类的文本分类模型研究[J];情报学报;2008年02期
13 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
14 闫超;;基于改进的SVM线性可分文本分类算法[J];电脑开发与应用;2010年08期
15 牛延莉;张化;;文本自动分类研究进展[J];软件导刊;2008年04期
16 宋枫溪,郑如冰,王积忠;自动文本分类中两种文本表示方式的比较[J];计算机工程;2004年18期
17 刘华;;汉语信息处理中短语优势的理据及实验证明[J];语言文字应用;2007年04期
18 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
19 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
20 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
7 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
8 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
9 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
10 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
2 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
3 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 闫晨;KNN文本分类研究[D];燕山大学;2010年
6 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
7 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
8 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
9 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
10 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
3 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
4 希安;微软试水信息检索[N];经济日报;2004年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 上渊;新一代网络技术IPv9走向商用[N];中国高新技术产业导报;2004年
7 王萍;Web文本的知识化管理[N];计算机世界;2006年
8 应晓敏 窦文华;技术架构[N];计算机世界;2003年
9 记者 朱蓓宁实习生 施蜜;带合同示范文本放心出境游[N];南通日报;2007年
10 本报记者 钟伟 郜云雁;“四融合”理念欲拨开学校信息化迷雾[N];中国教育报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978