收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

多标签文本分类算法研究

吕小勇  
【摘要】:文本分类根据分类后类标签的个数可分为:单标签分类和多标签分类。实际应用中,多标签分类是相当普遍的。目前对多标签分类的研究主要集中于多标签分类的特征选择和分类算法。但现有的多标签特征选择算法性能都难以得到满意的效果,有的时间效率低,有的对分类性能的提升影响不大。同时多标签分类算法也存在不考虑标签相关性以及无法显式显示分类规则等问题。 通过对现有多标签特征选择算法的研究,结合Bootstrap的特点,本文提出了一种基于Bootstrap的组合多标签特征选择算法,该算法首先在特征选择前期使用Bootstrap方法为基特征选择算法抽取训练集,然后利用基特征选择算法对特征进行评价,再使用投票方法组合基特征选择算法的结果来确定特征的权重,最后依据特征的权重进行特征选择。实验表明该算法能有效提高分类性能。 同时对多标签分类算法进行了研究,将粗糙集理论用于多标签文本分类,提出了基于粗糙集理论的多标签文本分类算法,该算法利用训练阶段得到的各个类别的分类规则与测试实例逐一匹配,得出实例的类标签集合,扩展了粗糙集理论在文本分类中的应用。考虑类标签之间关系,利用频繁项集挖掘算法挖掘类别之间的关联信息,并将挖掘出的关联规则用于对分类结果的校验,提出了基于频繁项集的多标签文本分类算法,该算法利用FP-growth算法挖掘类别之间的频繁项集,同时为每个类计算类标准向量和相似度阈值,如果文本与类标准向量的相似度大于相应阈值则归到相应的类别,在分类结束后再利用挖掘到的类别之间的关联规则对分类结果校验。实验表明本文提出的算法有效可行。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王翠英;;标签的聚类分析研究[J];现代图书情报技术;2008年05期
2 程慧荣;黄国彬;张永杰;;国外大众标注系统研究进展[J];图书馆杂志;2008年11期
3 李枫林;张景;;基于用户标注行为的相关性分析及重排序[J];情报理论与实践;2010年10期
4 蒋翠清;张玉;丁勇;;基于PLSA的大众标注潜在语义发现[J];现代图书情报技术;2010年10期
5 陈远浩;张本宇;张宏江;;一种基于权重融合的聚类算法及其在语义树生成中的应用[J];小型微型计算机系统;2009年07期
6 宣云干;朱庆华;;基于熵的社会化标注系统资源模型研究[J];计算机应用与软件;2011年03期
7 李宝山;罗春青;;RFID防碰撞算法计算机仿真模型的研究[J];自动化与仪器仪表;2010年05期
8 李杉;李兵;潘伟丰;侯婷婷;;一种mashup服务描述本体的自动构建方法[J];小型微型计算机系统;2011年09期
9 顾复;陈芨熙;;一种基于标签的产品和零部件网页的自组织分类编码方法[J];成组技术与生产现代化;2007年02期
10 王翠英;;Folksonomies的结构模式研究[J];现代情报;2008年02期
11 吴芬;;协同标注系统的语义丰富[J];情报杂志;2010年01期
12 魏来;;国外Folksonomy语义丰富研究综述[J];情报资料工作;2010年03期
13 熊回香;廖作芳;蔡青;;典型标签本体模型的比较分析研究[J];情报学报;2011年05期
14 许棣华;王志坚;林巧民;黄卫东;;一种基于偏好的个性化标签推荐系统[J];计算机应用研究;2011年07期
15 刘铁柱,黎富海,李立志;基于区域特征的定位方法在车牌识别中的应用[J];企业技术开发;2005年07期
16 张颇;崔喆;;RFID系统中一种改进的防冲撞算法[J];计算机应用;2008年08期
17 崔晓莉;;从社会性标签中进行语义关系抽取——一种元数据生成方法[J];现代图书情报技术;2009年03期
18 王庆林;薛惠锋;林波;;基于图聚类的协同标记系统资源个性推荐[J];计算机工程与应用;2010年11期
19 郭伟光;李道芳;章蕾;;一种社会化标注系统资源个性化推荐方法[J];计算机工程与应用;2011年10期
20 吴江;;自由分类标签类聚成网状分类结构研究与实现[J];图书情报知识;2011年01期
中国重要会议论文全文数据库 前10条
1 韩敏;唐常杰;段磊;李川;巩杰;;基于TF/IDF相似度的标签聚类方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
2 房冠南;袁彩霞;王小捷;李江;宋占江;;面向对话语料的标签推荐[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李静;林鸿飞;;基于用户情感标签的音乐检索算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 李志云;周国祥;;面向XML结构查询的标签位图过滤加速技术[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 王波;唐常杰;段磊;尹佳;左劼;李川;;RT-Rank:基于RSS标签排名相关性的文档聚类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 冯时;阳峰;王大玲;于戈;;基于虚拟观点社群的用户个性化推荐[A];第六届全国信息检索学术会议论文集[C];2010年
7 李先斌;袁平波;俞能海;;基于局部最优的情感标签图像自动标注算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
8 陈峰;张欣;乐嘉锦;;EKS:XML文档上的关键字查询[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 曹小华;周强;;基于子集划分与动态匹配机制的智能标签防冲突算法[A];第二十六届中国控制会议论文集[C];2007年
10 郑伟;王朝坤;刘璋;王建民;;一种基于随机游走模型的多标签分类算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
中国博士学位论文全文数据库 前10条
1 靳延安;社会标签推荐技术与方法研究[D];华中科技大学;2011年
2 吴超;在线社会化网络的语义分析和语义社会网的构建[D];浙江大学;2010年
3 宣云干;基于潜在语义分析的社会化标注系统标签语义检索研究[D];南京大学;2011年
4 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
5 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
6 栗华;UHF RFID多标签防碰撞算法的研究与性能分析[D];山东大学;2011年
7 王耀;超高频RFID标签芯片中低功耗模拟电路关键技术研究[D];电子科技大学;2013年
8 刘名扬;基于语义构建个人知识网络相关技术研究[D];吉林大学;2013年
9 贺建军;基于高斯过程模型的机器学习算法研究及应用[D];大连理工大学;2012年
10 张智;面向物联网的多层次无线感知识和识别系统[D];浙江大学;2012年
中国硕士学位论文全文数据库 前10条
1 葛艳艳;基于社会标签系统的推荐技术研究[D];大连理工大学;2011年
2 高飞航;分类标签与主题标签区分方法的研究[D];东北大学;2011年
3 金鑫;基于文本机会发现的共识与非共识标签区分方法[D];东北大学;2011年
4 汤丽娟;多语言标签聚类及其应用研究[D];南京理工大学;2013年
5 范能能;图像社会化标签预处理与聚类方法研究[D];华中科技大学;2012年
6 傅丽君;社会化标签与分类集成的信息导航结构及其应用研究[D];浙江理工大学;2013年
7 胡蓉;基于标签—主题模型的标签推荐研究[D];华中师范大学;2013年
8 陆子龙;社交网络中的用户标签推荐[D];哈尔滨工业大学;2013年
9 田健;面向特定分类体系的标签推荐算法研究[D];东北大学;2012年
10 陆洲;基于标签的个性化推荐系统研究[D];湖南大学;2010年
中国重要报纸全文数据库 前10条
1 记者 张珂 尹航 李彩霞;2007国际标签印刷展览会(Labelexpo Asia 2007)蓄势待发[N];中国包装报;2007年
2 见习记者 刘世昌;2007国际标签印刷展览会将在上海举行[N];中国新闻出版报;2007年
3 记者 张建琛通讯员 许长水;厦门将全力发展射频识别新兴产业[N];科技日报;2007年
4 网文;WAP知多少[N];中国商报;2000年
5 本报记者 刘英赫;重新认识WAP[N];中国电子报;2000年
6 余天;大海捞针之术[N];计算机世界;2004年
7 李梅;保护RFID信息[N];计算机世界;2004年
8 许长水;厦门鼓励发展射频识别新兴产业[N];福建科技报;2007年
9 信息产业部电信研究院通信标准研究所RTNet 毕立波;GMPLS助光网络向前发展[N];网络世界;2004年
10 王娜;未来标签印刷业的发展方向及方式[N];中国包装报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978