收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现

梅胜  
【摘要】:本文对建立多层次大类别数文本分类系统进行了研究,分析了其中的各种关键技术和难点,并提出了相应的解决方案。文章首先针对特征抽取问题进行深入研究,比较了目前常用的几种特征抽取方法,并提出了一种适合中文环境的DF+CHI的组合特征抽取方法,进一步提高了分类器的性能。针对项目采用《中图图书馆图书分类法》的分类体系,其中各个分类类别按层次树状结构组织且分类数目很大,而且对分类的速度和精度都有很高的要求的特点,选择性能好的支持向量机(SVM)作为分类器,能够有效地避免经典学习方法中过学习、维数灾难、局部极小等问题,而且在小样本条件下仍然具有良好的泛化能力。文章同时采用有向无环图支持向量机(DAGSVM)和最大投票法(Max Wins)相结合的技术实现分类器的组合,既能准确定位分类类别,又能形成分类类别的相似度列表,为分类系统提供了更高的灵活性,同时采用有效的缓存机制解决了资源管理问题。为了进一步提高SVM的训练速度,本文在分析现有训练算法的基础上提出了三元序贯解析优化(3SAO)训练算法。由于该算法选择了比SMO更大的工作集而没有增加过多的计算,总的优化步骤减少,收敛速度也更快,平均训练速度约为SMO的两倍。文章最后用真实语料进行测试,系统表现出了很好的召回率和准确率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘激扬;;专利文献与专利分类系统[J];现代情报;1982年04期
2 李兴昌;吴建忠;;欧洲专利组织的专利情报服务[J];图书情报工作;1984年05期
3 丁东;一种基于神经网络的声呐目标分类系统[J];声学技术;1993年02期
4 孙慧娥;;图书自动还书和分类系统[J];上海高校图书情报学刊;1999年03期
5 周文芳;范丰龙;;论知识组织的系统论原理[J];情报资料工作;2007年06期
6 区永强;肖南峰;;基于网格的混合神经网络计算平台研究与实现[J];计算机工程与设计;2010年07期
7 李红春;;系统论与知识组织[J];现代情报;2010年06期
8 吕金辉;;新闻语篇的批评话语分析[J];科技信息;2010年22期
9 武鸿浩;杨永川;;文本倾向性分析技术在公安大情报系统中的应用研究[J];信息网络安全;2011年05期
10 郭月忻;;一种用红外方法的舰船分类系统[J];红外与激光工程;1984年03期
11 王志博;第二讲 GT分类编码系统[J];成组技术与生产现代化;1986年03期
12 屈峰;闫达远;;基于PKI的Web QoS分类系统研究[J];电子科技大学学报;2006年04期
13 何海江;;代价与样本相关的简约核支持向量机[J];计算机应用;2008年11期
14 伍向华;机械零件分类系统中的信息分析[J];成组技术与生产现代化;1988年01期
15 许培扬;“网络信息分类系统”标准研讨会简况[J];医学情报工作;2002年03期
16 杨谱春;;文献分类系统分析[J];图书情报工作;1985年06期
17 吴维宁;网络渔业词典中水生生物分类系统的建立和实现[J];上海水产大学学报;2003年01期
18 邹晓峰,陆建江,宋自林;一种构建分类系统的新方法[J];西安电子科技大学学报;2003年04期
19 许培扬;;医学文献检索中的分类系统和主题系统[J];医学信息学杂志;1980年03期
20 杜栓平,陈伏虎,严琪;基于神经网络的聚类分析[J];声学与电子工程;2000年01期
中国重要会议论文全文数据库 前10条
1 李远;肖小河;金城;;基于药性理论的临床中药分类体系构建的设想[A];中华中医药学会中成药学术研讨会论文集[C];2007年
2 郭晓宁;王松涛;陈向东;魏钢;;高层钢框架梁柱节点连接类型的判定分析[A];第八届全国结构工程学术会议论文集(第Ⅲ卷)[C];1999年
3 张镱锂;张玮;;基于陆地碳循环研究的土地利用/覆被分类系统研究初报[A];《自然地理学与生态建设》论文集[C];2006年
4 高天刚;陈艺林;朱世新;;菊科植物分类系统沿革[A];中国植物学会七十周年年会论文摘要汇编(1933—2003)[C];2003年
5 吴清潇;欧锦军;郝颖明;朱枫;;基于视觉的炼铁物料自动识别分类系统[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
6 卢毅军;胡中;应求是;;杭州市蜡梅品种资源调查与分类研究[A];中国植物园(第十二期)[C];2009年
7 魏印心;;鼓藻类的系统演化和分类系统[A];中国藻类学会第十一次学术讨论会论文摘要集[C];2001年
8 黄佳;;知识组织的系统论基础[A];图书馆与人文精神——陕西省社会科学信息学会第八次学术讨论会论文集[C];2006年
9 李建林;哈秋聆;;三峡工程永久船闸高边坡岩体RMR分类及其应用[A];岩石力学理论与工程实践[C];1997年
10 龙兴;夏瑞;黄永红;曾继吾;易干军;黄秉智;陈金印;;基于毛细管电泳的香蕉AFLP的分子标记研究[A];第二届全国果树分子生物学学术研讨会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 彭家法;附加语的句法位置[D];北京语言大学;2007年
2 周兰英;杜鹃属植物亲缘关系及遗传多样性研究[D];四川农业大学;2008年
3 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年
4 胡允栋;基于不确定性分析的油气储量分类与评估方法[D];中国地质大学(北京);2007年
5 尤庆敏;中国淡水管壳缝目硅藻的分类学研究[D];华东师范大学;2009年
6 刘宏丽;明清敬谦语研究[D];山东大学;2009年
7 侯元同;中国蓼族植物系统学研究[D];山东师范大学;2006年
8 王永利;数据流概要与数据流分析若干关键问题研究[D];东南大学;2006年
9 闵运江;中国广义蓼属植物及其近缘类群的分子系统学研究[D];安徽大学;2013年
10 车静;现生蛙科动物部分物种的分子系统发育研究[D];四川大学;2006年
中国硕士学位论文全文数据库 前10条
1 黄小英;新疆天山北部毛翅目昆虫种类及多样性研究[D];石河子大学;2006年
2 陈渠;基于3S的福建湿地类型及其分布研究[D];福建师范大学;2007年
3 周杨;中国近海部分海水鱼类寄生粘孢子虫的分类学研究与地理分布[D];重庆师范大学;2007年
4 冯波;中国锯天牛亚科分类与区系研究[D];西南大学;2007年
5 杨丽丽;东北地区白粉菌分类学研究[D];吉林农业大学;2007年
6 张宁;分众分类系统的用户行为特征分析[D];山西大学;2013年
7 王笑寒;分类系统在大型商用管理软件中的实现[D];吉林大学;2004年
8 聂立龙;情报实时过滤和分类系统的设计与实现[D];西安电子科技大学;2013年
9 周远阳;基于朴素贝叶斯方法的新闻分类系统的实现[D];暨南大学;2012年
10 李亮雄;基于负载特征与行为特征相结合的网络流分类系统[D];山东大学;2012年
中国重要报纸全文数据库 前10条
1 本报记者   王军;新华富时指数 引入创新行业分类系统[N];中国证券报;2006年
2 李宇;恒指服务有限公司更名[N];中国证券报;2007年
3 记者 熊燕;杂交玉米选育在滇实现突破[N];云南日报;2006年
4 周东;数威:创业之路有点难[N];中国高新技术产业导报;2005年
5 本报记者 白毅;生物药剂学分类系统促进新药研发[N];中国医药报;2002年
6 本报记者 李凯 蔡毓生;永远与时间赛跑的科研女杰[N];汕头日报;2005年
7 武广华;疾病诊断相关分类系统(DRGs)的发展及我国的相关研究[N];健康报;2006年
8 徐风;ecl@ss电子商务分类解决方案在中国推进[N];中国质量报;2006年
9 本报记者  朱艳冰 王晓东 徐华;印象初:一辈子做好一件事[N];河北日报;2006年
10 本报记者 胡轶坤;能否出现物料代码“世界语”[N];中国汽车报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978