收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文文档分类技术研究

张滨  
【摘要】:随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文提出了一个基于语义的自然语言文本分类器模型。该模型通过计算训练集中的词条和类别的加权互信息,获得文本特征集,然后通过智能分词和统计方法获得测试文本在VSM空间中的TF-IDF函数表示,并以《知网》为主要的概念知识源,通过计算语义相似度获得文本的语义信息,对文本向量进行加权。训练文本集按照上面方法进行向量表示后,作为支持向量机的学习向量进行训练,从而获得文本分类的支持向量。对于将要进行分类的文本,也按照上面的方法进行向量化,然后通过支持向量机判别该文本的类别。在该模型的基础上,本文设计了一个文本分类系统,该系统具有较高识别率和召回率、较高处理速度和较小处理器开销的特点,通过对复旦大学、人民日报等实际语料库的实验测试结果表明,本文的分类器性能是满足实际应用需要的。 本文在两个方面提出了新思想:第一,采用基于知网的语义相似度对文本向量进行加权,使文本特征向量数量一定的条件下能够反映更多的文本内容信息;第二,采用基于DSM的知识约简算法和增量式机器学习算法来对文档特征向量进行自学习,从而在测试文档增多时,逐步获得更多新的文档特征向量。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王强;贾银山;;支持向量机及其在邮件过滤中的应用[J];微处理机;2010年03期
2 卢祖友;桑永胜;;基于球向量机的中文文本分类[J];计算机工程与科学;2008年12期
3 郝海涛;;基于向量机的文本分类中词典结构研究[J];福建电脑;2009年03期
4 王彦明;奉永桃;奉国和;;1999-2008年我国SVM文本分类文献计量分析[J];图书情报工作;2009年20期
5 吴守用;;基于SVM的哈萨克语文本分类初探[J];现代计算机(专业版);2010年04期
6 赵延平;谢丽聪;;面向电信领域的文本分类研究[J];计算机与现代化;2011年02期
7 吴巧敏;林亚平;;一种基于重复训练的支持向量机方法[J];计算机工程与应用;2007年31期
8 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
9 闫超;;基于改进的SVM线性可分文本分类算法[J];电脑开发与应用;2010年08期
10 张玉峰;何超;;基于潜在语义分析和HS-SVM的文本分类模型研究[J];情报理论与实践;2010年07期
11 陈立孚,周宁,李丹;基于机器学习的自动文本分类模型研究[J];现代图书情报技术;2005年10期
12 张伟;邹汉斌;雷红艳;刘琼;;一种基于正例的SVM分类方法[J];江南大学学报(自然科学版);2007年01期
13 熊忠阳;杜圣东;张玉芳;;一种改进的支持向量机邮件分类器[J];计算机科学;2007年09期
14 刘怀亮;张治国;赵捧未;;中文文本分类反馈学习研究[J];情报理论与实践;2009年06期
15 刘秀松;;基于改进的SVM文本分类建模[J];情报理论与实践;2007年06期
16 赖敏;;支持向量机及其应用研究[J];成功(教育);2010年03期
17 王琳;陈伟萍;封化民;方勇;杨鼎才;;基于类别概念的特征选择方法[J];北京电子科技学院学报;2006年02期
18 安艳辉;董五洲;游自英;;基于改进的朴素贝叶斯文本分类研究[J];河北省科学院学报;2007年01期
19 何文才;张琼;余菲;都婧;焦黎冰;;基于树状SVM的网页分类与信息安全过滤系统研究[J];网络安全技术与应用;2008年08期
20 贾燕花;徐蔚鸿;;K-means聚类和支持向量机结合的文本分类研究[J];计算机工程与应用;2010年22期
中国重要会议论文全文数据库 前10条
1 朱慕华;朱靖波;陈文亮;;面向支持向量机的降维方法比较分析[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
3 曹菲菲;朱慕华;朱靖波;;基于抽样的两阶段支持向量机训练算法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
5 刘晓勇;;基于GA与SVM融合的网页分类算法[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
6 栾江;唐常杰;黄晓冬;阴小雄;廖勇;;一种增量式支持向量机文本分类模型[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
2 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
3 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
4 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
5 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
6 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
7 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
8 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
9 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
10 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 张滨;中文文档分类技术研究[D];武汉大学;2004年
2 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
3 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
4 李强;基于支持向量机的文本分类方法研究[D];西安科技大学;2009年
5 于海龙;面向PU问题的文本分类的研究与实现[D];吉林大学;2005年
6 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
7 杨丽华;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2006年
8 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
9 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
10 代亮;基于支持向量机的文本分类问题研究[D];大连海事大学;2007年
中国重要报纸全文数据库 前10条
1 本报记者 杨杨;投资、创业两不误:李童的“新孩子”恒知网[N];21世纪经济报道;2011年
2 记者 陈磊;中国知网率先推出优先数字出版[N];科技日报;2010年
3 见习记者 廖小珊;中国知网推出优先数字出版 读者可多种数字渠道获取[N];中国新闻出版报;2010年
4 记者 王秀萍;“中国知网”集约化印刷华北基地在并建成[N];山西经济日报;2010年
5 程晓龙;中国知网联姻施普林格[N];中国新闻出版报;2008年
6 陈;思科用无线感知网络[N];中国计算机报;2003年
7 李大庆;中国知网与施普林格全面合作[N];科技日报;2008年
8 路华;中华行知网(www.sotrip.com)文化与旅游的契合[N];中国旅游报;2000年
9 高向东;千家数字图书馆对接“中国知网”数字出版平台[N];山西日报;2007年
10 计亚男;中国知网数据库携手施普林格[N];光明日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978