收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的高性能中文文本分类研究

杨创新  
【摘要】:文本分类是信息处理领域中的一个重要的研究方向。随着信息技术的发展,特别是20世纪90年代基于机器学习的文本分类方法的逐渐成熟,文本分类技术在自然语言处理与理解、信息组织与管理、内容信息过滤等领域中有着广泛的应用。由于这些领域对文本分类技术的不断需求,极大地推动了文本分类技术的深入研究,使文本分类技术成为计算机技术的热点研究课题。 在基于机器学习的文本分类研究中,按照分类学习方式的不同,可分为有监督分类、半监督分类和无监督分类三种。有监督分类通常简称为文本分类(text categorization,简称TC),它的主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别;无监督分类称为文本聚类(clustering),文本聚类是按照某种准则对文本集合进行组织或划分,使得相似的文本划分到同一簇中,差异较大的文本划分到不同簇中;半监督学习介于有监督分类与无监督分类之间,它主要关注的是当训练样本不足或者数据的部分信息缺失的情况下,如何获得具有良好泛化能力的学习机器,对文本类别进行正确区分。 无论是哪种分类算法,对于高维文本来说,特征提取和特征选择作为降维的重要方法,是降低计算复杂性、提高分类器性能的重要手段。它们与上述的分类算法一样,面临着海量数据、非结构化、维数灾难与数据集偏斜等方面的挑战。 本文主要研究中文文本分类,重点就文本的特征提取、特征选择、分类和聚类四个方面进行深入研究。本文首先提出了基于句子成分的文本特征提取算法、均衡特征选择算法和特征选择维数下限;接着,提出了特征索引与特征补偿的KNN分类算法,同时将均衡特征选择应用于非线性半监督分类;最后,在Hartuv and Shamir工作的基础上,提出了加权图聚类算法——WGC算法。本文研究中主要的创新点包括: 1、基于句子成分的文本特征提取。在文本特征提取中经常会出现一些跟主题无关的词条。本文根据不同的句子成分在表达主题中所起的作用不同,利用句法分析实现句子成分的标注,并由此提出了基于句子成分的文本特征提取算法。实验结果显示,该算法不但能有效地过滤一些跟主题无关的词条,而且避免了停用词表或词性过滤的局限性。 2、均衡特征选择算法研究。针对目前关于数据分类的假设在实际中难以满足以及数据偏斜的问题,本文通过对文本分类目标函数的分析,提出了均衡的特征选择算法。通过理论的分析和公开文本集的实验表明,该算法能够有效地处理子类间的数据偏斜问题。此外,提出了特征选择函数在某一文本集中特征选择维数的下限的计算方法,以及在特征维数下限条件下的非平均维数的特征选择算法。 3、高性能文本分类算法研究。为了减少未标记样本与无关向量集的比较从而有效地提高分类的速度,本文利用选择的特征集作为待标记文本分类的索引,提出了基于特征空间索引的最近邻分类算法。实验表明,该算法分类时间受维数增加的影响较小。为了提高分类的准确性,本文将未包含在特征空间中且具有区分类别能力的特征词作为分类的补偿特征集,提出了基于特征补偿的KNN算法。最后,在均衡特征选择的基础上结合鲁棒路径正则化,实现文本的非线性半监督分类。 4、基于最小割集的加权图聚类算法。在Hartuv and Shamir工作的基础上,提出了图论聚类算法——WGC算法,该算法有低多项式复杂度,可证明的聚类性质以及在聚类过程中自动地确定聚类的类数等优点。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 寇苏玲;蔡庆生;;中文文本分类中的特征选择研究[J];计算机仿真;2007年03期
2 周晗;赵卫东;季军;;一种用于文本分类的特征选择方法[J];电脑知识与技术;2008年34期
3 毛嘉莉;;文本聚类中的特征降维方法研究[J];西华师范大学学报(自然科学版);2009年04期
4 陈涛,谢阳群;文本分类中的特征降维方法综述[J];情报学报;2005年06期
5 张筱丹;;Web文本挖掘的研究[J];科技信息;2009年04期
6 赵晓静;;Web文本挖掘综述[J];电脑学习;2008年05期
7 吴岳芬;刘洪辉;;WEB文本挖掘的研究[J];电脑知识与技术(学术交流);2006年11期
8 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
9 严莉莉;张燕平;;基于类信息的文本聚类中特征选择算法[J];计算机工程与应用;2007年12期
10 龚静;曾建一;;文本聚类中的特征选择方法[J];吉首大学学报(自然科学版);2008年02期
11 呼声波;刘希玉;;网页分类中特征提取方法的比较与改进[J];山东师范大学学报(自然科学版);2008年03期
12 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
13 段震;王倩倩;张燕平;张铃;;覆盖算法下文本分类特征选择的研究[J];计算机技术与发展;2008年11期
14 贺一帆;江铭虎;;网络文本分类中基于信息瓶颈的特征提取[J];清华大学学报(自然科学版);2010年01期
15 吕震宇;林永民;赵爽;朱卫东;;基于同义词词林的文本特征选择与加权研究[J];情报杂志;2008年05期
16 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期
17 郑金芳;;基于文本分类领域中文本分类和主题分析[J];中国科技财富;2008年11期
18 张小艳;宋丽平;;论文本分类中特征选择方法[J];现代情报;2009年03期
19 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法[J];模式识别与人工智能;2009年06期
20 刘华;;词典编撰的领域词语自动获取与选择[J];计算机工程与应用;2006年24期
中国重要会议论文全文数据库 前10条
1 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 刘华;周凌燕;张普;;面向词典编撰的词汇聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
4 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
8 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 赵燕平;李超;;网络安全信息挖掘中的特征选择与专利分析研究[A];2004年中国管理科学学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
2 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
3 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
4 潘锋;特征提取与特征选择技术研究[D];南京航空航天大学;2011年
5 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
6 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
7 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
8 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
9 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
10 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 胡吉祥;基于频繁模式的消息文本聚类研究[D];中国科学院研究生院(计算技术研究所);2006年
2 张淼;基于支持向量机的文本分类系统研究[D];大庆石油学院;2008年
3 马玉静;基于群体智能的文本聚类技术研究[D];燕山大学;2009年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
6 朱鹏飞;基于粗集理论的人脸识别方法研究[D];山东大学;2005年
7 李文;公安执法监督管理中的文本理解技术的研究及其应用[D];南昌大学;2005年
8 陈伟萍;基于语义概念的中文文本分类研究[D];燕山大学;2006年
9 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
10 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
3 周晓娟;TD已过分水岭[N];通信产业报;2008年
4 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
7 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
8 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
9 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
10 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978