收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的文本分类研究

吴科  
【摘要】: 随着信息技术尤其是因特网相关技术的发展与成熟,人们可获得的信息越来越多。面对海量信息,一方面是人们对快速、准确且全面获取信息的渴望,而另一方面却是信息的杂乱无序。如何尽可能有效地组织和管理信息,是信息处理研究的重要问题之一。因此,文本分类得到了广泛关注,成为自然语言处理领域最重要的研究方向之一。本论文研究了文本分类中特征提取,大规模文本分类和跨语言文本分类等问题。我们主要解决下面三个问题,如何高效准确的进行分类、如何利用大规模的文本分类数据以及如何在多语言环境下利用某种语言的训练集,去分类另外一种语言的文本的问题。 本文的主要研究工作及创新点体现在以下五个方面: (1)将一个基于概率解释的多类特征选择算法应用在文本分类中。与将每个特征作为一个单一的个体的信息增益和χ_2统计量等传统方法相比,这种多类特征选择的优势在于它通过线性支持向量机所特有的结构风险最小化原则来选择一个好的特征集。实验中使用了三种常见的多类分类器测试了该特征提取方法。实验结果均显示了该方法的有效性。 (2)将最近邻算法的不同投票策略应用于文本分类中,并结合最小最大模块化网络来处理大规模数据的文本分类。一般情况下,最近邻算法在文本中采用相似性累加投票法,类似于机器学习中的反距离投票策略。本文将机器学习研究领域中最近邻算法的不同投票策略引入到文本分类中进行研究,而且进一步将它们引入到最小最大模块化网络中来处理大规模的数据。实验结果显示,高斯投票能在文本分类中表现出较好的综合性能。 (3)将最小最大模块化支持向量机中的超平面数据划分方法应用在大规模文本分类中。最小最大模块化网络在处理大规模数据时,通常有三个问题,一个是集成什么样的分类器,第二个是模块冗余消除问题,第三个是数据划分问题。这里研究了第三个问题,即使用超平面划分方法到文本分类领域进行研究。传统的数据划分方法,一般使用随机划分和聚类方法划分。然而,随机划分方法可能会破坏数据本身分布的空间属性,聚类方法划分又过于消耗计算资源。超平面划分方法一定程度上克服了这两种方法的缺点。实验结果验证了该方法的有效性。 (4)首次提出使用双语词典解决跨语言文本分类问题。在进行多语言分析的时候,通常需要一些额外的双语资源来沟通两种语言的差异,像双语电子词典,大规模的平行语料库和自动机器翻译等等。但是,跨语言文本分类,至今没有使用双语电子词典方面的研究。本文提出了一种跨语言朴素贝叶斯算法。该算法借助双语电子词典,第一次将单语言的朴素贝叶斯算法扩展到了双语言上。初步的实验结果验证了该方法的有效性。 (5)提出了一种跨语言文本分类的精细框架。考虑到使用双语电子词典的词汇覆盖率可能会影响到最终分类的性能,本文提出了在目标语言中利用其语料之间的结构属性更新初始自动标注信息的思想。初步的实验结果显示了该框架的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘琴;机器学习[J];武汉工程职业技术学院学报;2001年02期
2 李凡长;协调机器学习的稳定性研究[J];小型微型计算机系统;2002年03期
3 周海廷;机器学习与生物信息学[J];信息与控制;2003年04期
4 于凤;机器学习方法及其技术应用[J];电脑学习;2003年01期
5 王珏,石纯一;机器学习研究[J];广西师范大学学报(自然科学版);2003年02期
6 谷蓉,刘学民,朱仲涛,周杰;一种围棋定式的机器学习方法[J];计算机工程;2004年06期
7 闫友彪,陈元琰;机器学习的主要策略综述[J];计算机应用研究;2004年07期
8 张晓龙,杨艳霞;机器学习在生物信息学中的应用[J];武汉科技大学学报(自然科学版);2005年02期
9 ;第十届中国机器学习会议征文通知2006年10月13~15日,海口[J];计算机研究与发展;2005年10期
10 邵平;;机器学习与人脸识别方法概述[J];玉林师范学院学报;2006年03期
11 方玮玮;;机器学习方法浅析[J];福建电脑;2006年11期
12 张震;李军利;;机器学习方法及其在生物信息学中的应用[J];吉首大学学报(自然科学版);2006年04期
13 韩习武;赵铁军;;非精确概念的机器学习与应用[J];哈尔滨工业大学学报;2006年10期
14 陈菲菲;桂小林;;基于机器学习的动态信誉评估模型研究[J];计算机研究与发展;2007年02期
15 苏淑玲;;机器学习的发展现状及其相关研究[J];肇庆学院学报;2007年02期
16 安增波;张彦;;机器学习方法的应用研究[J];长治学院学报;2007年02期
17 白天;周春光;王喆;王岩;;代谢组学中机器学习研究进展[J];吉林大学学报(信息科学版);2008年02期
18 文贵华;;面向机器学习的相对变换[J];计算机研究与发展;2008年04期
19 张丽芳;;浅谈机器学习的现状及策略[J];现代经济信息;2009年06期
20 ;第十二届中国机器学习会议征文通知[J];重庆邮电大学学报(自然科学版);2009年04期
中国重要会议论文全文数据库 前10条
1 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
2 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
3 王昊;李银波;纪志梁;;利用机器学习方法预测严重药物不良反应-呼吸困难[A];中国化学会第28届学术年会第13分会场摘要集[C];2012年
4 黄金铁;李景银;周建常;;对高炉炉况评价模型参数的机器学习——一个三类线性模式分类器的实现[A];1995中国控制与决策学术年会论文集[C];1995年
5 周晴杰;徐立鸿;吴启迪;;机器学习串级结构的初步探讨[A];1998年中国控制会议论文集[C];1998年
6 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
7 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
8 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
10 张钹;张铃;;统计学习理论及其应用[A];2001年中国智能自动化会议论文集(上册)[C];2001年
中国博士学位论文全文数据库 前10条
1 胡巍;面向格结构的机器学习[D];上海交通大学;2009年
2 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
3 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
4 蒋刚;核机器学习方法若干问题研究[D];西南交通大学;2006年
5 张义荣;基于机器学习的入侵检测技术研究[D];国防科学技术大学;2005年
6 陈慧灵;面向智能决策问题的机器学习方法研究[D];吉林大学;2012年
7 梁锡军;稀疏优化在机器学习中的若干应用[D];大连理工大学;2013年
8 周伟达;核机器学习方法研究[D];西安电子科技大学;2003年
9 熊毅;基于机器学习的蛋白质结合位点特征化和预测方法研究[D];武汉大学;2011年
10 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 丁朋;凸优化在大规模机器学习中的应用[D];华东理工大学;2011年
2 孟宜成;粗集理论在机器学习中的应用与研究[D];昆明理工大学;2008年
3 周浩;基于机器学习的E级系统故障预测关键技术研究[D];国防科学技术大学;2011年
4 周广通;几种典型机器学习方法及其应用研究[D];山东大学;2010年
5 关真珍;基于半督导机器学习的分词算法的设计与实现[D];华中科技大学;2004年
6 姜飞;机器学习在人岗匹配度测算模型中的应用[D];湖南工业大学;2012年
7 赵草原;机器学习在可穿戴人体外骨骼系统步态识别中的应用研究[D];电子科技大学;2013年
8 丁惠;面向最优养殖布局的机器学习方法研究[D];中国海洋大学;2013年
9 王淑珍;机器学习算法的Weka嵌入[D];华南理工大学;2013年
10 蔡楹;基于机器学习的磁浮列车故障综合评估技术研究[D];国防科学技术大学;2007年
中国重要报纸全文数据库 前10条
1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
2 IBM大数据专家 James Kobielus 范范 编译;机器学习已成为大数据基石[N];网络世界;2014年
3 雨辰;机器学习类图书为什么火爆[N];中华读书报;2014年
4 本报记者 房琳琳;合久必分:分布式“机器学习”应运而生[N];科技日报;2014年
5 百度公司技术副总监 多媒体部负责人 余凯;深度学习与多媒体搜索技术演进[N];中国信息化周报;2013年
6 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
7 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
8 记者  彭德倩;机器学习精度提升近6个百分点[N];解放日报;2006年
9 本报记者 闵杰;大数据热 高端人才缺[N];中国电子报;2013年
10 沈建苗 编译;如何成为大数据科学家[N];计算机世界;2013年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978