收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于概念空间的文本分类的应用研究

黄海英  
【摘要】: 随着文本信息的快速增长,特别是Internet上在线信息的增加,文本(网页)分类显得越来越重要。由于文本分类有助于用户有选择地阅读和处理海量文本,可以在较大程度上解决目前网上信息杂乱的现象,方便用户准确地定位所需的信息和分流信息,因此,文本自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段.文本分类的方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑,由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用面较窄。而基于统计的分类方法由于采用纯粹的数学运算,不苛求复杂的语言学知识和领域知识,以及在实际应用中所体现出来的良好效果,成为目前流行的文本分类方法。现在广泛应用的基于统计的模型有向量空间模型、Naive Bayes模型、实例映射模型和支撑向量机模型。其中向量空间模型(Vector Space Model,VSM)是由G.Salton等人在20世纪60年代提出的,把文档简化为以项的权重为分量的向量表示,把分类过程简化为空间向量的运算,使得问题的复杂性大大减低。此外,向量空间模型对项的权重评价、相似度的计算都没有作出统一的规定,只是提供一个理论框架,可以使用 WP=4 不同的权重评价函数和相似度计算方法,使得此模型有广泛的适应性。但此模型一般采用索引词来表示文档,分类是通过文档之间的字、词匹配来实现,是浅层次的词匹配,而非深层次的语义匹配,是不准确的。显然,字、词的同义性和多义性将分别对文本分类的查全率和查准率产生不利影响。 LSI(Latent Semantic Indexing,潜在语义索引)方法是1988年S.T.Dumains等人提出的一种新的信息检索代数模型,其基本思想是文本中的词与词之间存在某种联系,即存在某种潜在的语义结构,因此采用统计的方法来寻找该语义结构,并且用语义结构来表示词和文本,这样的结果可以达到消除词之间的相关性,化简文本向量的目的。LSI利用统计计算导出的概念索引进行信息检索,而不再是传统的索引字、词。LSI基于这样一种断言,即文档库中存在隐含的关于词使用的语义结构,这种语义由于部分地被文档中词的语义和形式上的多样性所掩盖而不明显。LSI通过对原文档库的词—文档矩阵的奇异值分解(Singular Value Decomposition)计算,并取前k个最大的奇异值及其对应的奇异矢量构成一个新矩阵来近似表示原文档库的词—文矩阵。由于新矩阵消减了词和文档之间语义关系的模糊度,从而更有利于信息检索。与传统信息检索模型相比,LSI的优势表现在:向量空间中每一维的含义发生了很大的变化,它反映的不再是词的简单出现频度和分布关系,而是强化的语义关系;用低维词、文档向量替代原有词、文档向量,可以有效地处理大规模文档库。 本论文以LSI方法为基础,在文[1][2]的启发下,探讨了基于概念空间文本分类的计算方法。由于文本分类是计算机情报检索的一个分支,论文首先简要地介绍了情报检索与计算机情报检索的涵义及发展简史和发展趋势;计算机情报检索的基本理论、研究对象和方法,以及文本分类的关键技术;然后论述了隐含语义索引(LSI)方法的思想和理论基础,并用图例和一个小的实例对其进行形象化说明,阐述了LSI方法的优势。论文的主要工作是在向量空间模型和LSI的基础上构造文本分类的概念空间并提出在概念空间中词语相似度、文档相似度、待分类文档与类的相似度的计算方法,在大量训练集的基础上,进行概念获取,将文档转化为文档向量,同时构造类基准向量,最后在概念空间中将文档向量与类基准向量进行匹配,完成分类,同时还讨论了有待在概念空间中探讨的分类学习问题。实验证实了基于概念空间文本分类能够取得较好的效果。 由于语言中词的同义性和多义性普遍存在,使得基于词匹配的文本分类方法先天不足,本论文提出的基于概念空间的文本分类方法以一个较小的而更健壮的统计导出的概念空间替代原来基于独立词索引的文档向量空间,表现出明显的性能优势,希望将来通过对基于概念空间的文本分类的计算方法的一些比较系统的研究,以期寻求一个既有严格的理论依据,而且在实践中也可行的文本分类方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张进;郭翔;;网络新闻评论在新文本形式下的传播效果[J];广西大学学报(哲学社会科学版);2011年S1期
2 田秋生;;网络新闻评论对传统新闻评论的突破和创新[J];广州大学学报(社会科学版);2006年09期
3 牟邵义;;网络传播结构对信息传播的影响[J];今日科苑;2006年12期
4 杜家利;于屏方;;计算语义学视角下的文本风格研究[J];计算机工程与应用;2011年30期
5 杜娟;;大众传媒时代文本形式的转变[J];四川戏剧;2008年01期
6 庞章彬;Snaglt文字捕捉功能的妙用[J];电脑迷;2004年02期
7 ;XML解决利用数据难题[J];每周电脑报;2004年39期
8 蒋蕴;;寓言新闻:怎样讲“钻石故事”[J];新闻实践;2009年12期
9 林鸿飞;贡大跃;张跃;姚天顺;;可视化中文文本挖掘模型[J];计算机科学;2000年04期
10 吕兴宇;文本探索下的梅城故事[J];新闻出版交流;2001年06期
11 潘丽华;;电子新闻信息和报纸文本的差异——兼谈新闻从业人员阅读报纸文本的重要意义[J];新闻采编;2006年06期
12 刘果;;寻找视角 创造读者——关于古籍图书出版创新的几点思考[J];出版广角;2009年05期
13 章越;XML引领搜索变革[J];软件世界;2004年11期
14 向德海;;邮件合并,小数位数不再变化[J];电脑爱好者;2008年21期
15 黄琪瑞;杨智敏;;结构图结构编辑器SCSED[J];计算机研究与发展;1987年03期
16 Jamie Lewis;;安全要协商[J];每周电脑报;1998年01期
17 袁立新;;用IE5捕捉网页上的多媒体[J];网络科技时代(数字冲浪);2002年01期
18 帷幄;批量处理也玩“精彩”[J];个人电脑;2005年03期
19 ;杜绝Outlook邮件病毒[J];电脑迷;2007年06期
20 ;搭建模数转化的桥梁[J];数字通信;2008年02期
中国重要会议论文全文数据库 前10条
1 刘全升;姚天昉;;基于关联度模型的文本倾向性检索研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 陆心宇;;我在这里——近代经济学和哲学文本空间中的自我[A];当代国外马克思主义评论(9)[C];2011年
3 蒙泽敏;;历史文化与写作的关系浅探[A];贵州省写作学会2007年务川学术年会论文集[C];2007年
4 李大星;;关于古籍出版物整理的两个问题[A];出版转制与编辑工作——中国编辑学会第九届年会论文集[C];2004年
5 张静;;中学生借助网络方式促进学习地培养[A];国家教师科研基金十一五阶段性成果集(河北卷)[C];2010年
6 卫未;;从编辑出版角度看我国电子期刊的发展[A];出版业调查报告——第四届“未来编辑杯”获奖文集[C];2004年
7 张惠;;信息融合的魅力[A];中国教育技术协会2004年年会论文集[C];2004年
8 赵凌河;;新文学现代主义思想史论[A];辽宁省哲学社会科学获奖成果汇编[2005-2006年度][C];2008年
9 孙小清;;e时代的书信日记新天地[A];第十七届中外传记文学研究会年会论文摘要集[C];2012年
10 杨尔弘;邹红建;;面向内容计算的意义单元及其标注研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘生军;城市设计诠释论[D];哈尔滨工业大学;2008年
2 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
3 任一鸣;蒋彝作品研究[D];复旦大学;2007年
4 胡连影;解读《意义(?)文本》模式[D];首都师范大学;2011年
5 齐成民;中国现代文学史上的京派批评[D];复旦大学;2003年
6 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
7 李飞跃;唐宋词体论要[D];北京大学;2012年
8 胡志颖;文学彼岸性研究[D];暨南大学;2002年
9 卓立;历史相对主义的脉络[D];华东师范大学;2011年
10 黄建年;农业古籍的计算机断句标点与分词标引研究[D];南京农业大学;2009年
中国硕士学位论文全文数据库 前10条
1 周德志;基于复杂网络的文本社区构建研究[D];西安电子科技大学;2014年
2 单单;文本情感分析的若干关键问题研究[D];北京邮电大学;2011年
3 郑晨;产品介绍类文本翻译技巧探析[D];上海外国语大学;2014年
4 张彦博;文本情感分类的研究[D];北京交通大学;2010年
5 高振安;网络舆论的情感倾向性评价技术研究[D];北方工业大学;2011年
6 胡耀斌;网络舆论主题探测、追踪与分析关键技术研究[D];山东财经大学;2013年
7 王雯雯;轻舞飞扬为哪端[D];山东大学;2006年
8 刘良;彩云一曲唱到今[D];华东师范大学;2009年
9 臧慧远;元杂剧的鬼魂戏研究[D];兰州大学;2007年
10 刘庆;《小二黑结婚》的文本形式变迁[D];天津师范大学;2008年
中国重要报纸全文数据库 前10条
1 任进;核心问题突出 文本形式创新[N];法制日报;2004年
2 傅书华;“文本的历史”与“历史的文本”[N];山西日报;2005年
3 彭玲;看看直播网打造未来网络视频新方式[N];中国高新技术产业导报;2007年
4 书评人 林姗;闭一只眼看男人:七七的分身术[N];中国图书商报;2008年
5 山东 王霞;巧将文本数值变数字[N];电子报;2006年
6 陈晓明;穿透乡村中国的历史[N];江淮时报;2005年
7 格子;校园题材创作的是是非非[N];文学报;2005年
8 蔡美萍;当代“桃花源”是个什么样[N];中国质量报;2007年
9 ;随摘随译 时尚资料笔面面观[N];电子资讯时报;2006年
10 编译 讯源;CTIA展示无线创新[N];计算机世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978