收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文本语义表示及多层分类关键技术研究

宋胜利  
【摘要】:信息技术的飞速发展和互联网技术的快速变革使得人类社会进入了信息极大丰富和快速更新的时代,特别是近年来各种社交网络的出现,每天有海量文本信息不断在网络上产生和传播。人们所面对的问题不再是如何获取信息,而是如何从大量信息中迅速有效地提取出所需信息。文本分类作为一项具有较大使用价值的关键技术,可以在较大程度上解决信息杂乱的问题,方便用户准确地定位所需的信息和分流信息。随着分类技术在信息检索、舆情分析、信息过滤、新闻分类和数字图书馆等多个领域的广泛应用,文本分类关键技术的研究已经成为信息处理领域的一个前沿课题,有着广泛的应用前景和重要的研究意义。本文对文本语义表示及多层分类关键技术进行了系统的研究,所取得的主要研究成果为: 1.提出了一种基于文本语义图的文本表示模型。为了解决词频统计文本表示方法中词语语义信息缺失的问题,本文在考虑文本中词语上下文语境和语义背景信息的基础上,提出了一种新的中文文本表示模型:文本语义图。利用维基百科作为知识背景计算文本中实意特征词语的语义关联,将具有较强语义关系的词语合并成词包作为图的节点,节点权值用词包所包含词语的数目及词频计算;不同词包中词语间的上下文关系作为图的有向边,有向边权值用其邻接节点的最大权值表示,该模型较大程度地保留文本中词语上下文信息的同时强化了词语的语义内涵。 2.提出了一种基于虚拟分类树的多层文本分类方法。针对现有多层分类方法采用自上而下建立分类模型,样本数据被多次重复学习的问题,提出了一种基于虚拟分类树的多层文本分类方法。该分类方法采用了自底向上的方式构建分类器。在自顶向下文本分类过程中,计算经过预处理后的文档向量与关联分类器之间的相似程度,并选择其中的最大值用来确定该文档所属的类别,直到将文档归结到叶子结点。 3.提出了多层文本分类的增量学习算法。结合单文档调整与新增样本集的学习问题分析,提出了两种模式下基于多层分类模型的增量学习算法:单文档调整通过寻找分类路径与实际路径的最左不匹配结点重新学习并更新虚拟分类树分类模型;新增样本集利用增量特征选择算法增量更新特征空间,并重新计算权值以提升分类模型的准确性。 4.提出了一种多层文本分类性能评价方法。为了准确评价多层文本分类方法,利用多层分类结构中类别之间的层次关系和“亲疏”关系,提出了一组能够准确描述多层分类性能的扩展评价指标,并利用错误分类样本分布定义了错误分类集中度,在评价分类结果的同时能够指导训练样本的选择过程,使得训练样本更具有代表性。 5.设计了一种文本信息处理过程模型。针对文本情报处理的应用模式,设计了文本信息处理的过程模型,包括文本信息采集、热点聚合分类、全文信息检索和文本信息综合整编四个阶段。在此基础上,开发了文本信息处理系统,该系统能够实现文本信息的预处理、分析处理和整编处理,为信息工作人员提供软件平台以提升信息处理工作的效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 曾文华,马健;一种新的支持向量机增量学习算法[J];厦门大学学报(自然科学版);2002年06期
2 李凯,黄厚宽;支持向量机增量学习算法研究[J];北方交通大学学报;2003年05期
3 曾文华,马健;支持向量机增量学习的算法与应用[J];计算机集成制造系统-CIMS;2003年S1期
4 姜卯生,王浩,姚宏亮;朴素贝叶斯分类器增量学习序列算法研究[J];计算机工程与应用;2004年14期
5 滕月阳,唐焕文,张海霞;一种新的支持向量机增量学习算法[J];计算机工程与应用;2004年36期
6 孔锐,张冰;一种快速支持向量机增量学习算法[J];控制与决策;2005年10期
7 刘梅,权太范,姚天宾;基于增量学习神经模糊网络的机动目标跟踪[J];电子学报;2005年11期
8 许仙珍,费树岷;一种基于增量学习的典型样本选取方法[J];常熟理工学院学报;2005年02期
9 王玲;穆志纯;郭辉;;基于支持向量回归的批处理增量学习方法[J];计算机工程;2007年10期
10 廖东平;魏玺章;黎湘;庄钊文;;一种支持向量机增量学习淘汰算法[J];国防科技大学学报;2007年03期
11 李祥纳;艾青;秦玉平;刘卫江;;支持向量机增量学习算法综述[J];渤海大学学报(自然科学版);2007年02期
12 王玲;穆志纯;郭辉;;一种基于聚类的支持向量机增量学习算法[J];北京科技大学学报;2007年08期
13 曹杰;刘志镜;;基于支持向量机的增量学习算法[J];计算机应用研究;2007年08期
14 骆世广;骆昌日;夏成锋;;基于β因子的支持向量机增量学习算法[J];仲恺农业技术学院学报;2007年02期
15 白冬婴;王晓丹;马飞;;支持向量机增量学习方法及应用[J];航空计算技术;2007年04期
16 秦玉平;李祥纳;王秀坤;王春立;;支持向量机加权类增量学习算法研究[J];计算机工程与应用;2007年34期
17 罗长升;段建国;郭莉;;基于推拉策略的文本分类增量学习研究[J];中文信息学报;2008年01期
18 罗福星;刘卫国;;一种朴素贝叶斯分类增量学习算法[J];微计算机应用;2008年06期
19 秦玉平;李祥纳;王秀坤;王春立;;基于超球支持向量机的类增量学习算法研究[J];计算机科学;2008年08期
20 戴洪;朱明;刘守群;;支持增量学习的文本单类别分类算法[J];计算机工程与应用;2008年27期
中国重要会议论文全文数据库 前8条
1 张健沛;李忠伟;杨静;;一种基于多支持向量机的并行增量学习方法(英文)[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 张庆彬;吴惕华;刘波;;一种改进的基于群体的增量学习算法[A];第二十六届中国控制会议论文集[C];2007年
4 秦亮;唐静;史贤俊;肖支才;;一种改进的支持向量机增量学习算法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
5 王悦凯;吴晓峰;翁巨扬;;Where-What网络增量学习特性探究[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
6 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
7 赵莹;万福永;;支持向量机的增量学习算法及其在多类分类问题中的应用[A];第25届中国控制会议论文集(下册)[C];2006年
8 宫义山;钱娜;;贝叶斯网络结构在线学习算法及应用[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
中国博士学位论文全文数据库 前4条
1 李敬;增量学习及其在图像识别中的应用[D];上海交通大学;2008年
2 段华;支持向量机的增量学习算法研究[D];上海交通大学;2008年
3 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
4 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 罗福星;增量学习朴素贝叶斯中文分类系统的研究[D];中南大学;2008年
2 杜玲;覆盖算法的增量学习研究[D];安徽大学;2010年
3 吴慧;新的支持向量机增量学习算法[D];西安电子科技大学;2009年
4 张智敏;基于增量学习的分类算法研究[D];华南理工大学;2010年
5 李娜;基于增量学习的精准广告投放系统研究[D];山西财经大学;2010年
6 胡建龙;基于决策逻辑的增量学习算法研究[D];山西大学;2006年
7 赵莹;基于向量投影的支持向量机增量学习算法[D];哈尔滨工程大学;2007年
8 张荣;具有增量学习能力的最小距离分类器[D];华中科技大学;2006年
9 王媛;支持向量机增量学习算法及其在入侵检测中的应用研究[D];吉林大学;2008年
10 李金凤;支持向量机增量学习算法研究[D];中南民族大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978