收藏本站
《广西师范大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于领域本体的文本分类研究

韦婷婷  
【摘要】:由于信息的传播量及传播速度之快速增长,互联网上的资源呈爆炸式的增长,人们被各种各样的海量信息包围着,却不知道从何入手才能快速找到急需的信息。如何有效组织和管理这些大量信息,分门别类的存放,用户能够各取所需信息,已经成为了当前信息科学与技术的一大挑战。文本分类作为信息组织和管理的关键技术,帮助人们高效的定位信息,因此对其技术的要求也变得越来越高。 传统的文本分类方法大多是采用词向量空间模型的表示方法,认为构成文本的关键词之间彼此独立,没有语义关联,导致了大量语义信息的丢失,得到的特征向量不能很好的表示文本的内容,从而影响了分类的效果。而实际上,构成文本的特征项之间包含一定的语义关联,如同义关系,上下位关系等。为解决这一问题,随着语义网的出现,人们提出了语义驱动的文本分类方法。本体因其良好的概念层次结构,能够清晰的表达概念之间的关系而被广泛的使用实现基于语义的文本分类。然而,目前基于本体的文本分类方法研究尚在起步阶段,还存在一些不足:对本体的使用大多只停留在词典的层面上,未深入挖掘特征项和概念之间的语义关系;文本表示模型仅映射到本体的概念,不考虑描述概念之间关系的属性和实例;大多算法都忽略了本体的一个最重要优势—推理机制。本文在充分研究传统方法和基于本体的分类方法研究现状后,对存在的问题进行改进,主要的工作如下: (1)本文介绍了本体的相关知识及构建的原则和方法,并重点介绍OWL2描述语言以及本文采用此种语言编码的原因。详细介绍了旅游领域本体的构建过程。同时还对文本分类过程的关键技术进行介绍,包括文本分类定义,文本表示,特征抽取和选择,常用的分类器等。 (2)文本分类中文本表示模型的好坏直接影响到分类的结果。为实现在语义的层面上进行文本分类,本文基于概念映射方法将传统的词向量空间模型转换成概念向量空间模型,不仅映射到本体的概念,还包括本体的属性和实例,尽可能的保留文本特征词之间的语义关系。由于概念是包含更多语义信息的特征项,传统基于统计的权重计算方法不能很好的代表概念的语义,因此本文提出一种对传统TFIDF权重计算的改进方法,为信息丰富的本体概念赋予更高的权重。 (3)由于传统机器学习分类器的计算复杂性,且易受训练文本数量大小的影响,因此本文以领域本体自身层次结构作为分类的体系,提出一种特征项与本体概念之间的语义关联度计算方法,并在此基础上计算整篇文本到每个概念类别的隶属度。最后通过实验表明,该计算方法比使用贝叶斯和最近邻分类器方法获得更高的准确率。 (4)为充分挖掘本体对分类的指导作用及提高分类的效率,本文的分类方法还结合了本体的推理规则,利用本体的推理机制挖掘出本体中更多的隐含知识。这些隐含知识对分类有一定的指导作用,从而减少了计算开销。实验表明,结合推理规则的分类方法比不使用推理规则的方法效率更高。 (5)本文以旅游领域为背景,通过爬虫抓取旅游信息相关的网页,利用本文提出的计算方法实现对旅游网页文本的分类。给出了各个模块的具体流程,包括预处理,概念空间模型的生成,分类过程等。最后给出实验对比的分析与总结。
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前4条
1 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
2 郝秀兰;陶晓鹏;徐和祥;胡运发;;kNN文本分类器类偏斜问题的一种处理对策[J];计算机研究与发展;2009年01期
3 史长琼;黄辉;王大卫;姜腊林;扶宗文;;融合LSI和支持向量聚类的网页文本分类算法[J];计算机应用研究;2009年12期
4 张翔;周明全;耿国华;;Bagging中文文本分类器的改进方法研究[J];小型微型计算机系统;2010年02期
中国博士学位论文全文数据库 前3条
1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
3 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
中国硕士学位论文全文数据库 前6条
1 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
2 付玲玲;结合本体HowNet的中文文本分类研究[D];重庆大学;2011年
3 辛明海;个性化信息服务中的本体论自动分类和多Agent技术[D];华侨大学;2002年
4 邓爽;基于本体的文本分类模型研究[D];西华大学;2007年
5 何元娇;基于本体的语义文本分类研究[D];北京化工大学;2008年
6 成晓;基于本体的旅游网站站内检索研究[D];南京理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 唐琨皓;杨贯中;刘燕玲;;基于本体的任务模型研究与应用[J];办公自动化;2009年02期
2 梁晔;周海燕;;本体论与语义Web[J];北京联合大学学报(自然科学版);2007年01期
3 牟冬梅;王丽伟;;知识组织系统中关系模式的应用比较[J];图书与情报;2006年05期
4 祝小诗;;情报学与计算机科学在同一信息技术领域的研究比较[J];重庆图情研究;2007年02期
5 李春梅;吴云峰;;基于Ontology的语义信息检索及应用[J];楚雄师范学院学报;2006年09期
6 江河;;基于知识本体的个性化网页检索系统设计与实现[J];常州工学院学报;2010年06期
7 于江德;李学钰;樊孝忠;;信息抽取中领域本体的设计和实现[J];电子科技大学学报;2008年05期
8 吴江宁;王晓欢;;面向呼叫中心的知识导航系统研究[J];大连理工大学学报;2009年06期
9 刘闯;于晓强;陶学恒;;OWL本体在纺织企业的应用[J];大连工业大学学报;2010年02期
10 张宝华;;探讨Ontology的信息检索策略[J];电脑编程技巧与维护;2009年10期
中国重要会议论文全文数据库 前4条
1 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 姚文琳;王莉;王璀民;;基于Ontology的知识检索系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
3 丁政建;张路;;基于本体的语义检索研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 缪嘉嘉;李爱平;刘志忠;吴泉源;贾焰;;一种面向语义信息集成的本体扩展方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
2 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
3 王强;空间信息服务聚合的关键技术研究[D];解放军信息工程大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 赵娜;基于知识地图的多领域本体语义互联研究[D];吉林大学;2011年
6 萧毅鸿;基于本体的复杂决策任务表示方法与求解技术研究[D];南京大学;2011年
7 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
8 曾帅;普适计算环境下的信任管理研究[D];北京邮电大学;2011年
9 刘伟;基于地理本体的空间数据服务发现与集成[D];中国矿业大学;2010年
10 尹胜;网络化协作加工资源优化配置方法及其加工支持系统研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
4 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
5 赵阳耀;基于本体的数据源映射方法与策略[D];哈尔滨工程大学;2010年
6 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
7 徐济成;面向农业领域的本体学习建模研究[D];安徽农业大学;2010年
8 吉喆;基于本体的茶树虫害智能诊断系统研究[D];安徽农业大学;2010年
9 刘召栋;基于电子政务平台的政府竞争情报系统研究[D];湘潭大学;2010年
10 潘拓宇;融入用户行为上下文的个性化推荐模型[D];湘潭大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
3 李赟;黄开妍;任福继;钟义信;;维基百科的中文语义相关词获取及相关度分析计算[J];北京邮电大学学报;2009年03期
4 宋军;张明山;;认知心理学在人机界面中的应用[J];包装工程;2006年05期
5 凌云,陈毓芬,王英杰;基于用户认知特征的地图可视化系统自适应用户界面研究[J];测绘学报;2005年03期
6 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
7 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
8 陈明;轻松拥有自己的站内搜索引擎[J];电脑爱好者;2004年23期
9 刘亚军,徐易;一种基于加权语义相似度模型的自动问答系统[J];东南大学学报(自然科学版);2004年05期
10 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[J];Journal of Southeast University(English Edition);2006年03期
中国博士学位论文全文数据库 前3条
1 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 胡霞;认知语境研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前10条
1 辛明海;个性化信息服务中的本体论自动分类和多Agent技术[D];华侨大学;2002年
2 张滨;中文文档分类技术研究[D];武汉大学;2004年
3 陈伟萍;基于语义概念的中文文本分类研究[D];燕山大学;2006年
4 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
5 刘里;中文文本分类中特征描述及分类器构造方法研究[D];重庆大学;2006年
6 丁琼;基于向量空间模型的文本自动分类系统的研究与实现[D];同济大学;2007年
7 旺建华;中文文本分类技术研究[D];吉林大学;2007年
8 蒋敏梅;基于概念的文本分类研究[D];北京交通大学;2008年
9 李丽;基于本体的网页文本分类的研究[D];北京交通大学;2008年
10 刘巧凤;基于图结构的中文文本聚类方法研究[D];大连理工大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 李景,苏晓鹭,钱平;构建领域本体的方法[J];计算机与农业;2003年07期
2 肖敏;;领域本体的构建方法研究[J];情报杂志;2006年02期
3 马文峰;杜小勇;;知识网格研究[J];图书情报工作;2007年10期
4 许勇;王智学;李宗勇;;领域本体的一致性检查[J];计算机工程;2009年01期
5 宋佳;王盼卿;齐剑锋;李晓辉;;装备领域本体的构建方法研究[J];微计算机信息;2009年15期
6 张付志;李伟静;朱彩云;;基于领域本体的跨系统个性化服务用户模型[J];计算机工程;2009年13期
7 王涵;张功杰;;领域本体建模研究与实现[J];煤炭科技;2009年02期
8 陈坚;何洁月;;RDF可信度扩展在领域本体构建中的应用[J];计算机技术与发展;2006年01期
9 李衍淼;霍常青;;本体论在企业信息检索中的应用[J];福建电脑;2006年08期
10 徐忠华;程方玉;王强;周传宏;;基于领域本体的PDM系统工程更改管理模型[J];机电工程;2006年12期
中国重要会议论文全文数据库 前10条
1 冯瑾;;初始领域本体获取研究——以国际共运领域为例[A];中国图书馆学会专业图书馆分会2009年学术年会论文集[C];2009年
2 张晓莹;张桂平;王裴岩;;领域本体构建中关系辅助判断技术研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 叶琼;李绍稳;张友华;刘恺;;农业领域本体知识的云化方法研究[A];中国农业工程学会2011年学术年会论文集[C];2011年
4 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
5 张士靖;胡兆芹;;医学领域本体的构建实践[A];中华医学会第十二次全国医学信息学术会议论文汇编[C];2006年
6 刘新华;刘文剑;;基于领域本体的技术准备信息集成技术研究[A];全国先进制造技术高层论坛暨第七届制造业自动化与信息化技术研讨会论文集[C];2008年
7 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 李甜甜;;基于本体论的供应链知识管理[A];经济发展与管理创新--全国经济管理院校工业技术学研究会第十届学术年会论文集[C];2010年
9 王茹;邢毓华;;古建筑领域本体构建研究[A];首届工程设计高性能计算(HPC)技术应用论坛论文集[C];2007年
10 程晓;郑德权;杨宇航;邵国军;;面向半结构化文本的领域本体关系抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前1条
1 杞人;我基于中文的农业本体论研究与应用国际领先[N];科技日报;2011年
中国博士学位论文全文数据库 前10条
1 赵娜;基于知识地图的多领域本体语义互联研究[D];吉林大学;2011年
2 欧阳柳波;领域本体覆盖度评价关键技术研究[D];中南大学;2012年
3 董俊;基于KDD的领域本体构建若干关键问题研究[D];南京邮电大学;2011年
4 谷建军;基于叙词表的中医古籍文献领域本体建模方法研究[D];中国中医科学院;2006年
5 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
6 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
7 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
8 李丽双;领域本体学习中术语及关系抽取方法的研究[D];大连理工大学;2013年
9 李景;领域本体的构建方法与应用研究[D];中国农业科学院;2009年
10 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 牟冬梅;本体在医学数字信息资源知识组织中的应用研究[D];吉林大学;2005年
2 史军强;WEB信息集成技术研究[D];电子科技大学;2005年
3 叶剑;基于领域本体的E-Learning系统研究[D];华中师范大学;2011年
4 付佳佳;基于叙词表的领域本体建模研究[D];华东师范大学;2006年
5 许琳;基于本体的个性化信息服务用户模型构建研究[D];吉林大学;2008年
6 冯艳华;基于语义的构件描述和检索方法的研究[D];西北大学;2005年
7 邹景华;语义万维网在智能信息检索中的应用研究[D];重庆大学;2005年
8 张江;本体在领域知识管理中的应用研究[D];重庆大学;2005年
9 赵娟;本体在Web服务发现中的应用[D];西北大学;2006年
10 杨小佳;基于本体的公共交通领域智能信息检索研究[D];大连海事大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026