收藏本站
《中国科学院研究生院(计算技术研究所)》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

领域文本知识获取方法研究及其在考古领域中的应用

张春霞  
【摘要】: 互联网时代,信息爆炸,全球一体化,使信息的来源、数量和形式发生了根本的变化。如何用智能化的手段处理网上的海量文本信息已成为一个十分紧迫的问题。将信息转变为知识、将信息基础设施发展为知识基础设施是二十一世纪的重要科研方向,旨在实现“在恰当的时间,以恰当的语言、恰当的粒度,将恰当的信息提供给恰当的人们”的目标。当前最热门的领域之一是“文本挖掘”,即从巨量的非结构化文本中抽取信息。这就为文本知识获取提出了新的挑战和迫切需求。 本文主要针对领域概念获取、领域概念上下位关系学习、描述流提取、领域个体知识获取的方法,以及它们在考古领域中的应用,开展了如下几个方面的研究工作:  (1) 一种提取领域概念的混合式方法。目前,在信息检索、文本分类、主题跟踪和探测等文本处理和分析任务中,通常是以“词”作为特征项的。然而这些词并不一定能忠实地表达文本的内容、类别和主题。这一问题在处理领域文本时显得尤为突出,已经阻碍了文本处理任务的发展。领域概念首先是一个词,并为实体概念、或性质概念、或关系概念。领域概念能够更加准确和忠实地表达文本的内容。本文的混合式方法融汇了规则、统计、句法和语义信息来识别概念。该方法首次引入主动词和语义角色识别来提取领域概念,提出了基于语料学习的主动词识别方法,设计了主动词和面向知识获取的语义模型驱动的语义角色识别方法。通过与分词系统实验结果相比,验证了该方法的有效性。 (2) 多策略的领域概念上下位关系学习方法。领域概念上下位关系学习是指基于已构建的上下位关系概念对来学习未知的上下位关系概念对。本文提出了三种学习策略:种子上下位关系概念对驱动和并列语境启发的学习方法、基于上下位关系语境的学习方法,以及领域概念构词法驱动的学习方法。前两种方法是根据上下位关系概念对所处的上下文来提取的,第三种方法是根据概念的内部构成规律来提取的。这些方法是由学习Agent来完成的,它由已知知识、学习条件和获取知识三部分构成,采用框架和一阶逻辑表示,因此学习Agent具有良好的扩展性。 (3) 一种领域本体驱动的描述流提取方法。通过信息检索、文本分类和主题检测和跟踪等文本处理和分析等任务,我们能够了解文本的内容。但是,我们仍然难以知道文本描述了主题的哪些方面以及它们的描述顺序。因此,我们提出了一个新的文本分析任务——描述流提取。描述流是指文本的主题、主题的描述方面以及它们出现的偏序关系。本文采用了一种领域本体驱动的描述流提取方法,描述流提取是为领域个体知识获取服务的。通过实验验证了该方法的可行性。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;中国知网简介[J];经济视角(中旬);2011年04期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要报纸全文数据库 前7条
1 朱丽兰;必须加强国家知识基础设施的建设[N];中国企业报;2001年
2 全国人大科技委员会主任委员朱丽兰;一定要打好知识经济的基础[N];中国企业报;2001年
3 ;“新”计算所:半年十八变[N];中国计算机报;2000年
4 记者 程晓龙;清华大学建成知识资源共享网络平台[N];中国新闻出版报;2004年
5 记者 郜云雁;2亿元启动CNKI数字图书馆工程[N];中国教育报;2002年
6 记者 菇晴;重视知识基础设施建设[N];中国经济时报;2000年
7 本报记者 李玉成;清华打造知识基础设施工程[N];科技日报;2002年
中国博士学位论文全文数据库 前2条
1 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
2 曾庆田;数学概念的知识获取与分析方法研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前5条
1 余蕾;从大规模中文语料中获取和验证概念的研究[D];中国科学院研究生院(计算技术研究所);2006年
2 郝天永;基于本体的宗教知识获取[D];兰州理工大学;2005年
3 冯东辉;NKI知识界面:实现人和知识的对话[D];中国科学院研究生院(计算技术研究所);2001年
4 唐素勤;基于领域本体的跨学科智能教学系统的研究[D];广西师范大学;2002年
5 张德海;NKI国家和地区地理知识的获取与分析[D];云南师范大学;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978