收藏本站
《苏州大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体的信息抽取研究

陈静  
【摘要】: 信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。本体作为对领域知识的共同理解,能有效地解决现在信息抽取所面对的主要挑战——知识工程的瓶颈问题。 本文采用自顶向下的方法,根据三层本体框架结构来构建本文的本体——大学教授简历本体(PCV),将本体中的概念分为事件概念和扩展概念两部分。在这个过程中,通过手工收集和基于WordNet的语义相似度计算相结合的方法,获得本体内概念的实例,构建了一个较完备的概念、关系和实例相结合的本体库。 本文提出了一种基于本体和分类的信息抽取方式,在具体的抽取过程中,利用到本体中的概念、关系和实例,由本体中的元素确定待抽取的内容。首先在预处理过程中引入本体中的特殊概念及其实例,将文档中的特殊实例标注出来。接着采用分层的方法对文档进行抽取,根据待处理文本的特征,先对待抽取文档中的句子进行分类,确定句子的事件类别,句子分类的类别标准来源于本体中的事件概念。结合已确定的句子事件类别,可以得出与事件概念相关的扩展概念和属性,制定抽取模板,最后根据预处理中标注的结果直接提取模板中的待抽取的实体。实验表明该方法有较好的抽取性能。 本文根据本体中的概念和关系决定待抽取的对象,本体的引入既保证了结构的一致性,又保证了数据的一致性。另外,本文将抽取问题转化为分类问题,能很大程度减少用户标记训练数据集的工作量。实验表明该方法有较好的抽取性能。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP18

【相似文献】
中国期刊全文数据库 前10条
1 彭静;罗伟;;一种从自然语言文本到本体模型的转换方法[J];电大理工;2011年02期
2 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
3 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
4 赵静;鄢萍;陈国荣;胡林桥;;基于本体的机电设备故障诊断知识表示方法研究[J];制造业自动化;2011年15期
5 毕强;鲍玉来;;数字图书馆知识组织体系构建的发展路径——概念格与本体的互补融合[J];华中师范大学学报(人文社会科学版);2011年05期
6 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
7 张永兴;孙四明;张峰;;基于本体的信息检索系统研究[J];微计算机信息;2011年07期
8 崔晓晖;印桂生;;基于匹配算法的服务发现本体模型[J];计算机应用研究;2011年08期
9 舒毅;杨凡;;基于语义相似度的Web服务匹配研究[J];计算机应用与软件;2011年08期
10 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
中国重要会议论文全文数据库 前10条
1 陈静;朱巧明;贡正仙;李培锋;;特定本体指导的信息抽取技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 徐立恒;刘洋;来斯惟;刘康;田野;王渝丽;赵军;;基于多特征表示的本体概念挂载[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 缪嘉嘉;李爱平;刘志忠;吴泉源;贾焰;;一种面向语义信息集成的本体扩展方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
9 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
10 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 汪学群;乾嘉汉学家对理的新诠释[N];中国社会科学院院报;2008年
5 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
6 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
7 董振东;到用户中去[N];中国计算机报;2003年
8 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 马志彦;悄然而至的EIP[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 米杨;基于顶级本体整合的医学领域语义标注研究[D];吉林大学;2012年
3 姜赢;维度本体及其应用[D];武汉大学;2009年
4 云红艳;设备功能视点下的海洋生态本体构建及应用研究[D];中国海洋大学;2012年
5 杨志和;教育资源云服务本体与技术规范研究[D];华东师范大学;2012年
6 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
7 王菲;基于本体分子的知识资源建设模型研究[D];武汉大学;2011年
8 冯莎莎;本体逻辑差的研究[D];吉林大学;2011年
9 陈雯;基于本体框架的交通出行语义轨迹建模、标记及数据库研究[D];华东师范大学;2011年
10 饶国政;基于语义WIKI的本体知识库研究[D];天津大学;2009年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
5 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
6 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
7 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
8 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
9 王娜;基于Silverlight技术的本体编辑器的设计与实现[D];中国海洋大学;2010年
10 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026