收藏本站
《昆明理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

领域概念自动抽取研究

姚贤明  
【摘要】:领域本体在语义网、信息抽取、知识管理等领域中的作用越来越明显,如何自动或半自动构建领域本体成为一个紧迫的任务。领域概念是领域本体中最基础最重要的建模原语,本体中关系、实例、函数、公理都建立在概念的基础之上,它对领域本体的构建起着重要作用。如何高效地从大规模文本中自动获取领域概念对研究人员提出了巨大的挑战。本文针对领域概念抽取的难题,从领域术语抽取,领域概念内涵获取,领域概念外延(实例)学习三个方面开展了相关的研究和实验工作。 1、领域术语抽取。本文首先利用规则从领域文本中获取可能成为术语的字符串,然后使用互信息考察字符串内部的结合紧密程度,以得到领域中在搭配上有意义的高频词,最后使用词语共现分析这些高频词中术语之间的相关性以获取领域术语。其创新点在于引入了词语共现分析领域术语之间的相关性,将实例等领域高频词过滤掉,从而实现了领域术语的自动抽取。 2、领域概念内涵获取。本文利用知网(HOWNET)这部语义词典,借助义原对概念的内涵进行描述,从而实现概念内涵的自动获取;针对部分未登录词的问题,本文采取了拆分的策略实现其内涵自动获取。同时,针对术语重复的问题,本文使用K均值聚类技术实现了术语去重,术语之间的相似度计算则参考了其义原之间的距离。 3、领域概念外延(实例)学习。针对当前实例学习中基于规则和统计方法存在的不足,本文将机器学习的方法引入到实例学习中,并尝试了基于支持向量机(SVM)的实例学习方法,实验结果证明了该方法的有效性。 本文研究了当领域概念抽取的研究现状及其存在的问题,提出了概念抽取的基本思路,并按照领域术语抽取、领域概念内涵获取、领域概念外延(实例)学习的步骤对领域概念抽取开展了相关实验,实验结果验证了这些方法的有效性。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
2 张锋,许云,侯艳,樊孝忠;基于互信息的中文术语抽取系统[J];计算机应用研究;2005年05期
3 刘贺欢;刘椿年;;Ontology自动创建中实例学习的研究[J];计算机应用研究;2006年03期
4 王家琴;李仁发;李仲生;唐剑波;;一种基于本体的概念语义相似度方法的研究[J];计算机工程;2007年11期
5 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
6 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
7 杜小勇;李曼;王珊;;本体学习研究综述[J];软件学报;2006年09期
8 梁健;吴丹;;种子概念方法及其在基于文本的本体学习中的应用[J];图书情报工作;2006年09期
9 赵林,胡恬,黄萱菁,吴立德;基于知网的概念特征抽取方法[J];通信学报;2004年07期
10 耿骞;耿崇;;利用词语共现进行Ontology的概念获取[J];现代图书情报技术;2006年02期
中国重要会议论文全文数据库 前1条
1 章志凌;虞立群;罗海飞;邵晓敏;;基于改进Corpus库的词语相似度计算方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
中国博士学位论文全文数据库 前3条
1 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
2 程勇;基于本体的不确定性知识管理研究[D];中国科学院研究生院(计算技术研究所);2005年
3 匡鹏飞;时间词语前后分句共现状态之研究[D];华中师范大学;2006年
中国硕士学位论文全文数据库 前2条
1 王可为;基于统计的双语术语自动抽取[D];南京理工大学;2007年
2 唐晋韬;面向中文文本的本体构建和自动扩充[D];国防科学技术大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 胡思康;曹元大;;Web网页知识获取技术[J];北京理工大学学报;2006年12期
2 杭娟;张冬茉;;一种基于同义词消除的文本过滤方法[J];计算机工程与应用;2006年19期
3 陈杰;蒋祖华;;领域本体的概念相似度计算[J];计算机工程与应用;2006年33期
4 杨明华;钱乐秋;赵文耘;彭鑫;;特定领域本体的构造方法[J];计算机工程;2006年11期
5 梁昌勇,张申恒;基于本体的企业文本检索模型研究[J];计算机应用研究;2005年12期
6 张勇;;领域本体构建的方法研究[J];渤海大学学报(自然科学版);2006年04期
7 李小斌;;基于本体的信息网关的研究与设计[J];科技广场;2006年04期
8 庞景安;;Web文本特征提取方法的研究与发展[J];情报理论与实践;2006年03期
9 包金龙;基于向量空间模型的信息检索系统的设计[J];情报杂志;2005年07期
10 杜小勇;李曼;王珊;;本体学习研究综述[J];软件学报;2006年09期
中国重要会议论文全文数据库 前4条
1 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
3 徐惠;高志强;陆青健;朱万颖;;ORIGO:一种基于数字化图书馆资源的本体学习方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
4 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
2 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
3 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
4 梅翔;语义检索中若干关键问题的研究[D];北京邮电大学;2007年
5 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 王曰芬;文献计量法与内容分析法的综合研究[D];南京理工大学;2007年
8 毋涛;面向军工企业大批量定制生产的知识管理体系研究[D];西北工业大学;2007年
9 黄涛;知识服务的语义匹配机制研究[D];华中师范大学;2007年
10 李宏伟;基于Ontology的地理信息服务研究[D];解放军信息工程大学;2007年
中国硕士学位论文全文数据库 前10条
1 曾慧宏;面向网络学习的知识服务平台及检索方法研究[D];中南大学;2005年
2 张申恒;基于本体的企业文本检索模型研究[D];合肥工业大学;2005年
3 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
4 熊毅;基于ontology的内容安全技术研究与实现[D];电子科技大学;2004年
5 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
6 卢冶;基于概念扩充和综合评价的中文自动文摘研究[D];大连理工大学;2006年
7 王金宝;基于增量学习和阀值优化的自适应信息过滤[D];大连理工大学;2006年
8 覃华兵;知识组织工具—本体研究[D];武汉大学;2005年
9 陈伟萍;基于语义概念的中文文本分类研究[D];燕山大学;2006年
10 古华贞;基于本体的移动问答系统研究[D];大连理工大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 罗威;基于向量空间的中文概念检索技术研究[J];情报理论与实践;2003年03期
2 胡俊峰 ,俞士汶;唐宋诗中词汇语义相似度的统计分析及应用[J];中文信息学报;2002年04期
3 盛秋艳,何文广;基于Hopfield神经网络的概念检索技术[J];情报科学;2004年03期
4 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报(自然科学版);2002年05期
5 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报(自然科学版);1998年01期
6 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
7 史忠植,董明楷,蒋运承,张海俊;语义Web的逻辑基础[J];中国科学E辑;2004年10期
8 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
9 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
10 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
中国重要会议论文全文数据库 前6条
1 刘桐菊;于浩;杨沐昀;;基于TFIDF的专业领域词汇获取的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
2 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 郑家恒;杜永萍;宋礼鹏;;农业病虫害词汇获取方法初探[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 朱靖波;陈文亮;姚天顺;;面向TDT的主题相似性计算模型[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 邓守信;;汉语动词的时间结构[A];第一届国际汉语教学讨论会论文选[C];1985年
中国硕士学位论文全文数据库 前3条
1 贾爱平;科技文献中术语定义的语言模式研究[D];北京语言文化大学;2002年
2 张红;语义网中的本体推理及其应用研究[D];吉林大学;2004年
3 曹晶;同义词挖掘及其在概念信息检索系统中的应用研究[D];东北师范大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 安艳杰;;电子文献引用的自动获取初探[J];现代情报;2007年09期
2 安纪霞;李锡祚;宋冰;曾伟;;服务于词典编纂的特定领域专业术语自动抽取[J];计算机与数字工程;2007年11期
3 李亚桥;王晓东;李智;;基于树结构的包装器全自动生成方法的研究[J];河北工业大学学报;2007年06期
4 熊平原;王毅;陈庆新;毛宁;;基于压铸模本体的领域概念自动抽取方法研究[J];机械设计与制造;2011年07期
5 谷俊;王昊;;基于领域中文文本的术语抽取方法研究[J];现代图书情报技术;2011年04期
6 翟笃风;刘柏嵩;;政务领域本体术语的自动抽取[J];现代图书情报技术;2010年04期
7 曾苏;马建霞;张秀秀;;元数据自动抽取研究新进展[J];现代图书情报技术;2008年04期
8 张选平;袁明轩;蒋宇;马琮;梁平;;一种基于概念抽取的元搜索引擎[J];微电子学与计算机;2006年03期
9 强彦;谢红薇;;基于Web数据的本体概念抽取[J];电脑开发与应用;2007年11期
10 宋宣辰;刘贵全;;基于主题概念抽取的多文档文摘方法[J];计算机工程;2010年04期
中国重要会议论文全文数据库 前10条
1 邱艳霞;余正涛;张志坤;司圣涛;韩露;孟祥燕;;领域术语自动抽取方法研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 岳昆;李劲;石磐;刘惟一;;基于语义的Web服务主题自动抽取[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 胡东东;孟小峰;;一种基于树结构的Web数据自动抽取方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 王海雄;郭剑毅;余正涛;毛存礼;张朝胜;雷春雅;;基于CRFs的中文领域术语自动抽取研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 王栋;盛玉麒;;汉语否定极项(NPI)自动抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 聂志强;李庆忠;;电子政务信息集成中本体的自动抽取及优化[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 代劲;何中市;;基于云模型的快速信息粒化算法[A];第五届全国信息检索学术会议论文集[C];2009年
8 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 肖诗斌;乔春庚;李渝勤;施水才;;基于未标注语料的领域词汇自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 李超;王会珍;朱慕华;张俐;朱靖波;;基于领域类别信息C-value的多词串自动抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前10条
1 本报记者 何飞 通讯员 林斓韬;清远落实“一网考”和“三挂钩”严把奖惩关[N];人民公安报;2010年
2 记者 许多;瑞安“三环”智能型湿巾包装机推向市场[N];中国包装报;2005年
3 ;潍坊专家抽取杜绝人为干扰[N];政府采购信息报;2006年
4 文心;不要光治标不治本[N];政府采购信息报;2007年
5 王炳良;进场交易 规范运行[N];中国纪检监察报;2008年
6 江苏省淮安市政府采购中心 淮纪妍 孙建英 郑银东;依托科技监控手段确保评审公平公正[N];中国财经报;2009年
7 张厚美 李丹;自动监测站盯住千里嘉陵江[N];中国环境报;2007年
8 张厚美 青兴海 记者 张发政;千里嘉陵江第一“眼”实时监控川陕界水质[N];广元日报;2007年
9 刘林记者 欧维佳;搬“家”前 先过环保检查关[N];南充日报;2007年
10 沈俊霖;我市有形建筑市场“蛋糕”越做越大[N];青岛日报;2008年
中国博士学位论文全文数据库 前10条
1 周子力;基于WordNet的本体构建及其在安全领域应用关键技术研究[D];华东师范大学;2009年
2 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
3 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 李卫;领域知识的获取[D];北京邮电大学;2008年
6 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
7 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
9 金锋;文档摘要算法的研究与应用[D];清华大学;2011年
10 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
2 关键;面向中文文本本体学习概念抽取的研究[D];吉林大学;2010年
3 朱鑫;词语搭配自动抽取方法对比研究[D];大连海事大学;2011年
4 李姗;面向术语自动抽取的英语词汇形态特征分析[D];大连海事大学;2012年
5 张华楠;基于动态权值的多策略维文本体概念自动抽取[D];新疆大学;2013年
6 孙蝉娟;航空器及其安全领域术语定义的自动抽取[D];南京航空航天大学;2010年
7 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
8 康琪;基于Bootstrapping的领域知识自动抽取技术的研究[D];山东大学;2012年
9 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
10 谢彩云;基于法律领域的本体学习方法的研究与应用[D];南昌大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026