收藏本站
《南京理工大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于领域本体的汉语共指消解及相关技术研究

史树敏  
【摘要】: 共指是自然语言篇章和对话中普遍存在的现象。共指使篇章主题更加突出,表述更加连贯与简洁;但它也给自然语言处理带来了不确定性。共指消解是消除这种指代形式带来的不确定性的过程。随着基于篇章真实文本处理需求的大量涌现,共指消解显示出了前所未有的重要性,成为自然语言处理领域的研究热点。 本文旨在围绕汉语共指消解及相关命名实体识别任务,考察领域本体对其提供具体支持的方式与作用,并结合机器学习方法进行验证。本文研究侧重于方法论探索与实证分析相结合的路线,提出了一套基于领域本体结合机器学习模型的方法,主要工作如下: 1.提出了一种构建领域本体的TPSU方法,该方法将本体构建分成两个阶段,六个处理层次。在具体生成本体过程中,提出了TMR三模型化准则,有效解决了单一树型上下位结构向多元网状关系结构的过渡问题,通过创建实例,丰富和完善了领域本体的知识结构。上述方法与原则具体直观,可以运用于其他同类本体构建,操作性强。 2.构建了一个包含12类核心概念、78种属性特征、13种概念、属性关系、4,392条实例的移动电话领域本体MPO。目前尚无此类本体文库。MPO中大多数核心概念可以直接复用,具有推广和实用价值,有效发挥了本体知识可共享的特性。 3.将命名实体分成常规实体和领域实体(DNE)两类。在领域命名实体识别(DNER)中,重点考察了领域本体对汉语命名实体识别的支持方式,提出了一种基于领域本体形式化实例获取词性规则模板的方法,结合统计机器学习模型有效实现了领域命名实体的识别,F值达到92.36%。对比实验也表明上述模板能够有效提高识别准确率且性能稳定,在领域实体边界和特殊形式实体识别中作用明显。 4.探讨了领域本体对汉语共指消解的作用,提出了一种基于领域本体获取语义类特征的方法,通过特征的自动标注,获取作为候选先行语的名词短语的语义类特征,结合机器学习方法进行领域命名实体基础上的共指消解处理,F值达到86.49%。实验表明领域语义类特征有效提高了共指消解准确性指标,使F值最终提高了7.36%。 5.针对目前汉语零形回指研究主要集中在语言学和心理学角度的现状,立足于本文现有成果,提出了一种包含三个具有实际操作性算法的汉语零形共指消解模型。在定义的共指片断内部,通过将零形代词先行语识别出来,填补到缺省位置,完成零形共指消解。
【关键词】:共指消解 命名实体识别 领域本体 本体实例词性模板 领域语义类特征 机器学习 零形共指
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-12
  • 1 绪论12-32
  • 1.1 概述12-15
  • 1.1.1 指代与共指的含义12-13
  • 1.1.2 指代与共指的分类13-14
  • 1.1.3 指代消解与共指消解14-15
  • 1.2 共指消解研究意义15-16
  • 1.3 共指消解研究现状16-29
  • 1.3.1 国内外研究现状16-23
  • 1.3.2 基本研究方法及分析23-28
  • 1.3.3 共指消解技术分析及展望28-29
  • 1.4 本文研究工作29-31
  • 1.4.1 主要研究目标29-30
  • 1.4.2 主要研究成果30-31
  • 1.5 本文组织31-32
  • 2 本体概述32-48
  • 2.1 本体基本问题32-35
  • 2.1.1 本体定义32-33
  • 2.1.2 本体分类33-34
  • 2.1.3 本体基本特征34
  • 2.1.4 本体与一般术语的区别34-35
  • 2.2 领域本体定义及构建35-36
  • 2.2.1 描述性定义35-36
  • 2.2.2 形式化定义36
  • 2.2.3 构建原则36
  • 2.3 本体主要技术方法36-38
  • 2.3.1 本体表示语言36-37
  • 2.3.2 本体构建工具与开发环境37-38
  • 2.4 本体研究意义38-40
  • 2.5 本体研究现状40-46
  • 2.5.1 国内外研究情况40-41
  • 2.5.2 国内外重要的本体系统41-44
  • 2.5.3 基于本体的自然语言处理研究44-46
  • 2.6 本体研究中存在的困难与总体评价46-47
  • 2.6.1 构建本体存在的困难46-47
  • 2.6.2 总体评价47
  • 2.7 本章小结47-48
  • 3 移动电话本体MPO(Mobile Phone Ontology)构建48-68
  • 3.1 构建意义48
  • 3.2 构建原则48
  • 3.3 构建工具的选择48-50
  • 3.3.1 使用开发工具的优点48-49
  • 3.3.2 Protégé简介49-50
  • 3.4 构建方法50-59
  • 3.4.1 常见的本体构建方法50-52
  • 3.4.2 本文采用的方法52-59
  • 3.5 MPO构建步骤与流程59-67
  • 3.5.1 命名问题59
  • 3.5.2 分类模型确定59-60
  • 3.5.3 核心概念确定60-61
  • 3.5.4 属性概念确定61-62
  • 3.5.5 特征模型确定62
  • 3.5.6 概念关系模型确定62-64
  • 3.5.7 属性分面(facets)确定64-65
  • 3.5.8 实例创建65
  • 3.5.9 领域本体表述形式化65-66
  • 3.5.10 生成领域本体分析66-67
  • 3.6 本章小结67-68
  • 4 基于领域本体的汉语命名实体识别68-88
  • 4.1 基本概念68
  • 4.2 相关研究68-69
  • 4.3 问题形式化描述69
  • 4.4 命名实体识别机器学习算法69-72
  • 4.4.1 条件随机域定义70-71
  • 4.4.2 CRFs的参数估计71
  • 4.4.3 CRFs的矩阵描述和计算71
  • 4.4.4 模型训练中的动态规划71-72
  • 4.5 汉语命名实体识别研究72-75
  • 4.5.1 命名实体类型72
  • 4.5.2 建模粒度选择72-73
  • 4.5.3 标注集确定73-74
  • 4.5.4 语料问题74
  • 4.5.5 评测标准74-75
  • 4.6 常规命名实体识别75-81
  • 4.6.1 人名、地名实体识别75-78
  • 4.6.2 组织机构名实体识别78
  • 4.6.3 实验78-81
  • 4.7 领域命名实体识别DNER(Domain Named Entity Recognition)81-87
  • 4.7.1 语料处理81-82
  • 4.7.2 特征选择82-83
  • 4.7.3 基于CRFs的DNER83-84
  • 4.7.4 基于领域本体的词性规则模板生成84-85
  • 4.7.5 结合规则模板的DNER处理流程85-86
  • 4.7.6 实验86-87
  • 4.8 本章小结87-88
  • 5 基于领域本体的汉语共指消解88-114
  • 5.1 本章研究的问题域88
  • 5.2 共指消解评测算法88-95
  • 5.2.1 MUC评测算法89-90
  • 5.2.2 B-CUBE算法90-91
  • 5.2.3 ACE评测算法91-92
  • 5.2.4 CEAF评测算法92-94
  • 5.2.5 评测算法小结94-95
  • 5.3 汉语共指消解机器学习算法研究95-99
  • 5.3.1 概述95
  • 5.3.2 决策树算法95-99
  • 5.4 基于领域本体的共指消解研究99-112
  • 5.4.1 实验语料的标注问题99-100
  • 5.4.2 汉语DNE共指消解流程100-101
  • 5.4.3 名词短语语义类生成101-102
  • 5.4.4 特征向量生成102-106
  • 5.4.5 实验106-108
  • 5.4.6 汉语零型共指问题研究108-112
  • 5.5 本章小结112-114
  • 6 结束语114-116
  • 6.1 全文总结114-115
  • 6.2 下一步工作115-116
  • 致谢116-117
  • 参考文献117-127
  • 附录127

【参考文献】
中国期刊全文数据库 前10条
1 高济;基于表示本体论的智能系统开发[J];计算机研究与发展;1996年11期
2 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
3 钟凌燕,高济;一种基于UML的本体论建模方法[J];计算机工程;2003年02期
4 王凌飞,张玉敏,李堂秋;汉英机译系统中指代的确定 [J];计算机应用研究;2000年09期
5 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
6 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
7 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
8 刘礼进;;中心理论和回指解析计算法[J];外语学刊;2005年06期
9 王厚峰,梅铮;鲁棒性的汉语人称代词消解[J];软件学报;2005年05期
10 张 威,周昌乐;汉语语篇理解中元指代消解初步[J];软件学报;2002年04期
中国重要会议论文全文数据库 前2条
1 侯敏;孙建军;;面向汉英机器翻译的句组研究[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
2 史晓东;陈毅东;;基于语篇的机器翻译前瞻[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前2条
1 李飒;基于GATE的中文信息抽取系统的开发和实现[D];中国科学院研究生院(文献情报中心);2006年
2 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
2 徐通锵;思维方式与语法研究的方法论[J];北京大学学报(哲学社会科学版);2004年01期
3 王晓红,高洪深;数据挖掘技术在大型超市中的应用研究[J];北方工业大学学报;2003年03期
4 朱宏武,蔡勇,刘自伟;数据库中基于粗糙集的分类和约简[J];兵工自动化;2003年05期
5 王志庚,郝守真;网络文献保存的实践和课题[J];国家图书馆学刊;2004年02期
6 胡思康;曹元大;;Web网页知识获取技术[J];北京理工大学学报;2006年12期
7 王智强;李蕾;王枞;;基于决策树的汉语代词共指消解[J];北京邮电大学学报;2006年04期
8 邢清清;从语言感知理论看英语听力教学中的羡余信息[J];北京理工大学学报(社会科学版);2003年S1期
9 韩旭,叶云屏;科普语类的及物性分析[J];北京理工大学学报(社会科学版);2004年S1期
10 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
中国重要会议论文全文数据库 前10条
1 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
2 张相明;雍和明;;题元理论与英汉词典动词句法处理[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
3 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
4 刘培培;李连;丛海鹏;谢勇;;基于多代理协商机制的任务调度系统研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
5 杨蕊;;法律条文与商业网站广告的功能语法对比分析[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
6 杜治国;;英语动词派生名词的前缀发音规则过度概括的实证分析和规律总结[A];福建省外国语文学会2006年年会暨学术研讨会论文集(上)[C];2006年
7 徐佳;;汉译英时政语篇中的动词名词化[A];福建省外国语文学会2006年年会暨学术研讨会论文集(上)[C];2006年
8 王治敏;俞士汶;;人称代词和名词的歧义消解研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
10 徐怡;余斌;李龙澍;;粗糙集在决策树生成中的应用[A];2005中国控制与决策学术年会论文集(下)[C];2005年
中国博士学位论文全文数据库 前10条
1 张英朝;基于全局视图的虚拟组织信息共享方法与应用研究[D];国防科学技术大学;2004年
2 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
3 周明建;基于本体的开放式知识管理研究[D];浙江大学;2004年
4 魏立梅;聚类分析新方法的研究与应用[D];西安电子科技大学;1998年
5 董建华;面向大规模定制生产模式的产品设计技术研究[D];大连理工大学;2000年
6 王寅;化工过程混合建模问题研究[D];浙江大学;2001年
7 刘志;基于逻辑情景演算的虚拟企业过程建模研究[D];浙江大学;2001年
8 许志兴;粗集理论的若干技术及其应用研究[D];南京航空航天大学;2001年
9 杨兵;人—机交互中手绘图形的联机识别方法研究[D];西安电子科技大学;2001年
10 姚俊峰;人工智能与混沌理论在铜锍吹炼炉实时仿真与优化决策中的应用研究[D];中南大学;2001年
中国硕士学位论文全文数据库 前10条
1 李智;基于树结构的网页数据自动抽取方法的研究与实现[D];吉林大学;2005年
2 张玉良;一种基于后缀树的包装器自动生成方法的研究[D];吉林大学;2005年
3 全海金;基于用户行为及语义相关实时更新的用户兴趣模型[D];西南师范大学;2005年
4 姜华;基于本体的智能答疑系统研究[D];山东科技大学;2005年
5 徐天任;Web本体语言与语义网络语言的知识表示及其转换的研究[D];云南师范大学;2005年
6 汤赛丽;常识知识问答系统中知识库构建的研究与设计[D];河南大学;2005年
7 葛强;亲属关系逻辑推理专家系统的研究[D];河南大学;2005年
8 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
9 陈晋进;基于本体论的个性化信息服务的研究[D];湘潭大学;2005年
10 刘艳青;基于Web的个性化信息检索研究[D];山东大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 王智强;李蕾;王枞;;基于决策树的汉语代词共指消解[J];北京邮电大学学报;2006年04期
2 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
3 张黎;汉语名词数范畴的表现方式[J];汉语学习;2003年05期
4 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
5 邓志鸿,唐世渭,杨冬青;基于本体的多Agent分布式数字图书馆资源信息发现服务模型之研究[J];计算机工程;2002年06期
6 金芝;基于本体的需求自动获取[J];计算机学报;2000年05期
7 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
8 邓勇,刘琪,施文康;条件事件代数研究综述[J];计算机学报;2003年06期
9 杨秋芬,陈跃新;Ontology方法学综述[J];计算机应用研究;2002年04期
10 杨小花;杨宗凯;吴砥;;基于XML数据库的标准化教育资源内容服务系统的设计与实现[J];计算机应用研究;2006年09期
中国重要会议论文全文数据库 前1条
1 苏祺;孙斌;;面向观点挖掘的产品评价特征词识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前6条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 程勇;基于本体的不确定性知识管理研究[D];中国科学院研究生院(计算技术研究所);2005年
3 王勇;WEB数据挖掘研究[D];西北工业大学;2006年
4 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
5 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
6 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
中国硕士学位论文全文数据库 前10条
1 王丽;基于学习对象的标准化网络课程的研究和设计[D];北京交通大学;2006年
2 郑任儿;基于本体的语义检索技术研究[D];华东师范大学;2007年
3 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
4 刘建军;基于ontology的股票信息抽取系统的研究与实现[D];电子科技大学;2005年
5 冯茜;面向信息抽取的ontology设计与实现[D];电子科技大学;2005年
6 王鹏;基于本体的知识发现系统的研究与设计[D];东北大学;2005年
7 陈建;领域本体的创建和应用研究[D];对外经济贸易大学;2006年
8 马腾;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2006年
9 秦嘉伟;基于本体的信息检索方法研究[D];上海交通大学;2007年
10 汪晨;基于本体的信息检索系统研究[D];合肥工业大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
2 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
3 苗兴伟;语篇向心理论述评[J];当代语言学;2003年02期
4 高济,林东豪;基于Agent技术的虚拟组织集成框架IFVO[J];计算机研究与发展;1999年12期
5 高济;基于表示本体论的智能系统开发[J];计算机研究与发展;1996年11期
6 刘海军,黄河燕,陈肇雄;智能机器翻译系统中的语境处理[J];计算机研究与发展;1998年04期
7 金芝;基于本体的需求自动获取[J];计算机学报;2000年05期
8 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
9 王凌飞,张玉敏,李堂秋;汉英机译系统中指代的确定 [J];计算机应用研究;2000年09期
10 尤文建,李绍滋,李堂秋;基于词汇链的文本过滤模型[J];计算机应用研究;2003年09期
中国重要会议论文全文数据库 前2条
1 张智雄;;数字图书馆中知识技术的研究和应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
2 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
2 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
3 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
4 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
5 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
6 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
7 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
8 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
9 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
10 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
8 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
5 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
6 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
7 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
8 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
9 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
10 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026