期刊库|学位论文库|会议论文库|飞度BOOK|站内搜索注册|充值中心|购买知网卡|送卡上门|帮助中心|
全文文献: “飞度BOOK”首届期刊庙会开幕啦!
做个飞度客,万千杂志,想看就看!
《国防科学技术大学》 2003年
加入收藏 获取最新

装备发展战略研究信息化平台中汉语文本信息提取技术的研究

庄明  
【摘要】:在装备发展战略研究中需要及时掌握国外在装备的研究、开发、制造、使用、维护和更新换代等方面的现实情况以及装备自身的技术性能特点,并从这些信息中发现外军装备发展方面的趋势和特点。因此,如何及时、快速地从大量文档中提取结构化的装备信息,并从其中发现隐含的知识是装备发展战略研究中必须解决的问题。 作为一种从普通文本中自动获取结构化信息的技术,文本信息提取在国内外受到越来越多的重视。它充分利用了现有的句法分析理论和技术,旨在获取指定类型的信息,因而它不需要对语言进行完全的分析,从而避免了文本理解所面临的困难,是一项具有现实可操作性的技术。本文围绕从半结构化的汉语文本中自动提取装备相关信息这一问题,结合装备发展战略研究的实际需要,对文本信息提取技术中的命名实体发现技术和文本结构化技术进行了较深入的研究。 本文的主要工作在于: 1、研究了基于统计的命名实体发现方法,对已有的N-gram统计方法和自增长模式统计方法进行了改进,主要对自增长模式的特点进行了详细分析,并利用词性信息对统计结果进行筛选,提高了命名实体发现的准确率; 2、研究了基于规则的文本结构化(实体关系提取)方法,对规则库的建设、规则的分类、二元实体关系的提取方法进行了实验研究,建立了一个较好的文本结构化框架; 3、利用上述两种技术,设计并实现了一个规则可扩展的文本信息提取子系统。
【关键词】:命名实体发现 N-gram统计 自增长模式统计 文本结构化
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:E91
【DOI】:CNKI:CDMD:2.2005.014207
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 绪论9-14
  • 1.1 研究背景9-10
  • 1.2 国内外研究现状10-12
  • 1.3 本文研究的主要内容与论文结构12-14
  • 1.3.1 本文研究的主要内容12-13
  • 1.3.2 论文结构13-14
  • 第二章 装备发展战略研究信息化平台与信息提取14-18
  • 2.1 装备发展战略研究信息化平台的体系结构14-15
  • 2.2 信息提取技术介绍15-18
  • 第三章 基于统计的命名实体发现方法18-35
  • 3.1 文本统计分析方法简介18-21
  • 3.1.1 统计方法的理论基础18-19
  • 3.1.2 N-gram统计方法19-20
  • 3.1.3 自增长模式统计方法20-21
  • 3.2 统计和词性相结合的命名实体发现方法概述21-22
  • 3.3 文本预处理22-26
  • 3.3.1 特征字的选取23
  • 3.3.2 规则库的描述格式23-24
  • 3.3.3 基于规则的特征字触发切分算法介绍24-25
  • 3.3.4 实验结果25-26
  • 3.4 改进后的自增长模式统计方法26-32
  • 3.4.1 汉字自增长模式生成算法26-28
  • 3.4.2 自增长模式的特点分析28-31
  • 3.4.3 自增长模式的筛选31-32
  • 3.5 加入消减处理的N-gram统计方法32-35
  • 3.5.1 1-gram项和2-gram项的生成32-33
  • 3.5.2 3-gram项的生成及2-gram项的消减33
  • 3.5.3 4-gram项的生成及3-gram项的消减33-34
  • 3.5.4 实验结果34-35
  • 第四章 基于规则的文本结构化方法35-41
  • 4.1 基于规则的文本结构化方法概述35-37
  • 4.2 规则的获取37
  • 4.3 规则库的结构37-39
  • 4.4 文本结构化处理方法39-40
  • 4.5 实验结果40-41
  • 第五章 信息提取子系统的设计与实现41-46
  • 5.1 信息提取子系统的设计41-44
  • 5.1.1 装备发展战略研究信息化平台的设计41-42
  • 5.1.2 信息提取子系统的设计42
  • 5.1.3 系统的界面设计42-43
  • 5.1.4 算法设计43-44
  • 5.2 信息提取子系统的实现44-46
  • 第六章 结论46-48
  • 6.1 本文的主要工作46
  • 6.2 今后的工作46-48
  • 致谢48-49
  • 参考文献表49-51
  • 附录1 自增长模式的模板集(3-8字)51-52
  • 附录2 北大汉语文本词性标注标记集52-54
  • 附录3 作者发表的论文54
全文下载: CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【参考文献】
中国期刊全文数据库 前2条
1 周强,孙茂松,黄昌宁;汉语最长名词短语的自动识别[J];软件学报;2000年02期
2 张益民,陆汝占,沈李斌;一种混合型的汉语篇章结构自动分析方法[J];软件学报;2000年11期
【共引文献】
中国期刊全文数据库 前10条
1 刘俊香;光的启示——谈“能被理解的存在是语言”[J];安徽大学学报(哲学社会科学版);2003年04期
2 过常宝;“春秋笔法”与古代史官的话语权力[J];北京师范大学学报(社会科学版);2003年04期
3 黄凯旋;;存在的追问及其困境——海德格尔基础存在论的核心问题探析[J];广东社会科学;2008年03期
4 陈保亚;;论意义的两个来源和语言哲学的任务——从语言游戏规则和单位的还原说起[J];北京大学学报(哲学社会科学版);2006年01期
5 潘景昌,许中卫;结合同义词的Web搜索匹配算法初探[J];安徽大学学报(自然科学版);2003年03期
6 何振华;;一种处理垃圾邮件的新方法[J];福建电脑;2008年03期
7 康玉梅;浅议中国传统言意观及西方语言哲学的融通[J];贵州民族学院学报(哲学社会科学版);2004年02期
8 林庆家;海德格尔的语言观及其现代意义[J];福建外语;2001年04期
9 向宝云;论注意力批评[J];当代文坛;2003年04期
10 王虹,张仰森;基于词二元接续的中文文本自动查错研究[J];贵州大学学报(自然科学版);2001年01期
中国重要会议论文全文数据库 前10条
1 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
2 付国宏;王晓龙;龚永红;;基于词形的汉语文本切分方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年
3 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 陶建华;董宏辉;;韵律短语的语法约束研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 郎君;刘挺;李生;张会鹏;;基于XML的开放式语言技术平台:LTP[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
7 张仰森;曹元大;;最大熵建模方法中一种改进的特征选择算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 郑泽之;;中文自动分词的一些问题[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 王思力;王斌;;基于双字耦合度的中文分词交叉歧义处理方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 罗雪兵;黄德根;周惠巍;李丽双;;基于组合方法的组块识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
2 李凯;孟子的诠释思想[D];山东大学;2008年
3 陈博;大规模网络资源消耗型攻击的检测和防范方法研究[D];哈尔滨工业大学;2007年
4 张奎志;西方思想史中诗与哲学的论争与融合[D];黑龙江大学;2007年
5 钟小勇;重动句信息结构研究[D];复旦大学;2008年
6 田义勇;中国文论体系建构的观念奠基[D];复旦大学;2008年
7 任华东;海德格尔诗化语言观研究[D];复旦大学;2008年
8 戴祖旭;文本载体信息隐藏研究[D];华中科技大学;2007年
9 付丹;从中国现代文学语言的三次转型看文学语言的发展模式[D];华中科技大学;2007年
10 游俊;面向知识发现的神经信息文献系统的设计与初步实现[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 郑海波;Deep Web查询结果自动抽取[D];吉林大学;2009年
2 陈景;个性化作文教学研究[D];福建师范大学;2008年
3 张兰兰;不同语法知识掌握水平对中文词切分的影响[D];天津师范大学;2009年
4 颜军;基于条件随机场的中文分词研究与应用[D];武汉理工大学;2009年
5 郭银蕊;基于遗传算法的Web信息抽取技术[D];大连海事大学;2009年
6 程斐;意识形态幻象[D];苏州大学;2009年
7 李凌静;理解“行动”[D];苏州大学;2009年
8 蒋建慧;文本主题段落内部概念关系抽取技术研究[D];上海交通大学;2009年
9 李灿;生命空间的开拓[D];曲阜师范大学;2009年
10 张娜;面向产品设计的领域自动建模方法的研究与实现[D];西安电子科技大学;2008年
【二级参考文献】
中国期刊全文数据库 前5条
1 王伟;“修辞结构理论”评介(上)[J];当代语言学;1994年04期
2 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
3 付国宏,王晓龙;基于词形的汉语文本切分方法[J];情报学报;1999年03期
4 周强,孙茂松,黄昌宁;汉语最长名词短语的自动识别[J];软件学报;2000年02期
5 张卫国;三种定语、三类意义及三个槽位[J];中国人民大学学报;1996年04期
【相似文献】
中国期刊全文数据库 前10条
1 王睿,张洁,张由仪,于禛,姚天昉;基于混合模型的中文命名实体抽取系统[J];清华大学学报(自然科学版);2005年S1期
2 陈穷;美国军用标准的增长模式及相关分析[J];航空标准化与质量;1987年06期
3 向志衡;王小华;;云南经济增长模式的选择[J];中小企业科技;2007年08期
4 徐佩华;;探索改善收入分配的经济增长模式[J];华东交通大学学报;2006年03期
5 罗名海;;武汉市城市地区发展预测与比较研究[J];华中科技大学学报(城市科学版);2006年01期
6 马银波;公路运量长期预测的质量与模型[J];西安公路交通大学学报;2000年03期
7 李丽萍;《美国大城市地区最新增长模式》[J];国外城市规划;1997年02期
8 吴岩,李秀坤,王开铸;文章意义段划分的数学模型[J];哈尔滨工业大学学报;1998年06期
9 苗青,白玲,曲鹏飞;符合区域经济增长模式的现代物流经济的研究[J];物流技术;2004年03期
10 羌卫中;金海;石宣化;邹德清;;基于分布式信任管理机制的网格授权研究[J];华中科技大学学报(自然科学版);2005年12期
中国重要会议论文全文数据库 前10条
1 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 梅自强;;自主创新要着力突破关键技术[A];第十三届全国花式纱线及其织物技术进步研讨会论文集[C];2006年
3 王会珍;朱靖波;陈文亮;季铎;张斌;;基于一元语法模型的中文话题追踪[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 王应云;谭见初;;汉语韵文英译方法论[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
5 田蔚风;金志华;;关于惯性技术人才培养的一点思考[A];2005年惯性技术科技工作者研讨会论文集[C];2005年
6 赵洪珊;;突破OEM:在全球价值链中控制更多的价值[A];2005现代服装纺织高科技发展研讨会论文集[C];2005年
7 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 钱小飞;陈小荷;董宇;何晓丽;;面向大型叙事作品的指人成分识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 刘玲;周经野;罗慧慧;;基于XML的文本规划方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 记者 耿建扩 通讯员 李文辉 焦通;河北永清:打造绿色增长模式[N];光明日报;2009年
2 记者 袁蓉君;美元走软大势所趋 我增长模式调整应有节制[N];金融时报;2009年
3 通讯员 李文辉 记者 解丽达 孙占稳;永清打造绿色增长模式[N];河北日报;2009年
4 安邦咨询公司分析师 徐斌;全球或重回中美失衡增长模式[N];证券时报;2009年
5 通讯员 李文辉 焦通 记者 周玉华 梁梦勋;永清打造“绿色”增长模式[N];河北经济日报;2009年
6 记者 张达 贾壮;专家:促进消费为主驱动的增长模式[N];证券时报;2008年
7 全国政协委员 吴敬琏;转变增长模式是避免我国工业化走弯路的关键[N];人民政协报;2005年
8 ;增长模式转型:我们需要转变什么[N];新华日报;2006年
9 中国人民大学经济学教授、博士生导师 李义平;在危机中寻求新的增长模式[N];深圳特区报;2009年
10 胡鞍钢(中国科学院—清华大学国情研究中心主任);实施“以就业为中心”增长模式[N];新华每日电讯;2002年
中国博士学位论文全文数据库 前10条
1 刘生良;《庄子》文学研究[D];陕西师范大学;2003年
2 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
3 樊潇彦;经济增长与中国宏观投资效率研究[D];复旦大学;2005年
4 贾学鸿;《庄子》结构艺术研究[D];华东师范大学;2007年
5 刘桦;基于建设项目的组织群体生态理论与应用研究[D];西安建筑科技大学;2007年
6 江秀明;聚电解质组装多层膜构筑及其表面HRP组装应用基础研究[D];浙江大学;2005年
7 曹禧修;抵达深度的叙述[D];河南大学;2002年
8 黄擎;废墟上的狂欢:“文革文学”的叙述研究[D];浙江大学;2004年
9 刘东玲;文学体制化与作家创作转型[D];复旦大学;2004年
10 王成荣;品牌价值的评价与管理研究[D];华中科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 庄明;装备发展战略研究信息化平台中汉语文本信息提取技术的研究[D];国防科学技术大学;2003年
2 许超;汉英双语网页资源中相同事件文本对的提取[D];南京师范大学;2005年
3 张娴;张洁小说语言音乐美试析[D];延边大学;2004年
4 刘立胜;从读者接受的角度看文学翻译对等[D];重庆大学;2004年
5 吴朝辉;村落意义构成初探[D];浙江大学;2007年
6 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
7 赵玉杰;济南与青岛城市竞争力比较研究[D];山东师范大学;2005年
8 李敏;旅游景点简介翻译的信息重组对比研究[D];广东外语外贸大学;2006年
9 顾艳;基于语料库的大学英语教材中词汇选择与分布的研究[D];大连海事大学;2007年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
关于知网|版权声明|学术会议服务|广告服务|在线咨询
京ICP证040431号互联网出版许可证新出网证(京)字008号北京市公安局海淀分局备案号:110 1081725
订购咨询热线:800-810-6613、010-62985026免费送卡上门
主办:清华大学
数字出版:中国学术期刊电子杂志社
在线发行:同方知网(北京)技术有限公司
关 闭
关 闭
关 闭