收藏本站
《国防科学技术大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

装备发展战略研究信息化平台中汉语文本信息提取技术的研究

庄明  
【摘要】:在装备发展战略研究中需要及时掌握国外在装备的研究、开发、制造、使用、维护和更新换代等方面的现实情况以及装备自身的技术性能特点,并从这些信息中发现外军装备发展方面的趋势和特点。因此,如何及时、快速地从大量文档中提取结构化的装备信息,并从其中发现隐含的知识是装备发展战略研究中必须解决的问题。 作为一种从普通文本中自动获取结构化信息的技术,文本信息提取在国内外受到越来越多的重视。它充分利用了现有的句法分析理论和技术,旨在获取指定类型的信息,因而它不需要对语言进行完全的分析,从而避免了文本理解所面临的困难,是一项具有现实可操作性的技术。本文围绕从半结构化的汉语文本中自动提取装备相关信息这一问题,结合装备发展战略研究的实际需要,对文本信息提取技术中的命名实体发现技术和文本结构化技术进行了较深入的研究。 本文的主要工作在于: 1、研究了基于统计的命名实体发现方法,对已有的N-gram统计方法和自增长模式统计方法进行了改进,主要对自增长模式的特点进行了详细分析,并利用词性信息对统计结果进行筛选,提高了命名实体发现的准确率; 2、研究了基于规则的文本结构化(实体关系提取)方法,对规则库的建设、规则的分类、二元实体关系的提取方法进行了实验研究,建立了一个较好的文本结构化框架; 3、利用上述两种技术,设计并实现了一个规则可扩展的文本信息提取子系统。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:E91

【参考文献】
中国期刊全文数据库 前10条
1 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
2 李素建,刘群,白硕;统计和规则相结合的汉语组块分析[J];计算机研究与发展;2002年04期
3 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
4 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
6 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
7 赵军,黄昌宁;汉语基本名词短语结构分析模型[J];计算机学报;1999年02期
8 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
9 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
10 周正宇,李宗葛;一种新的基于统计的词典扩展方法[J];中文信息学报;2001年05期
【共引文献】
中国期刊全文数据库 前10条
1 孙邦金,申定宝;传统走向现代的语言之路——从伽达默尔的《真理与方法》谈起[J];安徽电力职工大学学报;2001年03期
2 王倩;从复合句零主语指代看汉英语言思维的差异[J];安徽大学学报;2005年05期
3 潘景昌,许中卫;结合同义词的Web搜索匹配算法初探[J];安徽大学学报(自然科学版);2003年03期
4 王美华;;词汇化形成的虚词与非词形式在共时平面的体现——以“有点儿”和“可见”为例[J];安康学院学报;2011年05期
5 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
6 朱晓喆;;自然人的隐喻——对我国民法中“自然人”一词的语言研究[J];北大法律评论;2001年02期
7 陈保亚;;论意义的两个来源和语言哲学的任务——从语言游戏规则和单位的还原说起[J];北京大学学报(哲学社会科学版);2006年01期
8 张晶;陶文鹏;;中国古典诗词的神秘之美[J];北京大学学报(哲学社会科学版);2011年03期
9 罗松涛;由诗之言到说之语——从海德格尔对荷尔德林诗之阐释看其语言之思[J];北方论丛;2005年02期
10 王智杰;;“似的”研究综述[J];北方论丛;2006年04期
中国重要会议论文全文数据库 前10条
1 王宏生;孙美玲;李家峰;;隐马尔科夫模型在构建语言模型中的应用[A];创新沈阳文集(A)[C];2009年
2 万菁;姬东鸿;任函;冯文贺;;汉语复合名词短语特征结构的标注研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 隋岩;张普;;基于动态流通语料库的“动态词典”编纂[A];中国辞书论集2000[C];2000年
4 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
5 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
6 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
7 李优;;支持向量机在组块识别中的应用[A];第八届中国青年运筹信息管理学者大会论文集[C];2006年
8 付国宏;王晓龙;龚永红;;基于词形的汉语文本切分方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年
9 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
10 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 武克勤;英伽登文学本体论思想研究[D];苏州大学;2010年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
6 方清明;现代汉语名名复合形式的认知语义研究[D];暨南大学;2011年
7 潘汝;英格玛·伯格曼电影的宗教情怀与艺术魅力探究[D];华东师范大学;2011年
8 李雪梅;中国现代小说的音乐性研究[D];华东师范大学;2011年
9 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
10 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
中国硕士学位论文全文数据库 前10条
1 林琳;“代词+(的)+名词”结构中“的”字隐现研究[D];上海外国语大学;2010年
2 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
3 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
4 杨佳;浅析《训世评话》中的兼语句[D];辽宁师范大学;2010年
5 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
6 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
7 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
8 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
9 杨红颖;基于多Agent技术的智能化网络教学系统研究与设计[D];大连海事大学;2010年
10 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王伟;“修辞结构理论”评介(上)[J];国外语言学;1994年04期
2 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
3 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
4 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
5 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
6 周强,黄昌宁;汉语概率型上下文无关语法的自动推导[J];计算机学报;1998年05期
7 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
8 关英春 ,秦蓓;汉语文字自动统计系统CWSS[J];中文信息学报;1986年01期
9 揭春雨;“信息处理用现代汉语分词规范”的若干问题探讨[J];中文信息学报;1989年04期
10 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
【相似文献】
中国期刊全文数据库 前10条
1 潘正高;侯传宇;谈成访;;基于命名实体的Web新闻文本分类方法[J];合肥工业大学学报(自然科学版);2011年08期
2 王睿,张洁,张由仪,于禛,姚天昉;基于混合模型的中文命名实体抽取系统[J];清华大学学报(自然科学版);2005年S1期
3 段利国;陈俊杰;牛彦清;;一种融合多种语义特征的中文问题分类方法[J];太原理工大学学报;2011年05期
4 陈穷;美国军用标准的增长模式及相关分析[J];航空标准化与质量;1987年06期
5 向志衡;王小华;;云南经济增长模式的选择[J];中小企业科技;2007年08期
6 徐佩华;;探索改善收入分配的经济增长模式[J];华东交通大学学报;2006年03期
7 马银波;公路运量长期预测的质量与模型[J];西安公路交通大学学报;2000年03期
8 罗名海;;武汉市城市地区发展预测与比较研究[J];华中科技大学学报(城市科学版);2006年01期
9 肖钢;;新的能源增长模式[J];中国石油企业;2010年07期
10 钟海见;;技术机构三种经济创收增长模式剖析[J];中国计量;2007年10期
中国重要会议论文全文数据库 前10条
1 谭立群;;河北省传统产业的新增长模式——美国次贷危机后的思考[A];全国高等财经院校《资本论》研究会2010年学术年第27届学术年会论文集[C];2010年
2 罗维;吉宗诚;吕雅娟;刘群;;一种改进词语对齐的新方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 钱小飞;侯敏;;中文基本地名识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 段娅;;论社会学批评的人本主义——评析戈德曼和齐马对社会学批评的发展[A];福建省外国语文学会2008年年会论文集[C];2008年
7 王孜弘;;中国增长模式与中美经贸关系——在华美资运作风险浅析[A];全国美国经济学会第八届会员代表大会论文集[C];2007年
8 李玉梅;陈晓;姜自霞;靳光瑾;易江燕;黄昌宁;;分词规范亟需补充的三方面内容[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 于涛;;营销型城市可持续发展模式构建研究[A];生态文明视角下的城乡规划——2008中国城市规划年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 本报评论员 欧阳觅剑;区域增长模式不能轻言转换[N];21世纪经济报道;2006年
2 本报评论员 唐学鹏;资源的诅咒[N];21世纪经济报道;2006年
3 陈文仙 刘国远 王江;转变增长模式是明智之举[N];中国国门时报;2010年
4 苏振兴 中国社会科学院学部委员 中国拉丁美洲学会会长;挫折中学习 危机后崛起[N];中国社会科学报;2011年
5 本报记者 孙国瑞;坐地生财增长模式行不通了[N];中国国土资源报;2008年
6 本报记者 张珺 ;电信企业应向创新型与效益型增长模式转变[N];通信信息报;2004年
7 本报记者 邓红辉;中国将加速转变增长模式[N];南方日报;2006年
8 记者 陈鹤 高钱彤;胡锦涛:切实改变不可持续的增长模式[N];新华每日电讯;2008年
9 徐寒梅整理;吴敬琏详解增长模式之变[N];财经时报;2005年
10 孙立平;转变增长模式关键在哪里[N];浙江日报;2005年
中国博士学位论文全文数据库 前10条
1 刘晓江;基于统计滚雪球模型的知识挖掘理论与方法[D];中国科学技术大学;2011年
2 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
3 刘慧;信息检索中用户需求的概念分析研究[D];上海交通大学;2009年
4 温有奎;基于语义挖掘的文本知识元模型与应用研究[D];武汉大学;2010年
5 刘生良;《庄子》文学研究[D];陕西师范大学;2003年
6 施炳展;出口增长模式及其对经济增长模式的影响:跨国实证分析[D];南开大学;2009年
7 荚济民;基于互联网数据集的图像标注技术研究[D];中国科学技术大学;2009年
8 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
9 钱纪芳;和合翻译观照下的服装文字语言翻译[D];上海外国语大学;2008年
10 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
中国硕士学位论文全文数据库 前10条
1 庄明;装备发展战略研究信息化平台中汉语文本信息提取技术的研究[D];国防科学技术大学;2003年
2 杜俊武;基于点击数据和搜索结果片断的命名实体挖掘[D];北京理工大学;2011年
3 李海光;基于位置和语义特征的中文命名实体关系抽取研究[D];合肥工业大学;2011年
4 林伟贇;基于海量网页的同类命名实体共现统计规律的研究[D];北京工业大学;2011年
5 徐秋妍;基于CRF的命名实体和关系的联合抽取[D];上海交通大学;2012年
6 王鹏;从可比较语料中抽取中英命名实体等价对[D];大连理工大学;2011年
7 马民艳;基于分类器融合的生物医学命名实体与关系识别研究[D];东北石油大学;2011年
8 郑宏;汉英双向时间数字和数量词的识别与翻译技术[D];哈尔滨工业大学;2011年
9 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
10 柴松;基于K-means的网络话题自动检测技术研究[D];中国石油大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026