收藏本站
《中国科学院研究生院(文献情报中心)》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于GATE的中文信息抽取系统的开发和实现

李飒  
【摘要】:面对网络化、数字化、海量分布、复杂的信息资源,数字图书馆还不能有效地揭示和发现信息之间内在的知识联系。信息抽取技术的出现,使将海量的无结构数据自动转化为有结构信息的过程成为可能。作者在大量技术调研基础上,针对目前国内外信息抽取系统主要针对英文抽取的现状,经过实验分析比较提出了中文信息抽取的解决方案:在 GATE 框架下,开发中文信息抽取插件,其中利用了 ICTCLAS 分词工具。 解决中文信息抽取有 3 个难点,分别是中文分词、中文语料词表和中文命名实体识别。除了利用 ICTCLAS 解决中文分词问题外,作者针对不同领域收集制作了上百兆符合 GATE 格式的中英文语料词表,并针对中文的语言特点撰写了上百条 JAPE 规则来提高中文命名实体识别的准确率。 系统实现后,作者还将基于 GATE 的中文信息抽取系统对 RSS 科技信息聚合系统采集的数据进行了应用:对已经采集到本地的数百条无结构科技新闻进行了信息抽取实验,验证了系统的可用性。 通过实验,我们认为基于 GATE 的中文信息抽取系统是对批量的中文信息抽取、英文信息抽取以及中英文混合信息抽取的一次非常有意义的尝试,初步解决了中英文命名实体识别的问题,并为后续的信息抽取研究打下了良好的基础。
【学位授予单位】:中国科学院研究生院(文献情报中心)
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:G250.76

免费申请
【引证文献】
中国期刊全文数据库 前5条
1 刘金亮;吴芳;孟海江;;智能化垂直搜索系统的构建[J];电脑知识与技术;2010年02期
2 程晨;;使用GATE进行中文命名实体识别的研究[J];福建电脑;2010年08期
3 马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期
4 张雯雯;许鑫;;文本挖掘工具述评[J];图书情报工作;2012年08期
5 陈立娜;;面向制造业的主动搜索平台的研究与实现[J];现代计算机(专业版);2009年02期
中国博士学位论文全文数据库 前1条
1 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
2 朱姗;基于本体的电子产品实体关系抽取研究[D];西安电子科技大学;2011年
3 柴智;基于UIMA的数据库监控文档解析[D];吉林大学;2011年
4 朱媛媛;基于本体的电子商务信息抽取系统研究[D];河北大学;2011年
5 陆洋;基于语义分析的文本挖掘研究[D];浙江工业大学;2012年
6 周慧;基于应急案例本体的信息抽取的研究及应用[D];太原理工大学;2007年
7 杨茶;基于UIMA的内容搜索[D];电子科技大学;2008年
8 王浩然;海洋文献元数据的语义标注技术研究[D];中国海洋大学;2008年
9 袁璐;智能信息检索中基于本体的文本信息抽取的研究与实现[D];沈阳工业大学;2009年
10 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
【参考文献】
中国期刊全文数据库 前3条
1 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
2 张智雄;信息抽取技术及其在数字图书馆中的应用前景分析[J];现代图书情报技术;2004年06期
3 张会娥,张智雄,林颖,李飒;基于RSS的科技信息聚合系统的设计和实现[J];现代图书情报技术;2005年07期
中国重要会议论文全文数据库 前1条
1 张智雄;;数字图书馆中知识技术的研究和应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
【共引文献】
中国期刊全文数据库 前10条
1 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
2 赵江江;秦兵;;基于BootStrapping的中文事件元素抽取系统设计与实现[J];智能计算机与应用;2012年01期
3 霍娜;吕国英;;基于规则匹配的灾难性追踪事件信息抽取的研究[J];电脑开发与应用;2012年06期
4 方莹,葛寒松;基于聚类的分级信息抽取方法初探[J];电脑知识与技术;2005年30期
5 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
6 余承健;;基于表格语义的Web信息抽取方法的研究[J];电脑知识与技术;2008年12期
7 胡静芳;沈亚斌;;基于Web的新闻采集系统[J];电脑知识与技术;2009年19期
8 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
9 张立鑫;;基于Silverlight开发的RSS聚合系统的设计与实现[J];电脑知识与技术;2011年05期
10 孙娜;;基于本体的文本分类研究综述[J];电脑知识与技术;2011年10期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
3 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
4 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 张桂平;蔡东风;徐立军;尹宝生;陈建军;;以互联网为知识源的基于语段分析的交互式机器翻译技术的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 程晓;郑德权;杨宇航;邵国军;;面向半结构化文本的领域本体关系抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
2 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
3 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
6 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
7 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
8 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
9 俞晓晶;基于蛋白质序列和生物医学文献的蛋白质功能挖掘[D];中国科学院研究生院(上海生命科学研究院);2006年
10 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
2 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
3 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
4 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
5 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
6 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
7 蒋子鹏;基于人机交互的英文动词聚类的研究[D];北京交通大学;2011年
8 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
9 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
10 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陶皖,李平,廖述梅;当前基于本体的语义标注工具的分析[J];安徽工程科技学院学报(自然科学版);2005年02期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
4 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
5 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
6 张大志,刘磊;一种本体的形式描述方法及其应用[J];吉林大学学报(信息科学版);2004年01期
7 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
8 曾韬;应用非结构化信息管理技术实现多层次知识管理需求[J];中国传媒科技;2004年06期
9 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
10 陈叶旺;李文;彭鑫;赵文耘;;基于本体的文档语义标注改进方法[J];东南大学学报(自然科学版);2009年06期
中国重要会议论文全文数据库 前2条
1 侯敏;孙建军;;面向汉英机器翻译的句组研究[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
2 史晓东;陈毅东;;基于语篇的机器翻译前瞻[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 蒋波;[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 张凯;基于本体的Web信息集成若干关键技术研究[D];复旦大学;2004年
2 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
3 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
6 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
7 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
8 张颖;数据采掘的研究与应用[D];中国科学院研究生院(计算技术研究所);1999年
9 何清;机器学习与文本挖掘若干算法研究[D];中国科学院研究生院(计算技术研究所);2002年
10 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 张宗仁;基于自然语言理解的本体语义信息检索[D];暨南大学;2011年
2 徐荣华;基于功能本体的产品结构功能映射分析与再创新设计研究[D];南京航空航天大学;2010年
3 杨浩博;基于功能本体的创新知识表达及检索方法研究与实现[D];河北工业大学;2011年
4 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
5 贺琳;决策支持系统生成器的研究与实现[D];大连海事大学;2004年
6 佟志臣;企业级安全电子邮件系统的设计与实现[D];吉林大学;2004年
7 张滨;中文文档分类技术研究[D];武汉大学;2004年
8 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
9 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
10 张汇;基于贝叶斯的网页文本分类算法[D];华中科技大学;2004年
【二级引证文献】
中国期刊全文数据库 前6条
1 马续补;郭菊娥;;基于《知网》语义相似度的企业事实主题诊断研究[J];情报杂志;2010年05期
2 朱锁玲;包平;;方志类古籍地名识别及分析研究——以《方志物产》(广东分卷)为例[J];图书馆论坛;2012年04期
3 谭玉玲;;基于正则表达式的数据处理应用[J];武汉理工大学学报(信息与管理工程版);2010年02期
4 刘萍;胡月红;;基于FCA和关联规则的情报学本体构建[J];现代图书情报技术;2012年02期
5 朱锁玲;包平;;方志类古籍地名识别及系统构建[J];中国图书馆学报;2011年03期
6 佘贵清;张永安;;审判案例自动抽取与标注模型研究[J];现代图书情报技术;2013年06期
中国博士学位论文全文数据库 前4条
1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
2 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
3 牟冬梅;数字图书馆知识组织语义互联策略及其应用研究[D];吉林大学;2009年
4 陈毅波;基于关联数据和用户本体的个性化知识服务关键技术研究[D];武汉大学;2012年
中国硕士学位论文全文数据库 前10条
1 朱姗;基于本体的电子产品实体关系抽取研究[D];西安电子科技大学;2011年
2 孙文婷;基于语义的网上股评信息的提取研究[D];武汉理工大学;2011年
3 王培顺;互联网教育舆情监测系统的设计与实现[D];华中师范大学;2011年
4 孔令国;面向网络信息监测的群体性事件本体构建及应用研究[D];兰州大学;2011年
5 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
6 易利涛;基于领域本体的Web信息抽取研究[D];中南大学;2011年
7 张立;文本搜索引擎的探究与设计[D];华南理工大学;2011年
8 王秋红;极小化标注的海洋文献复杂分类[D];中国海洋大学;2011年
9 郭建;基于云计算的海量电子病历文本分析系统研究[D];上海交通大学;2011年
10 荆明明;基于Android的个性化RSS订阅系统的设计与实现[D];哈尔滨工业大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 曹来发;;中文电脑交流会、中文信息全国学术交流会在蓉召开[J];水利电力机械;1991年05期
2 孙宝传;中文信息处理技术如何再创辉煌[J];中国传媒科技;2001年10期
3 ;书讯[J];中文信息学报;2010年02期
4 ;在《中文信息》创刊十周年庆祝会上 四川联合大学龙伟副校长致开幕词[J];中文信息;1994年06期
5 ;推动中文信息现代化工程是炎黄子孙义不容辞的职责——基金会积极筹建 热心人士陆续捐赠[J];中文信息;1995年01期
6 ;读者天地[J];中文信息;1994年01期
7 廖坦,张平;信息港与中文信息环境[J];中文信息;1996年05期
8 许嘉璐;语言学研究与中文信息处理[J];中文信息;1997年03期
9 曲大成;周立峰;;怎样阅读Internet网上的中文信息[J];办公自动化;1997年01期
10 姚进;首都在线——全新本地中文信息网[J];网上出版;1998年02期
中国重要会议论文全文数据库 前10条
1 ;前言[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 ;前言[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 ;前言[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 ;第十届全国计算语言学学术会议组织情况[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 ;第五届全国信息检索学术会议(CCIR 2009)[A];第五届全国信息检索学术会议论文集[C];2009年
6 ;前言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 ;北京中易中标电子信息技术有限公司公司简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
8 ;中文信息的智能处理[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
9 嘎日迪;吾守尔.斯拉木;德熙嘉措;;代序[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 ;前言[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 李力;广东云安建国内首个中文信息化城镇[N];经济日报;2004年
2 ;中文信息应用网络应运而生[N];网络世界;2001年
3 詹克山;清除IE地址栏中的中文信息[N];中国计算机报;2002年
4 记者 王兵;中国C网构建中文信息应用系统[N];人民邮电;2001年
5 记者 李琳;中国C网:誓做自主全中文信息网[N];厂长经理日报;2000年
6 罗敏;《中国C网中文信息应用网络系统》近日通过技术成果鉴定[N];中国高新技术产业导报;2001年
7 教育部语信司;第十一届全国民族语言文字信息学术研讨会召开[N];语言文字周报;2007年
8 本报记者  管宏业;新标致307:外观小改 品质大增[N];中国商报;2006年
9 阿祥;没有文化 网站将会怎样?[N];中国信息报;2001年
10 记者李行;海峡两岸共商中文信息技术合作大计[N];新疆日报(汉);2009年
中国博士学位论文全文数据库 前10条
1 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
2 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
3 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
4 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
5 蒋本蓉;“意思—文本”模式的词库理论与词库建设[D];黑龙江大学;2008年
6 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
7 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
8 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
9 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
10 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
中国硕士学位论文全文数据库 前10条
1 喻琦;中文微博情感分析技术研究[D];浙江工商大学;2013年
2 张永田;词激活力模型在中文词发现中的应用研究[D];北京邮电大学;2013年
3 梁超;中文类比检索方法研究[D];华东师范大学;2013年
4 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
5 程舰;基于内容的Internet Web中文信息过滤[D];北京交通大学;2011年
6 严孙荣;中文产品评论的意见挖掘研究[D];北京交通大学;2010年
7 张鹏;中文意见挖掘的特征层次构建和抽取算法[D];重庆大学;2010年
8 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
9 屠卫;基于上下文感知的中文新词识别技术研究[D];郑州大学;2012年
10 邱雄;面向手机3D动画自动生成的中文短信情感分类的研究[D];北京工业大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026