收藏本站
《中国科学院研究生院(计算技术研究所)》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

自由文本的信息抽取模式获取的研究

姜吉发  
【摘要】:信息抽取(IE)是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。从自由文本中抽取事件信息是IE领域中难度最大、最具学术挑战性的研究课题,也是本文的主要研究对象。另外,从自由文本或从Web网页之类的半结构化文本中抽取关系信息也有相当的学术挑战性,也在本文研究范围之列。 目前世界上多数IE系统都采用模式匹配法,而采用模式匹配法的IE系统在本质上是领域相关的。这是因为对每个特定的IE领域/任务,都要为之设定相应的模式来指导针对该IE领域/任务的IE。 为了提高采用模式匹配法的IE系统的可移植性,关键是如何较为快捷方便准确全面的获取针对某个IE领域/任务的IE模式。起初,IE模式是人工通过手工方法来建立的,但这费时费力,对用户或领域专家的技能水平要求较高。为了较为快捷方便的获取IE模式,人们采用机器学习方法来获取IE模式。最早的IE模式学习方法需要手工标注规模较大的语料;而标注大规模的语料也费时费力,于是为了减轻用户的劳动并降低对用户的技能要求,改进后的模式学习方法只是要求用户将训练文档集合分为相关和不相关的两类,然后就能自动的从中学出相关的IE模式;进一步的研究发现,即使要求用户将训练文档集合分为相关和不相关的两类,也并非易事,因而目前最新的做法是只要求用户提供几个可以轻易想到的有代表性的IE模式,相应的模式学习方法就可以从一个未经分类的文档集合中学出更多的模式并同时完成对文档的相关性分类。 在上述各种事件IE模式学习方法中,都采用了各自不同的模式表示方式。但无论这些事件IE模式的表示方式有多大差异,它们都利用了语法信息和语义信息的概括约束作用。其中,语义信息的概括约束作用是通过将模式中的某些概念元素用它们的上位概念代替来完成的,而这就需要一个概念层次知识库的支持。一般的,这个概念层次知识库中的概念知识可分为领域相关和领域无关两个部分,而领域无关部分概念知识可以直接从现成的领域无关的概念层次知识库如WordNet/HowNet等中得到,需要用户手工建造的只是领域相关部分的概念知识,这进一步减轻了用户在IE模式获取过程中的工作量。 本文给出了一种基于领域无关概念知识库的事件IE模式学习方法GenPAM。该方法利用了领域无关的概念层次知识库如WordNet/HowNet等的支持并能在模式学习的过程中同时实现词义消岐。GenPAM在进行IE模式学习的时候,不需用户提供几个有代表性的种子模式,也不需用户进行语料分类,更不需用户进行
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 牛之贤;白鹏洲;段富;;基于框架语义标注的自由文本信息抽取研究[J];计算机工程与应用;2008年25期
3 肖升;何炎祥;;基于动词论元结构的中文事件抽取方法[J];计算机科学;2012年05期
4 许荣华;吴刚;李培峰;朱巧明;;基于指代消解的中文事件融合方法[J];计算机应用;2009年08期
5 许荣华;吴刚;李培峰;朱巧明;;基于事件框架的主题事件融合研究[J];计算机应用研究;2009年12期
6 赵妍妍;秦兵;车万翔;刘挺;;中文事件抽取技术研究[J];中文信息学报;2008年01期
7 易平;刘宗田;周文;;人物传记研究综述[J];计算机工程与设计;2009年14期
8 赵小明;朱洪波;陈黎;王亚强;秦湘清;于中华;;基于多分类器的金融领域多元关系信息抽取算法[J];计算机工程与设计;2011年07期
9 高强;游宏梁;;事件抽取技术研究综述[J];情报理论与实践;2013年04期
10 许红磊;陈锦秀;周昌乐;林如琦;杨肖方;;自动识别事件类别的中文事件抽取技术研究[J];心智与计算;2010年01期
中国重要会议论文全文数据库 前2条
1 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 赵妍妍;秦兵;车万翔;刘挺;;中文事件抽取技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
2 王菁华;文本中知识的获取[D];北京邮电大学;2008年
3 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 陈慧炜;刑事案件文本信息抽取研究[D];南京师范大学;2011年
2 丁效;句子级中文事件抽取关键技术研究[D];哈尔滨工业大学;2011年
3 李婷玉;基于语义的文本事件信息抽取方法的研究与实现[D];上海交通大学;2012年
4 许旭阳;网络新闻多文档自动摘要技术研究[D];解放军信息工程大学;2011年
5 岳国伟;基于本体的Web页面结构化信息抽取[D];山东科技大学;2007年
6 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
7 白鹏洲;基于框架语义标注的Web信息抽取技术研究[D];太原理工大学;2008年
8 赵妍妍;中文事件抽取的相关技术研究[D];哈尔滨工业大学;2007年
9 黄文利;基于语义的Web信息抽取技术研究[D];哈尔滨工程大学;2009年
10 吴刚;基于主题的中文事件抽取技术研究及应用[D];苏州大学;2009年
【参考文献】
中国博士学位论文全文数据库 前3条
1 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
2 王菁华;文本中知识的获取[D];北京邮电大学;2008年
3 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
2 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
3 张海;王尧;陈冰;胡荣祖;高红旭;赵凤起;;用Boosting算法预测多硝基芳香族化合物的密度[J];火炸药学报;2007年05期
4 张海;丁毅涛;王尧;胡荣祖;高红旭;赵凤起;;自适应梯度Boosting算法及多硝基芳香族化合物密度的主因子选择[J];火炸药学报;2011年02期
5 黄明新,刘椿年;基于归纳逻辑程序设计的特异规则挖掘[J];北京工业大学学报;2003年04期
6 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
7 沈奕,滑峰,刘椿年;基于GDT的对FOIL系统的改进[J];北京工业大学学报;2005年02期
8 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
9 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
10 赵丽丽,孙吉贵;归纳逻辑程序设计综述[J];吉林大学学报(信息科学版);2005年S2期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
5 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
6 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
7 陈峰;桂卫华;王随平;韩晓英;;深海底履带机器车的多神经网络预测控制[A];第二十三届中国控制会议论文集(下册)[C];2004年
8 赵丽丽;孙吉贵;;归纳逻辑程序设计综述[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
9 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
10 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
3 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
6 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
7 徐迪红;复杂背景下的交通标志检测和分类算法研究[D];武汉大学;2010年
8 顾全;基于集成智能的膜蛋白受体结构与功能研究[D];东华大学;2010年
9 李军;不平衡数据学习的研究[D];吉林大学;2011年
10 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 马冉冉;集成学习算法研究[D];山东科技大学;2010年
4 王萍;语音情感识别研究[D];山东科技大学;2010年
5 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
6 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
7 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
8 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
9 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
10 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 董晓霞;李干琼;刘自杰;;农产品市场价格短期预测方法的选择及应用——以鲜奶零售价格为例[J];山东农业科学;2010年01期
2 王勇;张浩;;小麦期货价格预测的马尔可夫模型[J];安徽农业科学;2008年05期
3 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
4 胡军伟;秦奕青;张伟;;正则表达式在Web信息抽取中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
5 刘书琪,费月升;黑龙江省大豆价格预测分析[J];边疆经济与文化;2004年06期
6 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
7 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
8 程贤禄;北京市农产品批发市场蔬菜价格预测预报体系研究[J];北京农业科学;2002年02期
9 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
10 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
中国重要会议论文全文数据库 前5条
1 刘怀军;车万翔;刘挺;;中文语义角色标注的特征工程[A];第三届学生计算语言学研讨会论文集[C];2006年
2 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
3 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 曾青青;杨尔弘;朱丹青;;基于信息结构的突发事件文本事件信息自动抽取策略研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
2 李嵩松;基于隐马尔可夫模型和计算智能的股票价格时间序列预测[D];哈尔滨工业大学;2011年
3 何婷婷;语料库研究[D];华中师范大学;2003年
4 张小栓;水产品价格预测支持系统研究[D];中国农业大学;2003年
5 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
6 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
7 罗小楠;电子病历系统的研究:信息录入与质量监控电子化实现[D];第四军医大学;2005年
8 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
9 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
10 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
4 周溢辉;基于规则与统计的语气词用法自动识别研究[D];郑州大学;2011年
5 袁应成;基于用法属性的现代汉语介词短语边界识别研究[D];郑州大学;2011年
6 谷宇;HL7消息解析及传输技术的研究与实现[D];内蒙古科技大学;2010年
7 祝美莲;半结构化网页的信息抽取技术研究[D];中国石油大学;2011年
8 姜海洋;Web应用程序的数据库语义发现方法研究[D];哈尔滨工程大学;2011年
9 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
10 陈波;EJB容器集群系统设计与原型实现[D];电子科技大学;2001年
【二级引证文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
3 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
4 霍娜;吕国英;;基于规则匹配的灾难性追踪事件信息抽取的研究[J];电脑开发与应用;2012年06期
5 周民;邱雅;王华彬;;网络舆情分析中智能爬虫的设计[J];电脑知识与技术;2011年33期
6 周泽龙;罗彬;;从用户需求提取COSMIC度量关键因子的方法[J];电脑知识与技术;2013年03期
7 张明尧;;基于事件链的汉语语篇连贯资源建设[J];长江学术;2013年03期
8 杨雁莹;;一种刑侦案件的信息抽取架构设计[J];电脑编程技巧与维护;2014年02期
9 陈天莹;苏智慧;;基于语义推理的文本信息关联关系分析技术[J];电讯技术;2014年01期
10 魏新宇;秦颖;;中文事件抽取研究及实现[J];电脑编程技巧与维护;2014年10期
中国重要会议论文全文数据库 前3条
1 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
2 单建芳;面向事件的文本表示研究[D];上海大学;2012年
3 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
4 肖开容;翻译中的框架操作[D];西南大学;2012年
5 蒋玲;面向学科的知识元标引关键技术研究[D];华中师范大学;2011年
6 张明尧;基于事件链的语篇连贯研究[D];武汉大学;2013年
7 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
8 张紫琼;在线中文评论情感分类问题研究[D];哈尔滨工业大学;2010年
9 张春菊;中文文本中事件时空与属性信息解析方法研究[D];南京师范大学;2013年
10 雷兵;基于网站客户访问行为的客车产品需求获取方法研究[D];武汉理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
4 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
5 梁越岭;互联网舆情信息挖掘与群体行为分析[D];武汉理工大学;2010年
6 李海林;网络舆情热点信息发现及其倾向性研究[D];武汉理工大学;2010年
7 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
8 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
9 刘力;科技文档信息抽取与格式化技术研究[D];中南大学;2010年
10 刘杰;互联网舆情信息搜索与分析技术研究[D];电子科技大学;2011年
【相似文献】
中国期刊全文数据库 前8条
1 于江德;王立新;樊孝忠;;基于自扩展的信息抽取模式自动获取[J];小型微型计算机系统;2009年05期
2 郑家恒,王兴义,李飞;信息抽取模式自动生成方法的研究[J];中文信息学报;2004年01期
3 姜吉发;一种事件信息抽取模式获取方法[J];计算机工程;2005年15期
4 李晶;陈恩红;;Web信息抽取[J];计算机科学;2003年06期
5 曾兴杰,李芳,张冬茉;采用开放语料库的跨领域模式自动获取[J];计算机仿真;2005年04期
6 吴刚;许荣华;朱巧明;李培峰;钱培德;;一种基于角色匹配的事件抽取方法[J];微计算机信息;2010年09期
7 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
8 帅训波;马书南;;基于决策树的现代汉语中任职关系抽取研究[J];昆明理工大学学报(理工版);2009年04期
中国重要会议论文全文数据库 前2条
1 Su Yatfan;Wong Kamfai;;概念图:从数据图抽取模式(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 李立宇;王腾蛟;唐世渭;杨冬青;刘世杰;;用语义包装器实现基于语义的信息集成[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前4条
1 李静月;中文事件模式自动生成方法的研究和实现[D];苏州大学;2010年
2 高永胜;基于树形结构的网页数据抽取模式研究及应用[D];大连理工大学;2011年
3 胡杨;生物文献中蛋白质相互作用关系抽取[D];哈尔滨工业大学;2007年
4 王随涛;基于概念图模型的词汇多源释义的融合研究[D];上海交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026