收藏本站
《上海交通大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义的文本事件信息抽取方法的研究与实现

李婷玉  
【摘要】:事件抽取和追踪是自然语言处理领域一个非常重要的研究方向,如何准确而高效地从大量繁杂无序的信息中提取到感兴趣的事件信息,一直是事件抽取研究领域的关键问题。 一般而言,事件抽取就是从非结构化文档中抽取出用户感兴趣的事件,同时用结构化形式描述,供用户查询和进一步追踪分析等。事件抽取的研究对象会选取某一个固定领域或者新闻文本,这样更符合用户对于事件抽取的想象。并且事件抽取的形式也比较固定和单一,一般会采取基于模板匹配提取结构化文本或分析文本段落等进行分类的方法。 本课题基于时空元素语义搜索引擎的研究背景,提出了一种基于语义的文本事件信息抽取方法,创新地通过应用多方面语义知识和统计方法,强调时、空元素对于事件追踪的定位功能,进行信息抽取和归并,最终实现对文本中事件的描述。 该课题的处理文本类型多样,结构与行文风格复杂,如果采用传统的方法达不到理想的结果。而在实际应用中,这种情况非常常见。本文目标明确,方法有效且不繁琐,结合语义知识和统计学习,对处理复杂语料和大规模数据有着非常明显的优势。 另外,在本文中涉及到多方面自然语言处理的相关概念和算法研究,可以说,通过本课题对自然语言处理的研究,尤其是对信息抽取的研究有了深刻的认识与感悟。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前1条
1 幸小然;基于本体的电影院NFC智能应用系统的设计与实现[D];电子科技大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
2 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
3 王晓东;高宏卿;;Ontology构建中概念与关系的获取与处理[J];计算机工程与应用;2006年17期
4 姜吉发;一种事件信息抽取模式获取方法[J];计算机工程;2005年15期
5 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
6 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
7 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
8 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[J];中文信息学报;2006年01期
9 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
10 梁晗;陈群秀;吴平博;;基于事件框架的信息抽取系统[J];中文信息学报;2006年02期
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
【共引文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
3 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
4 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
5 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
6 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
7 都云程;周伟;韩艳铧;吕学强;;基于字同现频率的关键词自动抽取[J];北京信息科技大学学报(自然科学版);2011年06期
8 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
9 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
10 汪首坤;王军政;;基于模糊层次分析法的电液舵机性能综合评价[J];北京理工大学学报;2006年08期
中国重要会议论文全文数据库 前10条
1 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李帅;王精业;王丽娟;;基于马尔可夫模型的文本信息提取算法概述[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
4 李玉良;王良松;李晶;;图像中数字字符识别技术概览[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
5 卢纪华;李艳;;基于DEA/AHP的虚拟企业合作伙伴选择研究[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
6 张辉;李国辉;陈俊;;一种基于新闻要素建模的新事件探测方法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
7 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
8 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
9 蒋岩;唐加福;宫俊;孙爱红;;面向冷轧辊产品的辊坯供应商评价[A];第十届中国青年信息与管理学者大会论文集[C];2008年
10 章成志;周冬敏;苏新宁;;自动标引通用评价模型研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 唐旭天;集团公司跨文化管理研究[D];辽宁工程技术大学;2009年
3 王寓辰;面向移动商务的协作组织及其评价研究[D];华中科技大学;2010年
4 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
5 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
6 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
7 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
8 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
9 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
10 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 张永宾;居住区景观设计方案评价方法初探[D];中南林业科技大学;2009年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
5 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
6 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
7 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
8 赵莲;大规模中英可比较语料库构建[D];大连理工大学;2010年
9 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
10 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李琳;;NFC手机的需求与方案剖析[J];电信技术;2011年02期
2 高琦,陈华钧;互联网Ontology语言和推理的比较和分析[J];计算机应用与软件;2004年10期
3 赵宇枫;;RFID与NFC技术与应用浅析[J];科学咨询(科技·管理);2011年05期
4 李东勤;徐勇;;个性化推荐系统中协同过滤算法研究[J];科技信息;2012年32期
5 杨睿,陶兰,朱礼军,李鹏;语义万维网环境下的RDF数据存储[J];计算机工程与设计;2005年01期
6 钟福金;辜丽川;张友华;;语义Web应用研究综述[J];计算机工程与设计;2009年17期
7 张丽坤;蒋波;;基于本体的语义Web研究[J];计算机技术与发展;2007年06期
8 丁晟春,顾德访;Jena在实现基于Ontology的语义检索中的应用研究[J];现代图书情报技术;2005年10期
9 杜启宏;郭达;;基于智能卡的NFC技术的研究[J];移动通信;2010年Z1期
10 王宇伟;张辉;;基于手机的NFC应用研究[J];中国无线电;2007年06期
中国硕士学位论文全文数据库 前2条
1 龚资;基于OWL描述的本体推理研究[D];吉林大学;2007年
2 邹文科;基于本体技术的语义检索及其语义相似度研究[D];北京邮电大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 丁春;关键词标引的若干问题探讨[J];编辑学报;2004年02期
2 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
3 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
4 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
5 姜吉发;一种跨语句汉语事件信息抽取方法[J];计算机工程;2005年02期
6 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
7 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
8 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
9 王永成,苏海菊,莫燕;中文词的自动办理[J];中文信息学报;1990年04期
10 罗盛芬,孙茂松;基于字串内部结合紧密度的汉语自动抽词实验研究[J];中文信息学报;2003年03期
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
【相似文献】
中国期刊全文数据库 前10条
1 梁娜;耿国华;周明全;;自然语言处理中的语义关系与句法模式互发现[J];计算机应用研究;2008年08期
2 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
3 孔芳;周国栋;朱巧明;钱培德;;指代消解综述[J];计算机工程;2010年08期
4 帅训波;马书南;;基于决策树的现代汉语中任职关系抽取研究[J];昆明理工大学学报(理工版);2009年04期
5 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
6 肖春;周建龙;;生物医学领域中的文本信息抽取技术与系统综述[J];计算机应用研究;2007年09期
7 许旭阳;韩永峰;宋文政;;事件抽取技术的回顾与展望[J];信息工程大学学报;2011年01期
8 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
9 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
10 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 夏云庆;郝博一;徐睿峰;;意见目标网络与意见目标抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 张霄军;;Web汉英平行新闻语料获取的困难及对策[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
9 张红春;何婷婷;涂新辉;周琨峰;;中文维基百科的结构化信息抽取及词语相关度计算[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
5 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
6 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
7 记者 李霆钧;国内首个“影视剧植入广告分析系统”出炉[N];中国电影报;2010年
8 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
9 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
10 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
5 何召卫;受限本体相似[D];北京邮电大学;2008年
6 李晗静;基于自然语言处理的空间概念建模研究[D];哈尔滨工业大学;2007年
7 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
9 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
10 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
4 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
5 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
6 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
7 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
8 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
9 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
10 杨选选;基于概念图和语义角色的多领域信息抽取系统研究[D];西北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026