收藏本站
《山西大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

中文时间规范化方法研究

温艳霞  
【摘要】: 在自然语言中,特别是在新闻事件中,人们比较关心的是事件的内容,而在一个事件中,时间是一个关键的因素,现在网络上充斥着大量的新闻信息,当人们需要了解发生了什么事,什么时候发生,以及它们之间存在怎样的联系,才发现这要花费大把的时间。因此,时间和事件的推理引起了自然语言处理的新的兴趣,在自然语言处理方面具有非常重要的意义,包括命名实体识别和自然语言理解等。时间信息在自然语言处理领域也有很广泛的应用,包括文本理解,信息抽取、信息检索、问答系统、主题发现和跟踪、文本摘要和数据挖掘到机器翻译等。因此本文以时间信息处理领域中一个重要方面——时间规范化作为研究目标。 本文的研究重点是新闻文本中的时间规范化,其任务是将新闻中的时间信息定位到时间轴上,并用一种标准的格式表示出来。时间规范化任务,是识别事件-时间的映射关系,识别事件的时序关系的基础。 1.确定需要规范化的时间类型。本文参考ACE时间标注规范,对中文时间信息重新进行了定义和分类,对需要规范化的时间进行了确定和总结。 2.提取时间识别模式。根据新闻语料中时间表达式的构成特点,我们总结了提取时间表达式的几条模式:包括发表时间的模式,报道时间的模式以及句子中所有需要规范化的时间类型的模式。然后利用模式匹配的方法从语料中识别出需要规范化的时间。 3.基于语料模块化的时间规范化。把文本分割为关系紧密的小的模块,本文以一篇报道为处理模块,结合参考时间和模块内时间的属性,对识别到的时间求值,并转换为标准的时间格式。如“今天”转换为“xxxx/xx/xx”的形式,“三天”转换为“P3D”的形式等等。 实验结果表明,本文使用的模块化的时间规范化方法是行之有效的,对新闻中时间信息的识别时间规范化的任务都达到了较好的效果。 最后,本文以实验中的错误结果为例,详细分析了错误原因,并对一些问题提出了解决的思路。在今后的工作中,我们将就目前的研究方法做出一些改进,为推动时间信息处理的深入发展做出努力。
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前9条
1 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
2 徐永东;徐志明;王晓龙;刘远超;;中文文本时间信息获取及语义计算[J];哈尔滨工业大学学报;2007年03期
3 荀恩东,李生,赵铁军;匹配树和决策树方法识别英语句子中的BaseNP[J];计算机研究与发展;2000年07期
4 马红妹,王挺,陈火旺;汉语篇章时间短语的分析与时制验算[J];计算机研究与发展;2002年10期
5 王昀,苑春法;基于转换的时间-事件关系映射[J];中文信息学报;2004年04期
6 郭宏蕾,姚天顺;时间语义层次结构及理解[J];中文信息学报;1997年01期
7 林静;曹德芳;苑春法;;中文时间信息的TIMEX2自动标注[J];清华大学学报(自然科学版);2008年01期
8 胡广朋;王艳;于枫;凌青华;;事件的持续时间的表示与推理[J];微计算机应用;2007年11期
9 高霄云;杨建林;;基于规则的中文时间词和数词的自动识别算法[J];现代图书情报技术;2007年03期
【共引文献】
中国期刊全文数据库 前10条
1 兰小机;胡川;;基于时间语义的地籍管理信息系统数据组织与实现[J];测绘科学;2008年06期
2 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
3 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报;2000年05期
4 马彬;洪宇;杨雪蓉;姚建民;朱巧明;;基于语义依存线索的事件关系识别方法研究[J];北京大学学报(自然科学版);2013年01期
5 吴岩,李秀坤,刘挺,王开铸;中文自动校对系统的研究与实现[J];哈尔滨工业大学学报;2001年01期
6 徐永东;徐志明;王晓龙;刘远超;;中文文本时间信息获取及语义计算[J];哈尔滨工业大学学报;2007年03期
7 孟遥,赵铁军,李生,姚建民;基于评价的英语句法结构消歧和自我评价的规则校正[J];计算机研究与发展;2002年07期
8 蔡华利;刘鲁;刘志明;杨跃翔;;突发事件Web新闻中时间信息分析及抽取[J];计算机工程与应用;2010年34期
9 王风娥;谭红叶;钱揖丽;;基于最大熵的句内时间关系识别[J];计算机工程;2012年04期
10 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期
中国重要会议论文全文数据库 前6条
1 周小甲;周庆利;;中文病历文本中时间信息自动标注[A];2011年浙江省医学会医学工程学分会第九届学术年会论文汇编[C];2011年
2 林达真;李绍滋;;基于模式分类的汉语时态确定方法研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 刘牧;杨智强;王衡;;基于普适计算的日程发现方法探讨[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
4 周小甲;李昊旻;吕旭东;段会龙;;中文病历文本中的时间表达分类与识别[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会青年优秀论文[C];2010年
5 赵国荣;杨尔弘;;事件类时间短语识别[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 唐晋韬;王挺;周会平;;面向中文文本的时间本体构建和自动扩充[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
2 单建芳;面向事件的文本表示研究[D];上海大学;2012年
3 马红妹;汉英机器翻译中汉语上下文语境的表示与应用研究[D];中国人民解放军国防科学技术大学;2002年
4 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
5 李素建;汉语组块计算的若干研究[D];中国科学院研究生院(计算技术研究所);2002年
6 陈振宇;现代汉语时间系统的认知模型与运算[D];复旦大学;2006年
7 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
8 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
9 关晓薇;基于语义语言的机器翻译系统中若干关键问题研究[D];大连理工大学;2009年
10 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 周小甲;中文病历文本的时间信息提取研究[D];浙江大学;2011年
4 范敏敏;企业经营范围字段自动分类方法研究[D];哈尔滨工业大学;2010年
5 刘立博;基于异构信息的金融事件发现[D];哈尔滨工业大学;2010年
6 黄元萃;汉语基本名词短语的自动识别模型[D];大连理工大学;2001年
7 赵瑾;几种程形短语的自动识别方法和语法特征的大规模调查研究[D];北京语言大学;2004年
8 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
9 王昀;金融领域中汉语时间信息抽取的研究[D];清华大学;2004年
10 成斌;汉语时间语义分析及推理[D];国防科学技术大学;2005年
【二级参考文献】
中国期刊全文数据库 前10条
1 熊学亮;;情景模型理论评介[J];国外语言学;1993年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 余战秋;中文分词技术及其应用初探[J];电脑知识与技术;2004年32期
4 夏祖勋,吴洁,方慧嘉;军事MAS中战斗行为协调的计算[J];舰船电子工程;2004年01期
5 孙波;何克抗;;基于情境理论的汉语理解模型[J];计算机研究与发展;1992年04期
6 马红妹,王挺,陈火旺;汉语篇章时间短语的分析与时制验算[J];计算机研究与发展;2002年10期
7 张江;基于规则的分词方法[J];计算机与现代化;2005年04期
8 郑泽之,张普,杨建国;基于语料库的字母词语自动提取研究[J];中文信息学报;2005年02期
9 胡广朋;用于计算机辅助教学的自然语言接口[J];微计算机应用;2003年05期
10 罗选民;论翻译的转换单位[J];外语教学与研究;1992年04期
中国重要会议论文全文数据库 前1条
1 马红妹;王挺;陈火旺;;汉英机器翻译中语境知识的表示与应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 仲夏;张志平;王惠临;;词汇化树邻接语法研究述评及中文应用初探[J];现代图书情报技术;2010年05期
2 朱译翔;;中文名词性谓词的语义角色标注的研究[J];福建电脑;2010年09期
3 张莉;刘雅举;李东明;侯晨伟;;中文问句分类系统的分析[J];科技情报开发与经济;2007年25期
4 程彩虹;王惠临;解国栋;;基于潜在语义分析的自动词法学习技术[J];情报理论与实践;2008年05期
5 胡乃全;孔芳;王海东;周国栋;朱巧明;;基于最大熵模型的中文指代消解系统实现[J];计算机应用研究;2009年08期
6 吴晓锋;宗成庆;;基于语义角色标注的新闻领域复述句识别方法[J];中文信息学报;2010年05期
7 周溢辉;穆玲玲;昝红英;袁应成;;汉语语气词用法的自动识别研究[J];计算机工程;2010年23期
8 叶琳莉;黄日茂;;结合决策树方法的中文机构名称识别[J];福建电脑;2007年12期
9 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
10 王萌;李春贵;唐培和;王晓荣;;一种主题句发现的中文自动文摘研究[J];计算机工程;2007年08期
中国重要会议论文全文数据库 前10条
1 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
4 孟凡东;徐金安;姜文斌;刘群;;异种语料融合方法:基于统计的中文词法分析应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
7 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
8 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
9 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
10 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 张海桐;用中文把歌剧唱出来[N];人民日报海外版;2011年
2 张伟城;中文热持续升温[N];人民日报海外版;2009年
3 朱珉迕;说中文和“拌洋荤”[N];解放日报;2009年
4 本报驻巴黎记者 姚立;“中文热”在法升温速度令人始料不及[N];光明日报;2010年
5 刘菲;关注特殊的学中文群体[N];人民日报海外版;2011年
6 记者钟哲 通讯员李世举;合编首部“民族版”高校中文教材[N];中国社会科学报;2010年
7 ;“汉语桥”世界大学生中文比赛举行[N];人民日报;2011年
8 晓阳;《选报》落户起点中文网[N];中华新闻报;2009年
9 ;中文在线 “九死一生”的出版经历[N];电脑报;2010年
10 本报记者 原小瑛;欧特克发布中文工厂设计软件[N];中国化工报;2010年
中国博士学位论文全文数据库 前10条
1 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
2 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
3 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
4 张志昌;开放域阅读理解关键技术研究[D];哈尔滨工业大学;2010年
5 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
6 周惠巍;模糊限制信息检测中融合方法的研究[D];大连理工大学;2012年
7 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
8 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
9 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
10 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 温艳霞;中文时间规范化方法研究[D];山西大学;2010年
2 毋菲;数值信息的抽取方法研究[D];山西大学;2010年
3 周琨峰;基于中文维基百科的概念相关词群研究[D];华中师范大学;2012年
4 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
5 万鑫;基于文本分类的命名实体识别系统[D];北京邮电大学;2009年
6 张锦明;中文语义倾向识别的关键算法研究[D];北京邮电大学;2008年
7 黎耀炳;面向共指消解的动态泛化机制研究[D];哈尔滨工业大学;2010年
8 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
9 张春燕;基于自然语言处理的文本分类分析与研究[D];江西理工大学;2011年
10 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026