收藏本站
《清华大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

金融领域中汉语时间信息抽取的研究

王昀  
【摘要】:时间信息是一个事件的重要组成部分。有研究表明,时间信息在文本信息中所占的比重平均约为27%,仅次于专有名词(占31%),因此,时间相关信息的处理是自然语言理解过程中一个非常重要的部分,它对于信息抽取,信息检索,问答系统,文本摘要和数据挖掘等领域都具有重大的意义。金融领域是信息抽取比较活跃的领域之一,因此,研究建立一个面向金融领域的汉语时间信息抽取系统具有十分重要的意义。 本文着重研究在金融领域中面向信息抽取的汉语时间系统理论框架。搭建一个实用的汉语时间系统处理平台,包括汉语时间表达识别和时间关系获取两部分。 在汉语时间表达识别中,主要内容分为两部分:明显时间表达的识别和隐含时间表达的抽取。对明显时间表达的识别,采用“两步走”的策略,即首先识别单独简单的时间表达,然后利用上下文有关的模板匹配规则把单独的时间表达结合成复杂的时间表达。在开放测试中,复杂时间表达识别的F-Measure 为95.0%,基本达到了后续任务的需要。对隐含时间表达的识别,即汉语情态的分析,采用贝叶斯分类法进行动词分类和情态分类。在开放测试中,取得了86.66%的F-Measure 值。基本达到了国内外在汉语动词分类的同等水平,并且还克服了传统方法依赖词典资源和语义资源的缺点,具有更强的实用性。 论文的另一部分工作涉及了时间关系研究中的一个重要内容:确定时间—事件之间的映射关系。区别于传统的基于规则的方法,本文采用了一种机器学习的方法(基于转换的错误驱动学习(来确定事件相应的时间表达,这种学习算法可以自动的获取和改进规则。在封闭测试和开放测试中,使用训练得到的转换规则集,系统的时间—事件映射错误率分别为17.25%和27.27%,对比传统方法的相关结果,有显著降低。
【学位授予单位】:清华大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
2 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
3 孙天昊;陈飞;朱庆生;曹峰;;基于贝叶斯分类的增强学习协商策略[J];计算机科学;2011年09期
4 李玉峰;郜晓晶;;中文垃圾邮件过滤综合方法[J];计算机应用与软件;2011年08期
5 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
6 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
7 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期
8 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
9 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
10 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
中国重要会议论文全文数据库 前10条
1 陈猛;郭华平;范明;;一种基于贝叶斯的多窗口数据流分类模型[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 李伟红;龚卫国;陈伟民;梁毅雄;张红梅;;基于中国人人脸区域特征的贝叶斯分类法研究[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
6 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 马志彦;悄然而至的EIP[N];中国计算机报;2002年
10 本报记者 于翔;BI:电信业渗透中[N];网络世界;2004年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
5 郭力;Web正文信息抽取与面向层次结构的分类技术研究[D];华南理工大学;2011年
6 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
7 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
8 张静;面向OA期刊检索结果页面的信息抽取方法研究[D];燕山大学;2010年
9 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
10 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026