收藏本站
《沈阳航空工业学院》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

面向专利的双语术语自动抽取技术的研究

刘磊  
【摘要】: 术语集中承载特定领域的核心知识,术语的自动抽取能够辅助人们便捷地获得和积累该领域知识,而双语术语更是兼有两种语言的映射关系,因此双语术语自动抽取在自然语言处理中的机器翻译、信息检索、双语词典生成等领域都有重要的应用。 随着海量数据时代到来,基于统计的术语抽取逐渐成为研究的热点,特别是利用机器学习的方法进行术语的自动抽取已取得较好的效果。本文在手工构建的双语术语标注语料基础上,采用条件随机场分别进行中英双语术语的自动抽取,并根据本文提出的基于语义预测的双语术语相似度算法计算已抽取的双语术语间的相似度,从而完成双语术语的抽取。 本文的主要工作是:面向中英双语专利总结术语特征并归纳术语标注规则,以区分术语与其它词语;在该规则指导下,手工标注中英双语专利中的术语以构建双语术语标注语料;在术语标注语料的基础上,利用条件随机场分别训练双语术语抽取模型,并进行特征选择、标记位选择、特征模板选择等实验,以选择抽取效果较好的训练模型;实验结果证明,引入领域特征和使用三字位标记有效地改善术语抽取效果,中文术语抽取F值达到88.43%,英文术语抽取F值达到87.51%。 针对中文术语的缩略和英文术语的词形变化导致词典中双语术语的覆盖率较低,本文提出基于语义预测的双语术语相似度算法计算已抽取的双语术语间的相似度,据此进行双语术语对齐,双语术语抽取的F值达到91.57%;根据上述算法描述,完成一个模块化,可移植的面向专利的双语术语自动抽取系统,并完成相应实验。
【学位授予单位】:沈阳航空工业学院
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 朱莎莎;刘宗田;付剑锋;朱芳;;基于条件随机场的中文时间短语识别[J];计算机工程;2011年15期
2 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期
3 张春元;;基于条件随机场的文本分类模型[J];计算机技术与发展;2011年07期
4 于江德;谷川;葛文英;樊孝忠;;一种基于字和子串联合标注的汉语分词方法[J];山西大学学报(自然科学版);2011年03期
5 康旭珍;李茹;李双红;;框架元素语义核心词自动识别研究[J];中文信息学报;2011年04期
6 阳维;张树恒;王莲芸;张素;;基于图像块分类器和条件随机场的显微图像分割[J];计算机应用;2011年08期
7 刘运;蔡志平;钟平;殷建平;程杰仁;;基于条件随机场的DDoS攻击检测方法[J];软件学报;2011年08期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 代翠;周俏丽;蔡东风;;统计和规则相结合的汉语最长名词短语自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 王东波;陈小荷;年洪东;;基于条件随机场的有标记联合结构自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 宁伟;蔡东风;季铎;;基于条件随机场的冠词选择研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 刘磊;张桂平;蔡东风;季铎;;基于语义预测的双语术语相似度计算[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 计峰;高沫;邱锡鹏;黄萱菁;;中文机构名简称的自动生成研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 魏玮;杜金华;徐波;;基于分层语块分析的统计翻译研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
3 禇一平;基于条件随机场模型的视频目标分割算法研究[D];浙江大学;2007年
4 许红涛;Web图像语义分析与自动标注研究[D];复旦大学;2009年
5 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
6 张奇;细颗粒度情感倾向分析若干关键问题研究[D];复旦大学;2008年
7 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
8 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
9 郁生阳;基于能量最小化图割的图像与视频目标精确分割研究[D];上海交通大学;2009年
10 任柯燕;基于机器视觉的室外场景图像理解方法研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘磊;面向专利的双语术语自动抽取技术的研究[D];沈阳航空工业学院;2009年
2 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
3 柴桦;基于视频的人体运动识别方法研究[D];中南大学;2008年
4 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
5 刘海鹏;面向手机短信的命名实体识别研究[D];北京邮电大学;2009年
6 苗雪雷;基于条件随机场的汉语词义消歧方法研究[D];沈阳航空工业学院;2007年
7 何楠;基于统计机器学习的两阶段中文命名实体识别研究[D];北京邮电大学;2008年
8 潘晓雯;人体运动捕捉数据的检索[D];大连理工大学;2009年
9 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
10 代翠;汉语最长名词短语的自动识别与分析[D];沈阳航空工业学院;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026