收藏本站
《南开大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的双语词汇抽取问题研究

曹浩  
【摘要】:传统的双语词汇词典,一般由人工整理、编辑,具有权威度高、词条质量高的特点,但是其编制需要花费大量的人力、物力和时间。与此同时,随着互联网的发展和社会的发展,各种各样新的知识和话题涌现出来,每天都大量增加的新的词条,难以在短时间内通过人工添加到词典中去,造成了词典里的词条缺失、时效性不够等缺点。而随着互联网的发展,互联网所承载的信息量越来越大,页面信息越来越多,大量的双语词汇在网页页面中出现,从这些资源中,可以抽取大量有效的双语词汇。而且这些双语词汇具有词条新、专业术语翻译丰富等特点。如果通过一定的自动化手段,自动去收集整理这些有用的双语词条互译信息,积少成多,将会形成极为丰富的双语词汇资源。但是由于互联网信息的杂乱、非结构化和网页质量良莠不齐等问题,如何从非结构化的网页中去抽取双语词条是一个问题,而且因为抽取出来的词条并不一定是高质量的词条,所以将抽取的词条直接用来作为双语词条是不可行的。在抽取双语词条时,存在着(1)如何从网页文本等非结构化的数据中抽取双语词条。(2)如何去评估抽取的双语词条是否正确的。(3)对于抽取出来低质量的词条,是否可以进行加工后得到高质量词条等问题。 针对这上面所列出的问题,本文提出了一种基于机器学习方法来抽取双语词汇,基于以前方法存在的问题,做出了如下的贡献:(1)首先,对于如何从文本这样非结构化的数据中抽取双语词条这个问题,传统的使用固定模式抽取词条的方法受限于人的先验知识所归纳整理的规则,本文提出一种基于模式挖掘的方法,首先使用固定模式去抽取种子词,再用种子词去抽取更多的模式,再用新的模式去抽取更多的双语词汇的方法,克服了固定模式带来的局限性,提高了召回率。实验表明,该方法提高了抽取双语词条的召回率,而且具有不受初始种子选取影响,迭代可以到稳定的收敛状态。(2)其次,对于衡量和判断抽取出来的双语词条是否正确的问题,分析了目前主要使用的各种基于单因素方法的局限性,提出了使用基于SVM模型来融合多种因素的方法,去判断双语词条是否为互译关系,实验表明,该方法提高了抽取双语词条的准确率。(3)最后,在词条抽取出来后,被判定为低质量的词条中,有相当一部分的词条可以通过截断得到高质量的词条,如果能正确判定词条截断位置,可以进一步地提高抽取的召回率。本文将词条截断位置判断的问题建模为一个排序问题,提出了使用监督排序模型来预测判定词条截断的位置。实验证明,与传统方法相比,改进后的方法提高了抽取出来的双语词条的准确率和召回率,取得了较好的效果。
【学位授予单位】:南开大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP181;TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前4条
1 孙萌;梁颖红;葛运东;颜振祥;姚建民;;基于平行语料库和网络的未登录词译文挖掘[J];江南大学学报(自然科学版);2010年01期
2 刘昕,周明,朱胜火,黄昌宁;基于自动抽取词汇信息的双语句子对齐[J];计算机学报;1998年S1期
3 李维刚;刘挺;李生;;基于双语语料库的短语复述实例获取研究[J];中文信息学报;2007年05期
4 李芳,盛焕烨;双语词汇自动获取系统[J];上海交通大学学报;2001年09期
中国重要会议论文全文数据库 前1条
1 李维刚;刘挺;王震;李生;;双语语料库段落重组对齐方法研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【共引文献】
中国期刊全文数据库 前10条
1 林哲辉;贾剑锋;郭文;;新闻领域双语语料建设与句子对齐方法的研究[J];电脑与信息技术;2008年01期
2 玛依拉·艾尼扎提;胡学钢;;一种基于汉维对齐的双语语料库的获取方法[J];合肥工业大学学报(自然科学版);2011年11期
3 任飞亮,吕学强,吴宏林,姚天顺;基于统计的锚点词候选集的获取[J];计算机工程与应用;2003年32期
4 李晓光;王鹏;张威;王大玲;;面向多领域资源的汉英双语语料库构建的研究[J];计算机应用;2008年01期
5 王占军;姚卫东;;一种汉英双语句子自动对齐算法[J];计算机仿真;2009年02期
6 张绪华;;基于对译信息的汉英句子自动对齐[J];当代外语研究;2010年09期
7 张艳,柏冈秀纪;基于长度的扩展方法的汉英句子对齐[J];中文信息学报;2005年05期
8 王大鹏;姜怡;姜欣;;语料库在茶典籍英译中的实例应用[J];沈阳师范大学学报(自然科学版);2010年02期
9 秦颖;李颖超;;基于词语信息度的翻译对应句检索[J];外语教学与研究;2012年02期
10 李德俊;;基于英汉平行语料库的词典编写系统CpsDict的研制[J];现代外语;2006年04期
中国重要会议论文全文数据库 前4条
1 吕雅娟;赵铁军;李生;杨沐昀;;统计和词典方法相结合的双语语料库词对齐[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 李维刚;刘挺;王震;李生;;双语语料库段落重组对齐方法研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 杨建;杨沐昀;于浩;时晓升;;面向译文质量的EBMT系统实例库优化研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 胡海鹏;闫永明;吴宏林;张俐;刘绍明;;基于组合线索和核心扩展方阵匹配的中日句对齐[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前1条
1 姜怡;基于文本互文性分析计算的典籍翻译研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前8条
1 张春国;工艺语句汉英计算机辅助翻译系统关键技术研究[D];南京航空航天大学;2004年
2 毕雪华;汉维双语语料库中句子对齐技术的研究[D];新疆大学;2006年
3 张健;基于实例的机器翻译的泛化方法研究[D];中国科学院研究生院(计算技术研究所);2001年
4 李继锋;基于双层模板结构的机器翻译方法研究[D];中国科学院研究生院(计算技术研究所);2003年
5 热西旦;汉文—维吾尔文双语语料库构建的实验性研究[D];新疆大学;2007年
6 李映;基于实例的机器翻译关键技术的研究和实现[D];苏州大学;2008年
7 周蓝海;多策略英汉词对齐技术的研究[D];沈阳航空工业学院;2009年
8 吴小川;泛化的基于实例方法的汉语维吾尔语模板库的构建[D];新疆大学;2012年
【二级参考文献】
中国期刊全文数据库 前3条
1 蒋龙;周明;简立峰;;利用音译和网络挖掘翻译命名实体[J];中文信息学报;2007年01期
2 郭稷;吕雅娟;刘群;;一种有效的基于Web的双语翻译对获取方法[J];中文信息学报;2008年06期
3 王斌,刘群,张祥;汉英双语库自动分段对齐研究[J];软件学报;2000年11期
【相似文献】
中国期刊全文数据库 前10条
1 高玲玲;双语词典的实用功能及编写特点——从《简明汉葡词典》得奖谈起[J];大学出版;2001年03期
2 ;书讯[J];国外社会科学;1986年01期
3 文斌;;精简而另类的双向词典——梅花双语词典[J];电脑爱好者(普及版);2008年10期
4 ;研究生论文文摘[J];现代图书情报技术;1996年01期
5 王正;孙东云;;论双语词典的修订[J];中国图书评论;2009年08期
6 祝启波;一部专业技术双语词典的计算机转换及其结果分析[J];辞书研究;1997年05期
7 晋薇;黄河燕;夏云庆;;基于语义相似度并运用语言学知识进行双语语句词对齐[J];计算机科学;2002年11期
8 王丽;韩习武;;双语词典在统计机器翻译中的应用[J];计算机工程与应用;2010年16期
9 琦;十卷本《罗马尼亚语词典》已编纂完成[J];国外社会科学;1979年04期
10 ;词汇[J];内蒙古广播与电视技术;2002年01期
中国重要会议论文全文数据库 前10条
1 陈丛梅;;双语词典中的“辞格”和“语域”问题[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
2 李明;;语料库与双语词典[A];第二届全国双语词典学术研讨会暨福建省辞书学会第九届年会论文集[C];1996年
3 姚丹霖;殷建平;;大型汉英双语电子词典的结构与自动生成[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
4 达·巴特尔;;双语词典的文化差异问题[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
5 黄建华;;第三届全国双语词典学术研讨会开幕词(代序)[A];中国辞书学会双语词典专业委员会第三届年会暨学术研讨会论文集[C];1998年
6 黄燕萍;;语用信息与双语词典[A];福建省外国语文学会2006年年会暨学术研讨会论文集(上)[C];2006年
7 孙吉娟;谢之君;;两本中型汉英词典的微观结构比较——《新汉英词典》和《实用汉英词典》[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
8 徐海;;英、汉分类词典编纂刍议[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
9 党军;;双语词典的多模态化——用户·词典·编者[A];福建省外国语文学会2010年年会论文集[C];2010年
10 傅维贤;;对比与双语词典[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
中国重要报纸全文数据库 前10条
1 文献中心 马福聚;中国俄语辞书的标志性工程[N];中国社会科学院院报;2007年
2 本报记者刘静;两会记者眼中的热门词汇[N];工人日报;2003年
3 新疆乌鲁木齐市 赵砾;别再糟蹋语言了[N];中华读书报;2009年
4 陶鑫良 上海大学知识产权学院院长;“山寨”的流行及其模仿之质辩(上)[N];中国知识产权报;2009年
5 赵强;百万词翁[N];中华读书报;2009年
6 张艳红;搭车广告“污染”抗震词汇[N];河北日报;2008年
7 张胜利;词汇一白色污染[N];中国保险报;2000年
8 叶祝颐;“绿色GDP”成代表“热门词汇”值得期待[N];海南日报;2007年
9 丰城市孙渡中心小学 徐友林;小学生词汇教学“三步法”[N];宜春日报;2009年
10 黄敏;“奥巴马困境”或成2011年热词[N];新华每日电讯;2010年
中国博士学位论文全文数据库 前10条
1 袁淑娟;中国英语学习者词汇推理研究[D];山东大学;2011年
2 杨会永;《佛本行集经》词汇研究[D];浙江大学;2005年
3 叶贵良;敦煌道经词汇研究[D];浙江大学;2005年
4 李芳兰;现代汉语语义韵的理论探索与习得研究[D];中央民族大学;2011年
5 徐红梅;皖北方言词汇比较研究[D];暨南大学;2003年
6 王仁强;认知视角的汉英词典词类标注实证研究[D];广东外语外贸大学;2006年
7 王圆圆;巴黎郊区年轻人使用音节倒置词现象的社会语言学研究[D];上海外国语大学;2010年
8 袁善来;比工仡佬语词汇研究[D];中央民族大学;2011年
9 化振红;《洛阳伽蓝记》词汇研究[D];四川大学;2001年
10 李星辉;湘南土话与湘南瑶语的接触和影响[D];湖南师范大学;2004年
中国硕士学位论文全文数据库 前10条
1 曹浩;基于机器学习的双语词汇抽取问题研究[D];南开大学;2011年
2 刘志刚;论双语词典中文化词条的翻译[D];华东师范大学;2011年
3 刘敏霞;英汉双语词典中例句翻译的研究[D];广东外语外贸大学;2004年
4 冯克江;论双语词典中释义的等值现象——实证研究[D];广东外语外贸大学;2004年
5 陈伟;论例证功能的对等[D];广东外语外贸大学;2003年
6 谭慧慈;《现代汉语词典(第5版)》收词变化情况统计研究[D];北京语言大学;2007年
7 王屹楠;双语英汉科学词典术语翻译和编撰工程管理研究[D];山东大学;2011年
8 裴正东;关注词语的多元文化信息 增强学生的多元文化意识[D];内蒙古师范大学;2004年
9 董青;威海方言初探[D];苏州大学;2008年
10 谢静蓉;文化和词汇——以及对教学意义的思考[D];华东师范大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026