收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的双语词汇抽取问题研究

曹浩  
【摘要】:传统的双语词汇词典,一般由人工整理、编辑,具有权威度高、词条质量高的特点,但是其编制需要花费大量的人力、物力和时间。与此同时,随着互联网的发展和社会的发展,各种各样新的知识和话题涌现出来,每天都大量增加的新的词条,难以在短时间内通过人工添加到词典中去,造成了词典里的词条缺失、时效性不够等缺点。而随着互联网的发展,互联网所承载的信息量越来越大,页面信息越来越多,大量的双语词汇在网页页面中出现,从这些资源中,可以抽取大量有效的双语词汇。而且这些双语词汇具有词条新、专业术语翻译丰富等特点。如果通过一定的自动化手段,自动去收集整理这些有用的双语词条互译信息,积少成多,将会形成极为丰富的双语词汇资源。但是由于互联网信息的杂乱、非结构化和网页质量良莠不齐等问题,如何从非结构化的网页中去抽取双语词条是一个问题,而且因为抽取出来的词条并不一定是高质量的词条,所以将抽取的词条直接用来作为双语词条是不可行的。在抽取双语词条时,存在着(1)如何从网页文本等非结构化的数据中抽取双语词条。(2)如何去评估抽取的双语词条是否正确的。(3)对于抽取出来低质量的词条,是否可以进行加工后得到高质量词条等问题。 针对这上面所列出的问题,本文提出了一种基于机器学习方法来抽取双语词汇,基于以前方法存在的问题,做出了如下的贡献:(1)首先,对于如何从文本这样非结构化的数据中抽取双语词条这个问题,传统的使用固定模式抽取词条的方法受限于人的先验知识所归纳整理的规则,本文提出一种基于模式挖掘的方法,首先使用固定模式去抽取种子词,再用种子词去抽取更多的模式,再用新的模式去抽取更多的双语词汇的方法,克服了固定模式带来的局限性,提高了召回率。实验表明,该方法提高了抽取双语词条的召回率,而且具有不受初始种子选取影响,迭代可以到稳定的收敛状态。(2)其次,对于衡量和判断抽取出来的双语词条是否正确的问题,分析了目前主要使用的各种基于单因素方法的局限性,提出了使用基于SVM模型来融合多种因素的方法,去判断双语词条是否为互译关系,实验表明,该方法提高了抽取双语词条的准确率。(3)最后,在词条抽取出来后,被判定为低质量的词条中,有相当一部分的词条可以通过截断得到高质量的词条,如果能正确判定词条截断位置,可以进一步地提高抽取的召回率。本文将词条截断位置判断的问题建模为一个排序问题,提出了使用监督排序模型来预测判定词条截断的位置。实验证明,与传统方法相比,改进后的方法提高了抽取出来的双语词条的准确率和召回率,取得了较好的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 高玲玲;双语词典的实用功能及编写特点——从《简明汉葡词典》得奖谈起[J];大学出版;2001年03期
2 ;书讯[J];国外社会科学;1986年01期
3 文斌;;精简而另类的双向词典——梅花双语词典[J];电脑爱好者(普及版);2008年10期
4 ;研究生论文文摘[J];现代图书情报技术;1996年01期
5 王正;孙东云;;论双语词典的修订[J];中国图书评论;2009年08期
6 祝启波;一部专业技术双语词典的计算机转换及其结果分析[J];辞书研究;1997年05期
7 晋薇;黄河燕;夏云庆;;基于语义相似度并运用语言学知识进行双语语句词对齐[J];计算机科学;2002年11期
8 王丽;韩习武;;双语词典在统计机器翻译中的应用[J];计算机工程与应用;2010年16期
9 琦;十卷本《罗马尼亚语词典》已编纂完成[J];国外社会科学;1979年04期
10 ;词汇[J];内蒙古广播与电视技术;2002年01期
11 李涛;徐芳;;陌生化排版与双语词典例句翻译功能的拓展——基于传播学视角的实证研究[J];出版科学;2009年02期
12 林玲,滕宇春;近十年来我国双语语文词典出版综览[J];河南图书馆学刊;2001年05期
13 梦雪;《词汇奥秘Ⅱ》的特色[J];电脑;1999年04期
14 顾海峰;;国内双语电子词典现状简论[J];中国科技信息;2010年22期
15 ;DV词汇总动员[J];软件工程师;2005年05期
16 陈琴;;跨语言信息检索中双语词典的建立和翻译方法[J];计算机应用与软件;2010年07期
17 李文方;;旷世典谟 世纪丰碑——写在《俄汉详解大词典》出版之际[J];全国新书目;1998年01期
18 ;词汇也需“休息”[J];新闻传播;2006年09期
19 曾文;王惠临;徐红姣;;汉英双语词典的自动构建技术研究[J];情报学报;2011年04期
20 张晶,姚建民,赵铁军,李生;基于Word Net和How Net建设双语语义词典[J];高技术通讯;2001年12期
中国重要会议论文全文数据库 前10条
1 陈丛梅;;双语词典中的“辞格”和“语域”问题[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
2 李明;;语料库与双语词典[A];第二届全国双语词典学术研讨会暨福建省辞书学会第九届年会论文集[C];1996年
3 姚丹霖;殷建平;;大型汉英双语电子词典的结构与自动生成[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
4 达·巴特尔;;双语词典的文化差异问题[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
5 黄建华;;第三届全国双语词典学术研讨会开幕词(代序)[A];中国辞书学会双语词典专业委员会第三届年会暨学术研讨会论文集[C];1998年
6 黄燕萍;;语用信息与双语词典[A];福建省外国语文学会2006年年会暨学术研讨会论文集(上)[C];2006年
7 孙吉娟;谢之君;;两本中型汉英词典的微观结构比较——《新汉英词典》和《实用汉英词典》[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
8 徐海;;英、汉分类词典编纂刍议[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
9 党军;;双语词典的多模态化——用户·词典·编者[A];福建省外国语文学会2010年年会论文集[C];2010年
10 傅维贤;;对比与双语词典[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 袁淑娟;中国英语学习者词汇推理研究[D];山东大学;2011年
2 杨会永;《佛本行集经》词汇研究[D];浙江大学;2005年
3 叶贵良;敦煌道经词汇研究[D];浙江大学;2005年
4 李芳兰;现代汉语语义韵的理论探索与习得研究[D];中央民族大学;2011年
5 徐红梅;皖北方言词汇比较研究[D];暨南大学;2003年
6 王仁强;认知视角的汉英词典词类标注实证研究[D];广东外语外贸大学;2006年
7 王圆圆;巴黎郊区年轻人使用音节倒置词现象的社会语言学研究[D];上海外国语大学;2010年
8 袁善来;比工仡佬语词汇研究[D];中央民族大学;2011年
9 化振红;《洛阳伽蓝记》词汇研究[D];四川大学;2001年
10 李星辉;湘南土话与湘南瑶语的接触和影响[D];湖南师范大学;2004年
中国硕士学位论文全文数据库 前10条
1 曹浩;基于机器学习的双语词汇抽取问题研究[D];南开大学;2011年
2 刘志刚;论双语词典中文化词条的翻译[D];华东师范大学;2011年
3 刘敏霞;英汉双语词典中例句翻译的研究[D];广东外语外贸大学;2004年
4 冯克江;论双语词典中释义的等值现象——实证研究[D];广东外语外贸大学;2004年
5 陈伟;论例证功能的对等[D];广东外语外贸大学;2003年
6 谭慧慈;《现代汉语词典(第5版)》收词变化情况统计研究[D];北京语言大学;2007年
7 王屹楠;双语英汉科学词典术语翻译和编撰工程管理研究[D];山东大学;2011年
8 裴正东;关注词语的多元文化信息 增强学生的多元文化意识[D];内蒙古师范大学;2004年
9 董青;威海方言初探[D];苏州大学;2008年
10 谢静蓉;文化和词汇——以及对教学意义的思考[D];华东师范大学;2004年
中国重要报纸全文数据库 前10条
1 文献中心 马福聚;中国俄语辞书的标志性工程[N];中国社会科学院院报;2007年
2 本报记者刘静;两会记者眼中的热门词汇[N];工人日报;2003年
3 新疆乌鲁木齐市 赵砾;别再糟蹋语言了[N];中华读书报;2009年
4 陶鑫良 上海大学知识产权学院院长;“山寨”的流行及其模仿之质辩(上)[N];中国知识产权报;2009年
5 赵强;百万词翁[N];中华读书报;2009年
6 张艳红;搭车广告“污染”抗震词汇[N];河北日报;2008年
7 张胜利;词汇一白色污染[N];中国保险报;2000年
8 叶祝颐;“绿色GDP”成代表“热门词汇”值得期待[N];海南日报;2007年
9 丰城市孙渡中心小学 徐友林;小学生词汇教学“三步法”[N];宜春日报;2009年
10 黄敏;“奥巴马困境”或成2011年热词[N];新华每日电讯;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978