收藏本站
收藏 | 论文排版

基于Web论文库的学术领域双语资源研究

廖晓玲  
【摘要】: 双语资源在计算语言学研究领域具有十分特殊的地位,对机器翻译、双语词典编纂、术语抽取、跨语言信息检索等研究和应用提供了有力的支持。对双语资源的研究面临着如下三个问题:如何获取双语资源?如何对双语资源进行加工处理?如何使用双语资源构建应用?本文基于学术领域双语资源对这三个问题进行了探讨和解决。 基于Web论文库获取学术领域双语资源是一种自然而然的方法。本文设计并实现了Web论文库爬行器,对Web论文库进行增量爬行,高效地获取学术领域双语资源,从而构建动态更新的学术领域双语资源库。接着探讨了如何在获取到的学术领域双语资源库上进行句子对齐处理。本文实现了经典的基于统计的句子对齐算法,并对算法进行了一系列改进,包括断句不采用冒号为边界、选用更好的句对评价函数、结合学术领域双语资源自有的关键字信息、增加处理的匹配模式等,显著地提高了句子对齐算法的准确率和召回率。经过句子对齐处理的学术领域双语资源库采用xml文件的格式组织存储。最后,本文尝试在学术领域双语资源库上构建基于短语的统计机器翻译系统,证实了学术领域双语资源的可用性。 基于Web论文库的学术领域双语资源研究,对双语资源的获取、加工处理以及应用这三个问题的解决提供了一个新的思路。如何更好地解决这三个问题将是下一步的研究方向。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 沙杰,刘战术,陈国防;中小径管道爬行器控制系统设计[J];测控技术;2000年04期
2 孙萍,孙麟治;细小管道爬行器的研究与开发[J];机电一体化;2000年05期
3 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
4 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期
5 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期
6 李卫疆;赵铁军;;面向Blog的爬行算法[J];计算机工程与应用;2008年31期
7 李卫疆;赵铁军;朴星海;;一种新的面向主题的爬行算法[J];计算机应用研究;2009年05期
8 文必龙;叶静;;基于SES通用爬行器的设计与实现[J];哈尔滨商业大学学报(自然科学版);2011年04期
9 任小燕;康小军;张红卫;;基于动态隧道算法的网络爬行器设计与实现[J];现代图书情报技术;2008年06期
10 关慧芬;师军;马继红;;网络爬行技术研究[J];郑州轻工业学院学报(自然科学版);2008年06期
11 李建中;孙丽萍;孙泽林;;火炮身管弯曲度、炮口角测量系统驱动控制[J];兵工自动化;2011年06期
12 刘刚;方滨兴;胡铭曾;张宏莉;;类Gnutella的对等网络的测量方法研究[J];计算机应用研究;2006年06期
13 蒋宗礼;赵钦;肖华;王蕊;;高性能并行爬行器[J];计算机工程与设计;2006年24期
14 林其东;陈传波;郑乐丹;张一曼;;数字图书馆主题搜索引擎的设计与实现[J];计算机应用研究;2009年08期
15 姜志宏;王晖;樊鹏翼;袁雪美;;一个P2P IPTV多协议爬行器——TVCrawler[J];计算机应用;2010年03期
16 李友;高翌飞;简超;张泽义;谷柱;;多用途智能爬行器的研制[J];无损检测;2011年03期
17 李友;高翌飞;张泽义;简超;;多用途智能爬行器控制系统设计[J];无损检测;2011年04期
18 郭少友;赵善义;李建平;王斌;;基于数据库分类的deep web爬行器研究[J];情报科学;2011年10期
19 宋建平;唐天同;;STM中样品与针尖控制接近的研究[J];电子显微学报;1991年01期
20 沈文勤,李庆超,邵志清;搜索引擎的渐增式爬行和备份式更新模式[J];华东理工大学学报;2004年03期
中国重要会议论文全文数据库 前10条
1 热西旦·塔依;加米拉·吾守尔;吐尔根·依布拉音;;汉文-维吾尔文双语对齐语料库的实验性研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 熊维;王震;于新;刘汇丹;诺明花;马龙龙;张立强;洪锦玲;吴健;;ISCAS机器翻译系统与评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 吕学强;李清隐;任飞亮;姚天顺;;基于统计的汉英句子对齐研究[A];第一届学生计算语言学研讨会论文集[C];2002年
4 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 范莉馨;任福继;宫永喜一;(木厉)内香次;;一个利用句子结构特征实现的中日机器翻译系统[A];中国科学技术协会首届青年学术年会论文集(工科分册·上册)[C];1992年
7 卢丹晖;;机器翻译的应用前景[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
8 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
9 田中康仁;;关于机器翻译系统未来的方向[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 宋金平;肖健;孙广范;;面向北京奥运会的定制化英汉机器翻译系统[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 王博;机器翻译系统的自动评价及诊断方法研究[D];哈尔滨工业大学;2010年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 方淼;语义单元自动获取研究[D];大连理工大学;2008年
4 关晓薇;基于语义语言的机器翻译系统中若干关键问题研究[D];大连理工大学;2009年
5 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
6 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
7 武斌;面向俄文信息处理的机器翻译实验研究[D];中国人民解放军外国语学院;2007年
8 郑毅;特殊环境下图像测量关键技术研究[D];西安电子科技大学;2008年
9 高进伟;复杂井况下套管的可靠性与风险评估研究[D];中国石油大学;2007年
10 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 廖晓玲;基于Web论文库的学术领域双语资源研究[D];天津大学;2008年
2 毕雪华;汉维双语语料库中句子对齐技术的研究[D];新疆大学;2006年
3 热西旦;汉文—维吾尔文双语语料库构建的实验性研究[D];新疆大学;2007年
4 李映;基于实例的机器翻译关键技术的研究和实现[D];苏州大学;2008年
5 李建永;长距离输油管线电动爬行器的研究[D];大连理工大学;2007年
6 任宣映;汉韩语言比较及基于规则的汉韩机器翻译系统研究[D];清华大学;2004年
7 朱海;基于混淆网络的机器翻译系统融合研究[D];中国科学技术大学;2010年
8 董东野;互联网爬行器的研究与实现[D];吉林大学;2010年
9 林准;古今汉语对齐研究[D];北京邮电大学;2007年
10 祝志杰;IHSMTS中汉英双语句子对齐机制的设计与实现[D];南京理工大学;2002年
中国重要报纸全文数据库 前10条
1 记者 刘阳子;中国专利信息传播与利用进入新阶段[N];中国知识产权报;2008年
2 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
3 ;我国首个基于搜索引擎的机器翻译系统问世[N];中国高新技术产业导报;2008年
4 李健飞;北方无损检测公司第四代射线爬行器研制成功[N];中国石油报;2001年
5 熊德意何中军 刘群;机器翻译渐行渐近[N];计算机世界;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 黄瑾刘洋 刘群;机器翻译的自动评测技术[N];计算机世界;2007年
8 记者  徐敏 实习生 陆瑶;机器人将沉入海底检测油气管道[N];解放日报;2006年
9 李开复;互联网七大趋势[N];21世纪经济报道;2006年
10 李开复;网络改变生活 科技创新世界[N];中国企业报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978