收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

从互联网上挖掘双语语料的研究与实现

王莹  
【摘要】:随着因特网的普及和全球一体化不断发展,越来越多的双语网站被建立。在计算机辅助翻译成为人们研究的热点之后,双语语料逐渐成为自然语言处理中新兴的研究领域。双语语料库是计算机辅助翻译和机器翻译中训练数据的重要来源,同时对于双语教学、词典编纂和跨语言信息检索等也具有重要价值。 大规模双语语料的获取并不容易。本论文根据网页URL地址相似性和网页结构等的相关性来实现双语语料的自动挖掘,并利用句子对齐结果的反馈增强获取的双语网页的质量。论文描述了在Linux下如何利用wget获取双语网页,并从据此得到的网页中挖掘出候选网页做进一步的句子对齐处理。 实现网页中双语文本的句子对齐也一直都是国内外研究的热点,目前已有很多研究成果提出来。本论文讨论了句子对齐研究现状,分析了中英文句子以及双语网页的特点,综合利用长度和HTML网页标记,提出了一种基于中英文双语网页的句子对齐方法。该方法还考虑了人工调整参数修正句子对齐结果对对齐效果的优化。最后,设定了几种不同的实验条件,分别得出了基于中英文双语网页的句子对齐方法的实验结果。与现有的一些研究方法相比,这种利用HTML网页标记的方法无论是准确率还是召回率都有较大提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吕学强,李清隐,黄志丹,沈嫣娜,姚天顺;基于统计的汉英句子对齐研究[J];小型微型计算机系统;2004年06期
2 马芳 ,王炳锡 ,郭永辉;一种新的自纠错句对齐算法的研究与实现[J];微计算机信息;2005年20期
3 昝红英;张霞;刘亚雷;;基于多种长度单位的汉英句子分组对齐算法[J];郑州大学学报(理学版);2009年02期
4 熊伟;陈蓉;刘佳;徐淼;于中华;;面向小词典的高效英汉双语语料对齐算法[J];计算机工程;2007年13期
5 钱丽萍,赵铁军,杨沫昀,高光来;基于译文的英汉双语句子自动对齐[J];计算机工程与应用;2000年12期
6 斌子;织网酷软 网页文件压缩助理——HTML Shrinker[J];网络与信息;2003年02期
7 马向玲,马向阳,李伟;用Dreamweaver制作博士招生网站[J];教育信息化;2001年08期
8 小贝壳;保存网页的利器——网文快捕信息管理速战[J];电脑应用文萃;2004年03期
9 ;剖析恶意网页修改注册表[J];电脑数码采购周刊;2005年02期
10 miniworm;;圆角的革命[J];电脑爱好者;2007年07期
11 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期
12 陈宁江;杜凡远;;网页防篡改应用技术分析[J];现代机械;2009年03期
13 中英;;神奇的Internet临时文件夹[J];网络科技时代(数字冲浪);2002年01期
14 李佩华;制作网络版课件的快捷途径[J];教育信息化;2004年06期
15 于艳杰;网页文件上传方法分析与研究[J];哈尔滨学院学报;2005年05期
16 流言;;“傲游”因特网 生活从此更精彩……[J];电脑爱好者;2006年02期
17 汪学祥;;企业内部网软件平台的一种构建方案[J];山西煤炭管理干部学院学报;2007年03期
18 孙媛;;Java Applet内嵌网页运行初探[J];科技风;2010年12期
19 孙媛;;Java Applet运行浅论[J];电脑知识与技术;2010年21期
20 红客王子;;装个文件监控器 保护网站安全[J];电脑爱好者;2011年09期
中国重要会议论文全文数据库 前10条
1 吕学强;李清隐;任飞亮;姚天顺;;基于统计的汉英句子对齐研究[A];第一届学生计算语言学研讨会论文集[C];2002年
2 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 刘非凡;赵军;徐波;;大规模非限定领域汉英双语语料库建设及句子对齐研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 宁健;林鸿飞;;基于改进潜在语义分析的交叉语言检索[A];第五届全国信息检索学术会议论文集[C];2009年
5 陈博兴;杜利民;;基于双语语料的单个源语词汇和目标语多词单元的对齐[A];第一届学生计算语言学研讨会论文集[C];2002年
6 热西旦·塔依;加米拉·吾守尔;吐尔根·依布拉音;;汉文-维吾尔文双语对齐语料库的实验性研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 运海红;韩咏;何晓宁;齐浩亮;;基于模板转换的平行语料自动获取[A];第六届全国信息检索学术会议论文集[C];2010年
9 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
2 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
3 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年
4 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
5 余俊丰;Web程序与数据安全研究[D];华中科技大学;2011年
6 何川;分布式信息检索中的若干重要问题研究[D];北京邮电大学;2012年
7 沈慧锋;远程富媒体的呈现[D];中国科学技术大学;2010年
8 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
9 赵洁;基于粒计算的Web使用挖掘研究[D];华南理工大学;2010年
10 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 王莹;从互联网上挖掘双语语料的研究与实现[D];华东师范大学;2011年
2 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
3 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年
4 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年
5 林业;基于WEB的汉英双语语料获取研究[D];北京邮电大学;2012年
6 胡玉溪;基于双语语料的汉语多词表达抽取[D];北京邮电大学;2011年
7 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年
8 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
9 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年
10 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
中国重要报纸全文数据库 前10条
1 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
2 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
3 天涯;利用卡巴斯基删除顽固文件[N];电脑报;2007年
4 刘成富;编辑网页有妙法[N];计算机世界;2004年
5 海浪轻风;一二三说变就变[N];中国电脑教育报;2005年
6 ;网站安全必不可少的保护神[N];中国计算机报;2005年
7 邹本堃;“磁碟机”与“熊猫烧香”谁比谁更毒[N];中国消费者报;2008年
8 本报记者  刘志伟 通讯员  万学才;网监警方智破“熊猫烧香”案[N];科技日报;2007年
9 姜元学;初哥上网三注意[N];中国电脑教育报;2002年
10 陶秋丰;万事俱备,只欠东风[N];电脑报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978