收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Python的中越双语可比语料构建

王洁  
【摘要】:随着我国“一带一路”战略的实施,我国和东南亚南亚周边国家的经贸合作与联系日益频繁。从技术层面,解决面向东南亚南亚小语种的跨语言沟通交流问题,成为研究的热点。双语语料库的构建是机器翻译、跨语言信息检索、文本分析的基础,一直是自然语言处理领域的研究重点。近年来,随着互联网和自然语言处理技术的发展,双语语料构建技术也在不断进步,基于互联网的采集和处理成为目前的主要构建方法,但对于小语种双语语料来说,因为资源极为匮乏,导致采集和构建技术需要充分考虑其特点,有效挖掘和利用有限资源,以期构建质量较高的语料库。本文以越南语作为构建对象,以数据挖掘技术与分析技术作为切入点,采用了基于跨语言信息检索(CLIR)的方法,通过源语料采集处理、关键词提取、目标语料获取和跨语言文本相似度分析四个方面的关键技术研究,设计构建了中越双语可比语料库。主要研究内容如下:1.源语料采集处理:分析网页特征和结构,编写对应的Python爬虫,下载中国商务部网站日常新闻作为研究的源语言语料。然后利用字符串替换,切片操作去除冗余信息,保留新闻标题及内容。2.关键词提取:在TFIDF算法的基础上,引入多特征因子进行权重计算,输出权重大的词作为关键词以提高关键词提取的准确性。3.目标语料获取:将提取到的关键词借助在线翻译工具翻译成目标检索词,为后续检索工作做准备。为充分利用资源,寻找与中国商务部网站内容相似度较高的越南新闻网站,并分析结构差异,根据越南新闻网站特点,编写爬虫获取目标语料。4.跨语言文本相似度分析:在相似度分析中,为提高分析和检索效率,本文将包含检索词较多的文章结合随机输出的方式对目标文档进行输出,以此完成检索。并利用机器翻译和引入LSI模型对文本进行语义处理,然后采用TFIDF模型进行单一语言文本相似度计算。本文的意义在于通过现有的网络资源,充分进行有价值的信息获取,实现中越双语语料库的构建。实验证明,采用本文的方法,有助于提升关键词提取效果和优化相似度计算,从而提高了中越双语可比语料库的构建质量。本文基于Python语言和相关开源包进行了研究和功能扩展,不仅解决了Python在小语种自然语言处理方面存在的局限性,也为Python语言在小语种双语语料库构建的研究提供借鉴和参考。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 卞玉露;蒋慧敏;;基于Python的气温数据分析设计与实现[J];信息通信;2019年09期
2 秦振华;牟永敏;张志华;;面向Python的圈复杂度静态分析方法研究[J];计算机仿真;2019年10期
3 汤卫;杨赟;;校企合作背景下的高职大数据专业Python课程教学研究[J];电脑知识与技术;2019年29期
4 张运玉;;基于Python的数据分析的研究[J];电脑知识与技术;2019年30期
5 于雁;;高中信息技术python模拟程序的编写及应用[J];电脑知识与技术;2019年30期
6 李俊华;;基于Python的网络爬虫研究[J];现代信息科技;2019年20期
7 彭芳;齐大鹏;吉廷艳;;基于Python的高速公路大雾预报预警系统建设[J];电脑知识与技术;2019年28期
8 马文秀;李焱;;Python程序设计从知识型课程向能力培养型课程的改革实践[J];电脑知识与技术;2019年28期
9 王崇刚;;基于Python在线翻译爬虫的实现[J];电脑知识与技术;2019年28期
10 王雄;;使用Python的5个理由[J];计算机与网络;2019年21期
11 王美芝;支学超;刘财辉;;基于Python的多线程聚焦网络爬虫设计与实现[J];赣南师范大学学报;2019年06期
12 徐玉芳;苏斌;;Python语言特点及其在机器学习中的应用[J];计算机产品与流通;2019年12期
13 马宁;陈曦;陈正铭;;基于Python的流程自动执行关键技术研究与实现[J];电脑知识与技术;2019年32期
14 方炜;;基于Python的图书采购查重系统的设计与实现[J];图书馆研究与工作;2019年12期
15 关莉莉;;打造“金课”的实践探索——以《利用Python进行数据分析》课程为例[J];中小企业管理与科技(上旬刊);2019年12期
16 张文军;;Python在学院招生数据分析中的应用[J];信息技术与信息化;2019年11期
17 赵颖珺;金宁敏;;Python的数据结构课程研究[J];东西南北;2019年19期
18 胡伟俊;;教育技术教学中引入Python知识的探讨[J];数码世界;2019年12期
中国重要会议论文全文数据库 前10条
1 黄佳聪;高俊峰;;基于Python编程语言的空间动态模型集成[A];自然地理学与生态安全学术论文摘要集[C];2012年
2 连高欣;;Python语言在Cimiss中的应用[A];第35届中国气象学会年会 S20 深度信息化:应用支持与智能发展[C];2018年
3 高磊;;基于Python的ArcGIS逐要素浏览工具开发研究[A];华东区海峡两岸交流研讨论文集[C];2019年
4 王亚东;;Python在气象数据可视化中的应用[A];第34届中国气象学会年会 S20 气象数据:深度应用和标准化论文集[C];2017年
5 ;Development of Python-based ArcGIS Tools for Spatially Balanced Forest Sampling Design[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
6 陈琳;任芳;;基于Python的新浪微博数据爬虫程序设计[A];第33届中国气象学会年会 S13 “互联网+”与气象服务——第六届气象服务发展论坛[C];2016年
7 高绵新;;基于Python的ArcGIS脚本工具在DEM精细化生产中的应用[A];全国测绘科技信息网中南分网第三十次学术信息交流会论文集[C];2016年
8 王兰成;;基于Python设计的索引智能标引与检索研究——以《张琪玉索引学文集》和《中国索引(第一辑)》为例[A];2019年中国索引学会年会暨学术研讨会论文集[C];2019年
9 陈路;;基于Python的基础性地理国情监测数据处理[A];华东区海峡两岸交流研讨论文集[C];2019年
10 于文丽;;基于Python的空间自相关模式研究[A];中国地理学会百年庆典学术论文摘要集[C];2009年
中国博士学位论文全文数据库 前2条
1 徐兆桂;Python程序缺陷的自动检测与定位技术[D];南京大学;2017年
2 张幂;基于动态语言的系统描述、验证和综合[D];复旦大学;2009年
中国硕士学位论文全文数据库 前10条
1 王洁;基于Python的中越双语可比语料构建[D];云南大学;2018年
2 刘佩瑶;Python脚本的脆弱性检测研究与实现[D];北京交通大学;2019年
3 钟娟娟;基于Python的纸张参数在线监测系统设计[D];长安大学;2019年
4 袁鼎;基于Object-Z的UML类图形式化及Python代码生成研究[D];南华大学;2019年
5 姚缙然;基于Python的粮食产量组合预测模型研究及应用[D];武汉轻工大学;2019年
6 王文韬;基于Python的城市PM_(2.5)数据分析与绿色经济效率研究[D];中国石油大学(华东);2017年
7 许晓飞;基于Python的宽带车联网路由层和MAC层的设计与实现[D];厦门大学;2017年
8 马洪跃;面向类型推导的Python类型标注分析[D];南京大学;2019年
9 杨帆;初中学段编程校本课程开发与评价研究[D];上海师范大学;2019年
10 钱宇;基于Python的自动化图片特征存取系统的设计与实现[D];北京邮电大学;2019年
中国重要报纸全文数据库 前10条
1 ;你使用的Python对象占用了多少内存?(上)[N];电脑报;2019年
2 ·特约作者 邹肇辉;BT编程的王者[N];电脑报;2005年
3 张俊红 《对比Excel,轻松学习Python数据分析》作者;为什么要写《对比Excel,轻松学习Python数据分析》[N];新华书目报;2019年
4 西南科技大学城市学院 刘光乾;在Windows上使用Python进行开发(一)[N];电子报;2019年
5 西南科技大学城市学院 刘光乾;在Windows上使用Python进行开发(二)[N];电子报;2019年
6 ;如何利用Python为自然语言处理加速[N];电脑报;2019年
7 高寿福;无所不能的灵蛇——Python[N];中华读书报;2001年
8 本报记者 王延斌;小学教育应有Python一席之地[N];科技日报;2018年
9 易水;IT新词集锦(403)[N];计算机世界;2004年
10 Christina Mercer 编译 杨勇;2018年的主要IT技术:最需要、增长最快的IT技术[N];计算机世界;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978