收藏本站
《南京大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

东南亚若干首都城市街景图像汉字检测与时空分布分析

王娅君  
【摘要】:"一带一路"建设主要内容是实现沿线各国的"五通",即政策沟通、设施连通、贸易畅通、资金融通、民心相通。系统、有效、定量地评价"五通"建设的基本现状,为科学决策、区域合作等提供重要的信息参考和数据支撑。"五通"的基础是"语言互通",文字是语言的重要组成部分,"一带一路"沿线国家的汉字使用情况,能够有效反映不同国家与我国最真实的交流情况,反映"互联互通",特别是能够直观了解沿线国家与我国在民心相通、文化相通等方面的现状。东南亚是"一路"重点区域,从空间的角度定量研究东南亚汉字空间分布,能为"一带一路"沿线国家汉字空间分布研究提供应用示范。传统数据获取手段,难以获取大范围、空间化的汉字空间分布信息。街景地图能展示街道立面细节,包括城市内文字使用的情况,且具有有地理位置、覆盖范围广、用户可免费获取的特点,为汉字空间信息获取提供了数据支撑。自然图像文字检测相关算法已较为成熟,但从多语言自然图像中检测汉字的研究不足。受制于数据获取的制约,汉字空间分布相关研究尚且空白,如何科学系统地对汉字空间分布分析及评价值得研究。针对汉字空间分布信息获取困难且相关空间分布研究不足,建立基于街景图像汉字空间分布信息获取技术流程,并构建一套科学的汉字时空分布分析及评价体系。研究主要内容包括:(1)街景图像汉字检测。基于街景地图,提出"数据获取——文字检测——汉字判别"的街景图像汉字检测算法流程。利用网络数据获取技术,采集东南亚若干首都城市具有地理坐标的街景图像。依据街景图像的特点及文字检测的技术难点,利用连接文本建议网络检测、改进的最大稳定极值区域、基于笔画宽度这三种方法对街景图像进行文本行检测并对比结果,根据准确率和召回率指标选择满足要求的算法检测结果作为汉字判别的数据源。最后,通过分析汉字的特点及与其他文字的区别,提出基于字符分割、字符特征计算的汉字判别方法,获取东南亚若干首都城市汉字空间分布点数据。(2)汉字空间分布特征分析。基于街景图像中解译出的汉字空间分布点数据,通过数理统计分析东南亚若干首都城市汉字分布数量、密度、人均数量差异;通过空间分析手段探索东南亚若干首都城市内汉字空间分布特征,包括分布主方向、空间聚集度、空间均衡度。对汉字分布与道路网络中心进行相关分析,研究不同城市内汉字所处区位优势。引入中心地理论对各城市内部汉字标牌空间辐射范围及能力进行计算和评估。系统了解汉字在东南亚若干首都城市的空间分布状况,并对东南亚若干首都城市内汉字分布特征进行横向对比。(3)新加坡汉字分布时序变化分析。对新加坡2008年、2013年、2015年间汉字空间分布变化分析,统计新加坡中心城区与各区县汉字分布数量、密度变化情况;利用空间分析技术从分布主方向及重心、集聚度、均衡度、区位优势度及空间辐射度等角度,研究其在两个时间段、三个时间节点上汉字分布的时空变化特征,揭示汉字空间分布变化规律和区域差异。研究结果表明:(1)东南亚7个首都城市中,汉字分布数量最多、密度最高的吉隆坡,分布最少的是雅加达。7个城市汉字均呈现集聚分布特征,吉隆坡中心城区汉字分布集聚性最高,曼谷中心城区汉字分布集聚程度最低。金边汉字分布空间均衡性最好,马尼拉最差。7个城市汉字均主要分布在居民服务类道路,且与道路网络中心性正相关,区位优势度最强为金边,最低的为雅加达。就汉字空间辐射能力而言,金边中心城区汉字辐射能力近乎全覆盖;雅加达中心城区汉字辐射覆盖程度最低,汉字对金边中心城区居民的影响力最强,对雅加达影响力最弱。(2)2008到2015年间,新加坡汉字标牌数量在逐年增加,主要分布在中环区和加冷区,各区面密度均有所提高,核密度高值区向中环区移动,整体分布重心向西南方向移动。新加坡汉字标牌分布空间聚集性基本不变,空间均衡度略微下降。新增汉字标牌主要分布在居民类道路,整体空间辐射范围大幅增加,城市中居民接触汉字的机会增加,汉字在新加坡的影响力增强。本文对东南亚若干首都城市汉字空间分布进行了多角度的分析和探讨,取得了较好研究成果,但论文也存在一些不足。基于字符特征的汉字判别对于日语或字符特征不明显的拼音形文本无法完全剔除,且未对文本内容识别,如何提高汉字判别有效性和识别文字内容有待进一步研究。此外,本文仅从空间、路网的角度对汉字空间分布进行分析,对其空间分布差异的内在原因研究不足,在后续研究中,可以引入唐人街、商业中心、华对外投资、政策影响、当地华族人变迁等因素,研究东南亚汉字分布差异机制。
【关键词】:东南亚 汉字空间分布 街景图像 文字检测 一带一路
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:P208;H12
【目录】:
  • 摘要4-7
  • Abstract7-20
  • 第一章 引言20-34
  • 1.1 研究背景20-22
  • 1.1.1 选题背景20-22
  • 1.1.2 研究意义22
  • 1.2 国内外研究现状22-28
  • 1.2.1 街景图像应用研究现状22-23
  • 1.2.2 汉字检测研究现状23-26
  • 1.2.3 空间分析研究现状26-28
  • 1.3 研究目标与方法28-32
  • 1.3.1 研究目标28
  • 1.3.2 研究内容28-29
  • 1.3.3 技术路线29-32
  • 1.4 论文组织结构32-34
  • 第二章 研究区与数据34-46
  • 2.1 研究区概况34-37
  • 2.1.1 东南亚若干首都城市概况35
  • 2.1.2 语言及文字使用情况35-36
  • 2.1.3 华人华侨数量及比例36
  • 2.1.4 中国游客赴地出境旅游情况36-37
  • 2.2 数据介绍及获取37-41
  • 2.2.1 OpenStreetMap数据37-38
  • 2.2.2 街景图像38-41
  • 2.3 数据预处理41-46
  • 2.3.1 OpenStreetMap数据预处理41-42
  • 2.3.2 街景图像预处理42-46
  • 第三章 街景图像汉字检测46-64
  • 3.1 文字检测46-53
  • 3.1.1 SWT检测算法46-47
  • 3.1.2 MSER检测算法47-50
  • 3.1.3 CIPN检测算法50-53
  • 3.2 汉字判别53-57
  • 3.2.1 汉字特征分析54
  • 3.2.2 字符切分54-56
  • 3.2.3 字符特征计算56
  • 3.2.4 汉字判别56-57
  • 3.3 实验与分析57-62
  • 3.4 本章小结62-64
  • 第四章 汉字空间分布特征分析64-96
  • 4.1 空间分布整体描述64-81
  • 4.1.1 城市间分布特征描述64-67
  • 4.1.2 城市内分布特征描述67-78
  • 4.1.3 分布主方向分析78-81
  • 4.2 空间集聚度81-83
  • 4.2.1 最邻近指数81-82
  • 4.2.2 Ripley'K函数法分析82-83
  • 4.3 空间均衡度83-88
  • 4.3.1 均衡度指数83-84
  • 4.3.2 不平衡指数84-87
  • 4.3.3 均衡比系数87-88
  • 4.4 区位优势度88-92
  • 4.4.1 道路等级分布88-89
  • 4.4.2 区位优势度分析89-92
  • 4.5 空间辐射度92-94
  • 4.5.1 辐射半径计算92-93
  • 4.5.2 空间辐射度分析93-94
  • 4.6 本章小结94-96
  • 第五章 汉字分布时序变化分析96-106
  • 5.1 汉字空间分布变化总概96-101
  • 5.1.1 数量变化96-98
  • 5.1.2 密度变化98-101
  • 5.2 空间分布模式变化101-102
  • 5.2.1 空间集聚度变化101
  • 5.2.2 空间均衡度变化101-102
  • 5.3 区位优势及空间辐射变化102-104
  • 5.3.1 道路等级分布变化102
  • 5.3.2 区位优势度变化分析102-103
  • 5.3.3 空间辐射度变化103-104
  • 5.4 本章小结104-106
  • 第六章 结论与展望106-108
  • 6.1 研究结论106
  • 6.2 创新点106-107
  • 6.3 研究展望107-108
  • 参考文献108-116
  • 攻读硕士学位期间取得的主要成果116-118
  • 致谢118-120

【相似文献】
中国期刊全文数据库 前8条
1 谭学厚;;热学教学软件的汉字化[J];南京大学学报(自然科学版);1986年04期
2 潘以锋;计算机在汉字自动注音中的应用[J];上海师范大学学报(自然科学版);1996年04期
3 李行健;汉字的规范和改革[J];百科知识;1994年07期
4 康言午;;新世纪呼唤汉字的完整解决方案[J];科学新闻;2003年05期
5 ;“黄钟信息”:开创汉字信息产业的新境界[J];华东科技;2004年Z1期
6 吴佑寿;汉字计算机自动识别研究的进展[J];科学通报;1991年04期
7 张炘中,阎昌德,刘秀英,王玉;印刷体汉字文本的微型计算机自动识别[J];中国科学(A辑 数学 物理学 天文学 技术科学);1990年01期
8 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 王晓明;王敏;;国际基本子集的诞生及其构成概况[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
2 张小衡;苏咏昌;;进一步加强汉字规范笔顺的规律性[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前2条
1 杨瑞汉;义音汉字系统的创制[D];湖南师范大学;2009年
2 苏统华;脱机中文手写识别—从孤立汉字到真实文本[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 李莉;欧美中级汉语水平学生汉字认读能力与口语水平相关性研究[D];南京大学;2014年
2 王娅君;东南亚若干首都城市街景图像汉字检测与时空分布分析[D];南京大学;2017年
3 赵漫兰;建构主义及其在《汉字》教材中的体现[D];浙江大学;2011年
4 原玉明;以汉字构造规律为指导谈小学识字教学[D];天津师范大学;2015年
5 廖丹;汉字的知识论意义及其教学策略研究[D];四川师范大学;2015年
6 秦枫;视频图像汉字的仿人识别机理研究[D];合肥工业大学;2004年
7 胡恒兴;票据中的手写金融汉字自动识别研究[D];华中师范大学;2002年
8 张建勋;汉字键盘输入和非键盘输入若干问题研究[D];安徽大学;2003年
9 何琼;初级阶段欧美学生汉字学习策略与教授方法研究[D];厦门大学;2008年
10 钱自拓;汉字图像识别研究[D];合肥工业大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026