基于语义分析的地址匹配研究
【摘要】:随着我国信息化进程和电子政务建设的不断深入,地理空间信息资源和地理信息技术在各政府部门中的共享应用也日益广泛,已涉及城市规划、建设、管理等众多领域。但是,目前经济、文化、社会等方面数据信息的空间地理特征并非以地理坐标形式存在,依然大量通过地址文字描述的方式进行表达,难以直接与空间地理数据进行融合、叠加和分析,限制了信息资源的共享、整合与综合利用。业界很多现有地址匹配方法,在实际应用中的效果尚不理想,尤其是对于重庆这样的山地城市,地址数据地方特色浓厚、历史遗留问题多、缺乏规律性,地址匹配遇到了更大的挑战。因此,研究如何提高地址匹配的成功率和准确度,对于信息资源的空间集成和共享应用有着非常重要的现实意义。本文围绕重庆市地址数据库建设及地理编码的实际需求,在深入研究重庆市地址数据现状和特点的基础上,提出构建中文语义地址模型的方法,通过优化现有地址要素结构、建立要素间空间关系等方式来增加上下文约束力,提高地址模型的适应性。以中文语义地址模型为依据,研究了标准地址库的设计、建库以及质量控制方法。立足中文语义地址模型和标准地址库的应用,本文在研究传统地址匹配算法的基础上,加入了自然语言处理的方法,提出了基于语义分析的地址匹配技术路线。在地址拆分中引入支持向量机,有效避免中文自然语言表达歧义,提高分词准确度和效率;在地址解析过程中通过非确定性有限状态机对地址要素进行规范,在一定程度上解决中文地名地址的匹配歧义问题,有效提高地址匹配成功率;在地址库匹配环节利用自然语言处理方法解决错别字引起的不匹配、地址歧义引起的错误匹配及模糊匹配等问题,提高地址匹配准确度。最后选择南岸区数据开展地址匹配实验,将本文提出的基于语义分析的地址匹配方法与三种传统地址匹配方法进行了比较,从匹配速度、匹配率及匹配准确度等方面寻找各自优缺点,验证了基于语义分析的地址匹配方法在综合性能上达到了较好的平衡。
|
|
|
|
1 |
孙亚夫;陈文斌;;基于分词的地址匹配技术[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年 |
2 |
李勇;陈文斌;;嵌入式平台上的地址搜索[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年 |
|