基于公共地图访问日志数据的城市热点与商圈探索分析
【摘要】:改革开放后随着经济的高速增长,国内很多城市商圈无序扩张的现象日益严重。然而,当前对城市商圈的研究较少认识不足,不利于规划部门做出合理的指导。互联网技术的进步使得网络公共地图服务得到了快速普及。用户访问公共地图网站产生的日志数据因带有丰富的地理位置信息而使其成为众源地理数据的一种,对这种Web日志数据进行商圈相关挖掘具有研究应用价值。论文针对当前商圈度量方法时效性差,成本高,准确率不高等问题,提出一种基于公共地图访问数据的城市商圈度量方法。为了得到高质量的数据,论文选择Hadoop及相关组件作为数据预处理的基础框架,把原始数据存储在分布式文件系统(Hadoop Distributed File System,HDFS)中,使用ETL(Extract Transform Load)数据处理方法对数据进行抽取、清洗、转换。将ETL后的数据存储到HBase数据库中以供后续分析使用。针对转换后的访问位置数据量大且离散的问题,论文使用格网化方法将数据转化为具有空间连续性且能更好地反应访问事件集聚密度的格网数据。为了挖掘出隐含在数据中的热点区域和商圈空间分布模式,运用探索性空间数据分析方法对数据进行全局空间自相关检验,探索公共地图访问数据的空间分布模式。接着探索了研究区域的最优聚类距离并构造空间关系矩阵,使用局部空间自相关方法对热点区域进行探测。最后提取出商业类高值热点使用构造标准差椭圆的方法对城市商圈进行度量。为了选出合适的研究区域,统计各个城市的公共地图访问人数,发现各城市用户量符合Zipf分布。选择用户量较多的深圳市为本文研究,探测结果表明基于公共地图访问数据挖掘出的深圳市商圈分布与深圳市规划的商圈具有高度正相关性,可以为政府部门编制区域规划、企业经营管理提供服务。