大规模轨迹数据的检索、挖掘和应用
【摘要】:轨迹可以看作是移动对象随着时间的变化在空间中留下的印迹。近年来,随着民用GPS(全球定位系统,Global Positioning System)等定位设备在移动终端上的广泛使用以及基于位置服务(Location-Based Service)和移动社交网络(Mobile Social Network)的发展和普及,大量的轨迹数据在日常生活中正在日益积累并为不同类型的应用所服务。
这些与轨迹相关的新兴技术和服务为人们的生活带来方便的同时,也对海量轨迹数据的管理和利用提出了极大的挑战。如何高效的检索轨迹数据,如何从轨迹数据中挖掘出对不同的应用有价值的潜在信息,已经成为时空数据管理和挖掘领域的一个重要研究课题。本文围绕轨迹数据的检索和挖掘,针对移动对象和轨迹的k近邻检索、轨迹数据的映射和地图匹配、轨迹数据挖掘及其在智能交通中的应用等若干重要问题展开研究,并结合实际应用,给出了具体的解决方案和实际系统,这些研究成果具有重要的学术价值和广泛的应用前景。具体而言,本文的主要研究成果、贡献和创新点可概括为以下几点:
1)提出了一种路网中移动对象连续k近邻检索的高效近似算法。传统的基于欧氏距离的k近邻算法不能适用于基于路网距离的移动对象的k近邻检索,现有的路网中移动对象的k近邻检索由于其计算代价巨大,很难适用于在线连续检索。本文提出的方法通过从路网中提取特征集,利用离线计算与在线计算相结合的方式,实现了高效的连续k近邻的实时检索。此外,本文针对算法复杂度和近似精度给出了理论分析和证明。
2)提出了k近邻轨迹检索的概念,并将k近邻轨迹检索问题转化为聚合top-k查询问题。本文提出了在无随机访问情形下,top-k聚合查询的高效算法,本文针对实例最优性和访问时间进行了理论分析和优化,并在生成数据集和大量真实数据集上验证了该算法的高效性和有效性。
3)提出了针对轨迹数据挖掘预处理的若干算法。针对轨迹数据在路网中的映射,本文提出了一个基于图像处理中形态学方法的地图分割算法,巧妙的解决了基于栅格的路网分割问题;针对路网中的低采样率轨迹,本文提出了一种基于相互投票的地图匹配算法,该算法比现有最好的低采样率轨迹算法提高了10%的匹配准确率;针对地图匹配中的错误匹配结果,本文提出了一种多项式时间的平滑算法,解决了因错误匹配导致的路径迂回问题。
4)提出并实现了一个基于出租车轨迹的智能行车路线规划系统(T-Drive系统)。该系统从大量的出租车GPS轨迹中挖掘有经验的司机在路线规划中的智能,同时结合实时交通状况数据进行分析和预测,从而为普通的驾车用户提供个性化的实际通行中的最快路线。本文在该系统中提出了一系列轨迹数据挖掘的模型和方法(如地标图模型、方差-熵聚类算法、基于高阶马尔科夫的交通预测模型),并以大量的实验比较了该系统和现有的路线规划系统及算法,实验结果充分验证了该系统的有效性以及相对其他方法的优越性。
5)提出并实现了一个基于出租车轨迹的推荐系统(T-Finder系统)。该系统给出租车司机推荐最易等到乘客的地点以及去往这些地点的路径,并同时给乘客提供附近最易打车的地点。本文从实际轨迹数据中挖掘出收益最大的司机,并通过研究他们的数据挖掘他们的行为模式。本文在该系统中提出了停泊点检测和聚类等算法从轨迹中找出收益较高的司机经常等待乘客的地点,并利用概率模型分析了司机和乘客在选择不同策略时的成本及风险。本文利用实际数据和实地测试相结合的方式,验证了该系统的有效性和可靠性。