机器学习在高德起点抓路中的应用实践-低调大师

机器学习在高德起点抓路中的应用实践

2019-07-16 767

导读：高德地图作为中国领先的出行领域解决方案提供商，导航是其核心用户场景。路线规划作为导航的前提，是根据起点、终点以及路径策略设置，为用户量身定制出行方案。

起点抓路，作为路线规划的初始必备环节，其准确率对于路线规划质量及用户体验至关重要。本文将介绍高德地图针对起点抓路准确率的提升，尤其是在引入机器学习算法模型方面所进行的一些探索与实践。

什么是起点抓路

首先，我们来简单介绍一下什么是起点抓路。起点抓路是指针对用户发起的路线规划请求，通过获取到的用户定位信息，将其起点位置绑定至实际所在的道路。

从高德地图App可以看到，用户进行路线规划时选择起点的方式有以下三种：

1.手动选点（用户在地图上手动标注所处位置）。

2.POI选点（Point of Interest，兴趣点，在地理信息系统中可以是商铺、小区、公交站等地理位置标注信息）。

3.自动定位（通过GPS、基站或WiFi等方式自动定位所在位置）。

三种方式中，用户手动选点及POI选点这两种方式的位置信息相对准确，起点抓路准确率相对较高。

而自动定位起点的方式，由于受GPS、基站、网络定位精度影响，定位坐标易发生漂移，定位设备抓取的位置与用户实际所处道路可能相差几米、几十米甚至几百米。如何在有限信息下，将用户准确定位到真实所在道路，就是我们所要解决的主要问题。

为什么要引入机器学习

引入机器学习之前，起点抓路对候选道路的排序采用了人工规则。核心思路是：以距离为主要特征，结合角度、速度等特征，加权计算得分，进而影响排序，人工规则中所涉及到的权重及阈值等是经综合实战经验人工拍定而成。

随着高德地图业务的不断增长，规划请求数量及场景的增多，人工规则的局限性越来越明显，具体表现在以下方面：

即使包含了众多经验在内，人工设定的阈值、权重仍不够完善，易发生偏移或存在盲区是不可改变的事实。
策略维护方面，面对上游数据的更新，新特征无法用最快速度加入到策略中。
人工规则拍定对经验要求较高，对于人员的更迭，很难做出最敏捷的响应。

在大数据和人工智能时代，利用数据的力量代替部分人力工作，实现流程的自动化，提高工作效率是必然趋势。

因此，基于起点抓路人工规则的现状及问题，我们引入了机器学习模型，自动学习特征与抓路结果之间的关系。一方面，拥有大量规划及实走数据，对于机器学习模型的训练数据获取，高德有天然优势；另一方面，机器学习模型有更强的表达力，能够学习到特征之间的复杂关系，提高抓路准确率。

如何实现机器学习化

回归机器学习本身，下面来介绍我们如何建立起点抓路机器学习模型。一般来讲，运用机器学习方法解决实际问题分为以下几个方面：

目标问题的定义
数据获取与特征工程
模型选择
模型训练及效果评估

1.目标问题定义

在引入机器学习模型之前，需要将待解决问题进行数学抽象。

分析起点抓路问题，如上图所示，我们可以看到当用户在A点发起路线规划请求时，其定位位置A所对应的周边道路是一个独立的集合B，而用户所在的实际道路是这个集合中的唯一一个元素C。

这样，起点抓路问题转化为在定位点周边道路集合中选出一条最有可能是用户实际所在的道路。

整个过程类似搜索排序，因此，我们在制定建模方案时也采用了搜索排序的方式。

提取用户路线规划请求中的定位信息A。
对定位点周边一定范围内的道路进行召回，组成备选集合B。
对备选道路进行排序，最终排在首条的备选道路为模型输出结果，即用户实际所在道路C。

最终，我们将起点抓路定义为一个有监督的搜索排序问题。明确了需要达到的目标，我们开始考虑数据获取及特征工程问题。

2.数据获取与特征工程

业界常言，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。可见对于项目最终效果，数据和特征至关重要。

训练起点抓路机器学习模型，我们需要从原始数据中获取两类数据：

真值数据，即用户发送路线规划请求时实际所处道路信息。

机器学习应用于起点抓路项目，第一个问题就是真值数据的获取。用户在某个位置A发起路线规划请求，由于定位精度限制，我们无法确认其实际所在位置，但如果用户在发起规划请求附近有实走信息，可以将实走信息匹配到路网生成一条运动轨迹，通过这条轨迹我们就可以获取到请求定位点所处的实际道路。

我们针对高德地图的导航请求数据进行相关挖掘，将用户实走与路线规划信息相结合，得到了请求与真值一一映射的数据集。

特征数据

在起点抓路模型中，我们提取了三大类特征用于构建样本集，分别是定位点相关特征、道路自身特征以及定位点与道路之间的组合特征。

特征处理是特征工程的核心部分，不同项目在进行特征预处理时会有不同，需要根据实际业务场景进行特殊化处理，往往依赖于专业领域经验。起点抓路项目中，我们针对定位特征进行了样本去重、异常值处理、错误值修正及映射等数据清洗工作。

3.模型选择

在目标问题定义中，我们将起点抓路剖析为搜索排序问题，而机器学习的ranking技术，主要包括point-wise、pair-wise、list-wise三大类。

根据起点抓路业务特点，我们采用了list-wise，其learning to rank框架具有以下特征：

输入信息是同一路线规划请求对应的所有道路构成的多特征向量（即一个query）。
输出信息是对应请求（即同一query）特征向量的打分序列。
对于打分函数，我们采用了树模型。

我们选择NDCG（Normalized Discounted Cumulative Gain 归一化累积折算信息增益值）作为模型评价指标，NDCG是一种综合考虑模型排序结果和真实序列之间关系的指标，也是常用的衡量排序结果的指标。

4.模型训练及效果评估

我们抽取了一定时间段内的请求信息，按照步骤2中描述的方式获取到对应真值及特征数据，打标构建了样本集，将其划分为训练集与测试集，训练模型并查看结果是否符合预期。

评估模型效果，我们将测试集的请求分别用人工规则及机器学习模型进行抓路，并分别与真值进行对比，统计准确率。

对比结果，针对随机抽取的请求，模型与人工规则抓路结果差异率为10%，这10%的差异群体中，模型抓路准确率比人工规则提升40%，效果显著。

写在最后

以上我们介绍了大数据和机器学习在起点抓路方面的一些应用，项目的成功上线也验证了机器学习在提升准确率、优化流程等方面可以发挥重要作用。

未来，我们希望能够将现有模型场景继续细化，寻找新的收益点，从数据和模型两个角度共同探索，持续优化机器学习抓路效果。

关注高德技术，找到更多出行技术领域专业内容

微信关注我们

原文链接：https://my.oschina.net/amaptech/blog/3074792

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

实例解说AngularJS在自动化测试中的应用

7月25日晚8点，线上直播，【AI中台——智能聊天机器人平台】，点击了解详情。一、什么是AngularJS ? 1、AngularJS是一组用来开发web页面的框架、模板以及数据绑定和丰富UI的组件； 2、AngularJS提供了一系列健壮的功能，以及将代码隔离成模块的方法； 3、AngularJS于2009年发布第一个版本，由Google进行维护，压缩版94k。二、AngularJS的核心思想 1、在AngularJS中通过数据视图双向绑定实现视图与业务逻辑解耦，这将提高代码的可测试性； 2、遵循MVC模式开发，鼓励视图、数据、逻辑组件间松耦合； 3、将测试与应用程序编写放在同等重要的位置，在编写模块的同时编写测试。因为各组件的松耦合，使得这种测试得以实现； 4、应用程序页面端与服务器端解耦。两方只需定义好通信API，即可并行开发。三、简单的栗子问题：假设我们需要编写一个手机列表，支持对手机信息进行模糊搜索，且按指定字段排序，要怎么实现呢？如上图所示，几乎没有DOM操作，更专注于业务逻辑！下面编写HTML 编写控制器Controller PhoneListCtrl 控制...

2019-07-16

830

一、什么是熔断在一个家庭中有各种各样的家电，我们假设每个家电都没有保险丝，一旦有一天某个家电出现短路，造成整个电路短路然后很有可能就把整个家庭的电器及电路给烧坏了。但如果每个家电入口线路都有一个保险丝（断路器），那么不管那个家电发生短路这个家电的保险丝就会快速熔断（断开电路），从而保护了整个电路及电路上其它的家电的正常运行。软件行业里面的熔断机制与这个一致，在整个微服务集群中，由于其中一个或者几个微服务出现故障或堵塞，若没有快速的熔断机制，就会造成整个微服务集群的拥堵最终整个微服务出现雪崩被拖死。熔断机制的核心机制就是在确保某个微服务出现故障的时候实现快速熔断（断路）或者服务降级快速失败，避免拥堵。从而保证其它业务其它服务的正常运行。二、Hystrix 设计原则防止单个服务的故障，耗尽整个系统服务的容器（比如tomcat）的线程资源，避免分布式环境里大量级联失败。通过第三方客户端访问（通常是通过网络）依赖服务出现失败、拒绝、超时或短路时执行回退逻辑。用快速失败代替排队(每个依赖服务维护一个小的线程池或信号量，当线程池满或信号量满，会立即拒绝服务而不会排队等待)和优雅...

2019-07-17

775

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。