基于多任务学习的快件送达时间预测方法

引用本文

王强, 林友芳, 万怀宇. 基于多任务学习的快件送达时间预测方法[J]. 计算机工程, 2022, 48(4), 314-320. DOI: 10.19678/j.issn.1000-3428.0061098.

WANG Qiang, LIN Youfang, WAN Huaiyu. Express Time Prediction Method Based on Multi-Task Learning[J]. Computer Engineering, 2022, 48(4), 314-320. DOI: 10.19678/j.issn.1000-3428.0061098.

基金项目

国家自然科学基金（61603028）

通信作者

万怀宇(通信作者)，副教授、博士

作者简介

王强(1996—)，男，硕士研究生，主研方向为时空数据挖掘;
林友芳，教授、博士

文章历史

收稿日期：2021-03-11
修回日期：2021-04-30

Contents Abstract Full text Figures/Tables PDF

基于多任务学习的快件送达时间预测方法

王强¹ , 林友芳^1,2 , 万怀宇^1,2

1. 北京交通大学计算机与信息技术学院, 北京 100044;
2. 综合交通运输大数据应用技术交通运输行业重点实验室, 北京 100044

收稿日期：2021-03-11；修回日期：2021-04-30

基金项目：国家自然科学基金（61603028）

作者简介：王强(1996—)，男，硕士研究生，主研方向为时空数据挖掘; 林友芳，教授、博士.

通信作者：万怀宇(通信作者)，副教授、博士.

E-mail: wangqiangd@bjtu.edu.cn

摘要：快件送货时间预测(即在任何时间预测包裹送达的到达时间)是物流领域中最重要的服务之一。准确地预测快件送达时间可以为用户提供更准时的服务，缓解客户的等待焦虑，提升用户体验，且有利于快递员的路径规划，从而提高派送效率。然而在快递派送场景下，多因素、动态性及多目的地等特征给快件投递准确预测送达时间带来巨大挑战。提出一种基于多任务学习的模型MTDTN，从快递员的大量历史时空轨迹中预测快件送达时间。MTDTN建模多种影响送达时间的外部因素，利用地理信息编码、卷积操作以及双向长短时记忆网络来捕获派送行为的时空关系，并运用多任务学习框架，引入顺序预测的辅助任务与送达时间预测的主任务，提高模型预测性能。在真实数据集上的实验结果表明，与基准方法中最优的DeepETA模型相比，该模型的平均绝对误差与平均绝对百分比误差分别降低了16.11%和12.88%，模型效果明显提升。

Express Time Prediction Method Based on Multi-Task Learning

WANG Qiang¹ , LIN Youfang^1,2 , WAN Huaiyu^1,2

1. School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China;
2. Key Laboratory of Transport Industry of Big Data Application Technologies for Comprehensive Transport, Beijing 100044, China

Abstract: Delivery time prediction(i.e., predicting package arrival time at any time) is important to logistics service providers.Accurate prediction of the delivery time provides customers with more prompt services and alleviates anxiety. It is also beneficial to the route planning by couriers for improved delivery efficiency.In real scenarios, however, accurate delivery time prediction is marred with multiple destinations, multiple factors, and dynamics challenges.In this paper, relying on the historical spatio-temporal trajectories of couriers, a Multi-Task model for Delivery Time prediction Network(MTDTN) is proposed to predict the package delivery time.MTDTN leverages external factors that may affect the delivery time and utilizes the geographic information encoder, convolution operation, and the Bidirectional Long Short-Term Memory(Bi-LSTM) to capture the spatio-temporal information in the trajectories.Moreover, multi-task learning is used to simultaneously predict both the delivery time and the delivery sequence.The model performance is enhanced by introducing the delivery sequence prediction as an auxiliary task.Experimental results on real data sets show that, compared with the optimal DeepETA model in the benchmark method, Mean Absolute Error(MAE) and Mean Absolute Percentage Error(MAPE) of this model are reduced by 16.11% and 12.88% respectively.

开放科学（资源服务）标志码（OSID）：

0 概述

近年来，我国快递市场日益扩大^[1]，快递员数量已超过300万人，每日快件配送量超过1亿件，市场的快速扩大也给快递公司的管理带来了巨大挑战。通过对时空轨迹数据的深入研究，预测快件送达时间一方面可以为用户提供更加准时的服务，提升用户体验^[2-3]，另一方面可以帮助快递员进行路径规划，提高派送效率^[4-6]，从而提升公司整体业务竞争力。

基于上述背景，利用深度学习技术对快递员的时空轨迹数据进行学习，从而准确预测快件送达时间，服务现实应用场景。虽然在时空数据挖掘领域，到达时间预测问题已有许多优秀研究成果，但快件送达时间预测仍面临许多困难与挑战，主要有快件派送受到多种复杂因素影响、快件派送状态存在动态性和多目的地预测3个方面。其中快件派送受多种复杂因素影响主要是快件的送达时间不仅与交通状况、快件本身属性、外界天气等有关，快递员的派送偏好、快件所在地的环境、客户的个性化要求等因素都会对快件送达时间产生影响；快件派送状态存在动态性主要是在快递员派送快件过程中，快递员位置、已派送快件序列、待派送快件集合等均会发生改变，会导致快件的送达时间随派送过程动态变化；多目的地预测主要是研究需要同时预测快递员的所有待派送快件的送达时间，不同于单目的地预测问题，快件的组合、彼此之间距离、派送顺序均会对每个待派送快件产生影响，如何保证多目的地预测的整体准确性也是一大难点。

本文提出一种基于多任务学习的快件送达时间预测网络(Multi-Task Delivery Time prediction Network，MTDTN)模型，建模多种对快件送达时间产生影响的外部因素，并采用卷积神经网络^[7](Convolutional Neural Network，CNN)与长短期记忆^[8](Long Short-Term Memory，LSTM)网络相结合的网络结构捕获时空相关性，引入基于注意力机制的顺序预测辅助任务提升预测效果，最终通过多任务融合方法得到快件送达时间预测结果。

1 相关工作

虽然时空数据挖掘在近年来受到广泛关注并取得了许多优秀的成果^[9-11]，但快件派送场景下的多目的地送达时间预测问题比较新颖，相关研究较少。本文参考时空数据挖掘领域的到达时间估计问题的优秀成果。

到达时间估计(Estimated Time of Arrival，ETA)指预估一个出发地到一个目的地之间所经过的时间^[12]，出发地到目的地往往由一系列相关联的分路径组合而成。目前，在工业和学术界的解决方案分成两大类策略^[12]。

第一类是基于分路径建立物理模型的解决方案。出发地到目的地的到达时间被定义为给定路径中没有岔路的道路行驶时间与所有交叉路口的延误时间之和，计算过程如式(1)所示：

$ y=\sum\limits_{i=1}^{{N}_{\mathrm{r}\mathrm{o}\mathrm{a}\mathrm{d}}}{t}_{i}+\sum\limits_{j=1}^{{N}_{\mathrm{c}\mathrm{r}\mathrm{o}\mathrm{s}\mathrm{s}}}{d}_{j} $

(1)

其中：i表示第i段没有岔路的道路行驶预测时间；j表示第j个交叉路口预测的延误时间；$ {N}_{\mathrm{r}\mathrm{o}\mathrm{a}\mathrm{d}} $和$ {N}_{\mathrm{c}\mathrm{r}\mathrm{o}\mathrm{s}\mathrm{s}} $分别表示无岔路道路和交叉路口总数。

文献[13-14]将从出发地到目的地的到达时间预测划分为一些子问题，每个子问题预测一小段道路行驶时间或者单个岔路口的延误时间。文献[15]使用机器学习的回归算法和张量分解算法预测局部路段或岔路口的时间。但该方案存在以下问题：1)时空数据无法覆盖所有的分段路径以建模整个交通路网实时时间分布；2)使用固定模式的模型预测未来一段时间道路交通状态或者交叉路口延误时间，忽略了交通动态性以及研究对象的个性化差异和行为模式所带来的影响；3)分段预测进行累加带来了预测误差的累加，使整体预测准确率下降。

第二类是基于数据构建深度学习网络模型的解决方案。研究人员将到达时间预测问题转换为回归问题，通过建立端到端的深度学习模型，从海量的历史数据中学习输入到输出的映射函数，从而给出到达时间预测。

文献[12]提出将到达时间估计问题公式化为纯粹的时空回归预测问题，使用线性模型、深度神经网络和循环神经网络模型相结合，提高预测效果。文献[16]提出辅助监督模型DeepTravel，使用双向长短时记忆(Bidirectional Long Short-Term Memory，Bi-LSTM)^[17]神经网络捕获长期和短期的时间特征，在有效提取不同特征的同时，充分利用数据丰富的时间标签进行路径旅行时间的估算。文献[18]在预测给定路径的交通工具行驶时间问题中，考虑不同路段转移之间的空间与时间相关性，提出DeepTTE模型，使用卷积层捕获空间相关性，堆叠长短时记忆网络捕获时间相关性，引入多任务机制预测完整路径与路径各途经点到达时间。以上研究不足在于均假定路径已知，而且在捕获时间相关性时仅考虑时间维度信息，对于其他外部信息融合不足。

随着应用场景的复杂以及深度学习技术的发展，越来越多的研究人员将目光转向路径未知的预测问题。文献[19]提出未知具体行驶路径下的到达时间预测研究方法，在训练阶段使用多任务学习框架对现实世界行驶过程各种因素进行学习，提高该场景下的预测准确性。文献[2]在快递员送件的场景下，引入双层注意力机制捕获相似历史轨迹数据特征预测多快件到达时间，取得了良好的效果。以上研究虽然在路径未知情况下效果较好，但是对于多目的地间的相关性依然考虑不足。

本文提出基于多任务学习的快件送达时间预测模型MTDTN，该模型对影响送达时间的外部因素进行表示学习，通过派送路径表示模块捕获派送路径的时空相关性，继而基于注意力机制选择最相关的未派送快件组合预测派送顺序，最后融合各模块向量，准确预测快件送达时间。

本文的主要贡献如下：

1) 提出一种基于多任务学习的快件送达时间预测网络(MTDTN)模型，该模型可以学习快递员的行为模式并捕获派送过程的时空动态性，准确预测快件送达时间。

2) 为应对快件派送状态存在动态性这一挑战，提出一种基于地理信息编码的时空组件，使用Geo-Hash编码、卷积及长短时记忆网络建模已派送快件路径。

3) 为解决多目的地同时预测问题，提出一种多任务学习机制，融合快件派送顺序信息，辅助快件送达时间预测任务，提高模型性能。

2 模型框架 2.1 相关定义

本文给出以下定义：

1) 快件。将快递员派送的快件定义为$ o=\{{L}_{\mathrm{l}\mathrm{n}\mathrm{g}}, {L}_{\mathrm{l}\mathrm{a}\mathrm{t}}, {L}_{\mathrm{t}\mathrm{y}\mathrm{p}\mathrm{e}}, {T}_{\mathrm{a}\mathrm{c}\mathrm{c}}\} $，其中：$ {L}_{\mathrm{l}\mathrm{n}\mathrm{g}} $表示快件地址经度；$ {L}_{\mathrm{l}\mathrm{a}\mathrm{t}} $表示快件地址纬度；$ {L}_{\mathrm{t}\mathrm{y}\mathrm{p}\mathrm{e}} $表示快件地址类型；$ {T}_{\mathrm{a}\mathrm{c}\mathrm{c}} $表示快件签收时刻。

2) 快件派送轨迹。快递员派送过程会记录每个快件的地理信息及送达时刻，形成快件派送轨迹$ p=\{{o}_{1}, {o}_{2}, \cdots , {o}_{n}\} $，此外每条派送轨迹会有日期、周次、区域编码、快递员编号等信息。

3) 送达时间。将快件$ {o}_{j} $的送达时间定义为$ d{t}_{j}={T}_{\mathrm{a}\mathrm{c}\mathrm{c}}^{j}-{T}_{\mathrm{n}\mathrm{o}\mathrm{w}} $，其中：$ {T}_{\mathrm{a}\mathrm{c}\mathrm{c}}^{j} $表示快件$ {o}_{j} $的签收时刻；$ {T}_{\mathrm{n}\mathrm{o}\mathrm{w}} $表示当前时刻。

4) 研究目标。本文将未派送快件的送达时间预测问题定义为多目标回归任务，给定已派送快件$ {S}_{\mathrm{h}\mathrm{a}\mathrm{d}} $形成的派送轨迹$ {p}_{\mathrm{h}\mathrm{a}\mathrm{d}} $，待派送快件集合$ {S}_{\mathrm{t}\mathrm{o}} $，本文的目标是构建模型$ \mathrm{F} $，预测$ {S}_{\mathrm{t}\mathrm{o}} $中每一个快件的送达时间：

$ F({p}_{\mathrm{h}\mathrm{a}\mathrm{d}}, {S}_{\mathrm{t}\mathrm{o}})\to (d{t}_{1}, d{t}_{2}, \cdots , d{t}_{n}) $

(2)

2.2 MTDTN模型

快件送达时间受到包含快递员本身和外界环境在内的复杂因素影响，因而在进行快件送达时间预测时，首先需要对影响送达时间的复杂因素进行建模，本文充分考虑可能的影响因素，通过组合、统计计算等方式得到新的特征信息，这些特征可以作为其他模块的输入。其次派送过程存在时空动态性，需要学习快递员派送的行为模式及隐含的时空相关性，本文通过设计时空组件来结合外部因素与已派送路径信息捕获派送过程的时空动态性。最后不同于单目的地到达时间估计问题，本文研究需要考虑预测不同快件的多个目的地，故而引入派送顺序预测这一辅助任务，基于注意力机制从历史数据中寻找相似待派送快件集合，并结合外部因素，实现顺序预测辅助任务。最终通过融合上述各种信息，得到快件送达时间预测结果。

具体而言，本文将快递派送过程中已送达快件序列、复杂外部因素以及历史相似快件序列集合作为输入，首先建模影响送达时间的多种外部因素，并使用地理信息编码和卷积操作、双向长短时记忆网络捕获已派送快件路径的时空相关性，同时通过引入顺序预测辅助任务增强模型学习能力，最后使用多任务融合输出快件送达时间预测结果，提出MTDTN模型。该模型共包含4个模块(如图 1所示)：

	Download: JPG larger image
图 1 MTDTN模型框架 Fig. 1 Framework of MTDTN model

1) 外部因素表示模块。为建模整个派送过程中时间不变性特征、待预测快件的特征以及快递员的画像表示，本模块对外部因素进行信息嵌入，输出将作为其他3个模块的输入。

2) 派送路径表示模块。已派送快件序列对剩余快件的送达时间至关重要，本模块通过卷积神经网络及双向LSTM捕获时空轨迹的空间及时间相关性，建模已派送路径。

3) 顺序预测模块。为更好地解决多目的地预测问题，本模块选择历史轨迹数据中相似快件序列集合，使用注意力机制完成信息提取与组合，继而与外部因素模块拼接，进行派送顺序预测。

4) 多任务融合模块。本模块作为预测任务的输出层，融合其他模块表示向量，结合顺序预测的辅助任务与送达时间预测的主任务，输出快件送达预测时间。

2.2.1 外部因素表示

如上文所述，快件派送场景复杂，影响因素繁多，模型在有限的数据条件下应尽可能将影响快件送达时间的外部因素进行信息提取。如图 1所示，将影响送达时间的因素分为3类：全局相关信息，待预测的快件$ {o}_{j} $的相关信息，快递员的特征统计信息。

全局相关包括轨迹数据对应的日期、周次、区域编码、快递员编号等，由于4个特征均为离散的数值，无法直接输入网络。一种方式是使用one-hot编码方式，将4个特征编码为向量形式，但是这样会导致编码后得到高维向量(快递员数量近千人，则该特征维度将在近千维)，极大增加模型复杂度，同时每个特征向量之间的余弦相似性为0，无法表达区域之间相邻关系。因此，本文使用嵌入层^[20]表达全局信息，嵌入层通过乘以一个学习的参数矩阵$ \boldsymbol{W}\in {\mathbb{R}}^{F\times E} $，将全局特征转为$ {\mathbb{R}}^{E} $实域的向量，其中：F表示各全局特征的类别数；E表示自定义嵌入向量的维度，$ E\ll F $。本文将上述4个特征分别经过嵌入表示的向量进行拼接，得到全局相关向量$ {\boldsymbol{V}}_{\mathrm{g}\mathrm{l}\mathrm{o}\mathrm{b}\mathrm{a}\mathrm{l}} $。

预测快件$ {o}_{j} $相关信息包括$ {o}_{j} $相对于快递员首个派送快件$ {o}_{\mathrm{f}\mathrm{i}\mathrm{r}\mathrm{s}\mathrm{t}} $的转移方向、实际距离与$ {o}_{j} $的地址类型。其中转移方向使用$ {o}_{j} $与$ {o}_{\mathrm{f}\mathrm{i}\mathrm{r}\mathrm{s}\mathrm{t}} $经纬度差值归一化后表示，实际距离使用百度地图API计算两者距离后归一化表示，地址类型则使用one-hot编码。快递员的特征统计信息，则使用历史数据计算得到其过去一周派送过程平均驾驶速度，日均快件量、快件平均派送时间归一化后表示，连同此次派送轨迹平均驾驶速度归一化信息，输入模型以学习其日常工作行为特征。

将$ {\boldsymbol{V}}_{\mathrm{g}\mathrm{l}\mathrm{o}\mathrm{b}\mathrm{a}\mathrm{l}} $、预测快件相关信息、快递员的特征统计信息拼接后得到向量$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}} $。将$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}} $输入到两层全连接层中，得到外部因素表示向量$ {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $。计算过程如式(3)所示：

$ {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}}=\mathrm{r}\mathrm{e}\mathrm{l}\mathrm{u}({\boldsymbol{W}}_{\mathrm{f}\mathrm{e}\mathrm{a}}{\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}}+{\boldsymbol{b}}_{\mathrm{f}\mathrm{e}\mathrm{a}}) $

(3)

其中：权重$ {\boldsymbol{W}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $和偏差系数$ {\boldsymbol{b}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $均是全连接层的学习参数。

2.2.2 派送路径表示

快件派送状态随着时间动态变化，已派送快件路径对其余待派送快件的送达时间有着巨大影响。本模块从已派送快件序列轨迹数据中捕获时间和空间相关性，建模已派送路径。主要由三部分组成：首先使用Geo-hash对快件轨迹进行地理信息编码；然后将输入的轨迹序列使用卷积捕获空间转移的局部相关性；最后输入双向LSTM捕获时间相关性，得到派送路径的向量表示。

1) 地理信息编码。地理信息的应用多数使用二维卷积^[21]，首先将地理坐标点聚类，然后划分到矩形或者六边形的栅格中，但是这样会丢失空间坐标的地理和语义信息，且在本文研究中对于快件送达问题，需要更加细小的粒度划分，因而本文研究不使用栅格划分方法。本文使用Geo-hash对经纬度地理信息进行编码，Geo-hash编码是一种地址编码方法，将二维空间经纬度表示为二进制编码，它的优点一是易于神经网络输入，二是可以表达地点之间的空间相近性，当二进制编码相同前缀越长时，表明两者空间上越相近。首先使用Geo-hash Encoder将已派送快件与派送路径$ {p}_{\mathrm{h}\mathrm{a}\mathrm{d}} $中所有快件$ {o}_{i} $的经纬度转为Geo-hash编码，命名为$ {\boldsymbol{G}}^{i} $，每个编码长度为32。

2) 卷积层。已派送快件经过地理信息编码后，使用一维卷积神经网络^[7]捕获已派送轨迹的空间相关性。运用$ l\times 32 $的卷积核，步长为1，对$ {p}_{\mathrm{h}\mathrm{a}\mathrm{d}} $中所有快件的地理编码序列进行卷积操作，则输出向量第i维如式(4)所示：

$ {\boldsymbol{V}}_{{{}_{\mathrm{h}\mathrm{a}\mathrm{d}}}_{{}_{i}}}^{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}}=\mathrm{r}\mathrm{e}\mathrm{l}\mathrm{u}({\boldsymbol{W}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}}{\boldsymbol{G}}^{i, i+l-1}+{\boldsymbol{b}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}}) $

(4)

其中：W为学习的参数矩阵；$ {\boldsymbol{b}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}} $为学习的参数偏差系数；$ {\boldsymbol{G}}^{i, i+l-1} $表示$ {\boldsymbol{G}}^{i} $到$ {\boldsymbol{G}}^{i+l-1} $的编码矩阵。

通过卷积运算，$ {\boldsymbol{V}}_{{{}_{\mathrm{h}\mathrm{a}\mathrm{d}}}_{{}_{i}}}^{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}} $得到了$ {o}_{i} $到$ {o}_{i+l-1} $局部快件派送路径的空间相关性。使用k个卷积核进行卷积操作，得到$ {\boldsymbol{V}}_{\mathrm{h}\mathrm{a}\mathrm{d}\_\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}}\in {\mathbb{R}}^{k\times (n-l+1)} $，其中n表示$ {p}_{\mathrm{h}\mathrm{a}\mathrm{d}} $已派送的快件个数。

此外，时间差、距离、快件地址类型无法从地理编码序列卷积过程直接获得，因而本文将$ {o}_{i} $到$ {o}_{i+l-1} $之间的签收时间差、距离以及$ {o}_{i+l-1} $的快件地址类型one-hot编码与卷积层输出$ {\boldsymbol{V}}_{\mathrm{h}\mathrm{a}\mathrm{d}\_\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}} $拼接，得到卷积层最终输出向量$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}}\in {\mathbb{R}}^{(k+2+m)\times (n-l+1)} $，其中m为快件地址类型种类数。

3) 双向LSTM。循环神经网络通过引入状态变量存储过去信息，与当前信息共同决定输出，从而可以更好地处理序列信息^[7]。但随着时间步增长，出现梯度衰减或爆炸，无法有效利用较远的历史信息。LSTM通过引入输入门、遗忘门、输出门，自动学习哪些信息遗忘、哪些信息保存，解决了常规循环神经网络无法捕获长距离依赖的问题。而双向LSTM通过引入负反馈信息，与LTSM相比，增强了网络的学习能力。

本文使用双向LSTM捕获派送路径的时间相关性，将外部因素模块的输出$ {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $与卷积层$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}} $拼接，得到向量$ {\boldsymbol{V}}_{\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}}\in {\mathbb{R}}^{(k+2+m+{d}_{\mathrm{f}})\times (n-l+1)} $，$ {d}_{f} $为$ {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $特征维度。$ {\boldsymbol{V}}_{\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}} $可以看作长度为$ n-l+1 $的序列数据，将其输入到双向LSTM中，得到隐藏状态$ {\boldsymbol{H}}_{t}^{b} $和$ {\boldsymbol{H}}_{t}^{f} $，计算过程如式(5)、式(6)所示：

$ {\boldsymbol{H}}_{t}^{f}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\boldsymbol{W}}_{xh}^{f}{\boldsymbol{V}}_{t}+{\boldsymbol{W}}_{hh}^{f}{\boldsymbol{H}}_{t-1}+{\boldsymbol{b}}_{h}^{f}) $

(5)

$ {\boldsymbol{H}}_{t}^{b}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\boldsymbol{W}}_{xh}^{b}{\boldsymbol{V}}_{t}+{\boldsymbol{W}}_{hh}^{b}{\boldsymbol{H}}_{t+1}+{\boldsymbol{b}}_{h}^{b}) $

(6)

其中：权重$ {\boldsymbol{W}}_{xh}^{f} $、$ {\boldsymbol{W}}_{hh}^{f} $、$ {\boldsymbol{W}}_{xh}^{b} $、$ {\boldsymbol{W}}_{hh}^{b} $和偏差$ {\boldsymbol{b}}_{h}^{f} $、$ {\boldsymbol{b}}_{h}^{b} $均为学习参数；t为第t步。最后，将$ {\boldsymbol{H}}_{n-l+1}^{b} $与$ {\boldsymbol{H}}_{n-l+1}^{f} $进行拼接，得到派送路径表示向量$ \boldsymbol{H} $。

2.2.3 顺序预测辅助任务

在派送快件的过程中，存在多个目的地快件需要同时预测。虽然派送路径表示模块结合外部因素模块降低了预测的难度，但是仍有提升空间。因此，本文引入派送顺序预测辅助任务应对多目的地预测这一问题。通过对派送顺序预测，可以使模型从相关任务提取特征，得到待派送快件大致派送顺序，使得到达时间预测更加精准。

顺序预测辅助任务首先从历史快件派送轨迹数据中选择场景相似未派送快件组合提取特征向量，然后使用注意力机制基于外部因素表示向量$ {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $选择最相似历史模式，最后与外部因素表示向量$ {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $输入全连接层，得到顺序预测结果。

如果将当前快递员的所有历史快件输入模型，一方面造成模型过于复杂，计算困难，另一方面可能引入过多噪声和无关信息，导致无法提取有效特征。因此，本文选择与当前场景相似未派送快件组合，具体方法如下：假定当前快递员已派送最后一个快件地理坐标Geo-hash编码为$ {\boldsymbol{G}}_{\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{t}} $，待派送快件个数为a，此次待预测快件为$ {o}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}\mathrm{i}\mathrm{c}\mathrm{t}} $，其地理编码为$ {\boldsymbol{G}}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}\mathrm{i}\mathrm{c}\mathrm{t}} $。查找该快递员的历史轨迹中地理编码为$ {\boldsymbol{G}}_{\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{t}} $的快件$ {o}_{\mathrm{h}\mathrm{i}\mathrm{s}} $，且$ {o}_{\mathrm{h}\mathrm{i}\mathrm{s}} $之后派送的a个快件包含某个快件$ {o}_{\mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}} $地理编码同样为$ {\boldsymbol{G}}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}\mathrm{i}\mathrm{c}\mathrm{t}} $，将该轨迹中N-1个$ {o}_{\mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}} $派送相邻的快件与$ {o}_{\mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}} $组合，并根据$ {o}_{\mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}} $在组合中的派送顺序将多种组合分为N类，$ {\boldsymbol{Q}}_{\mathrm{h}\mathrm{i}\mathrm{s}}^{n}\in {\mathbb{R}}^{N\times {d}_{o}} $，n为$ {o}_{\mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}} $在快件组合中的派送顺序，$ {d}_{o} $为快件特征数，N为超参数。将$ {\boldsymbol{Q}}_{\mathrm{h}\mathrm{i}\mathrm{s}}^{n} $输入全连接层，得到相关快件组合向量$ {\boldsymbol{V}}_{\mathrm{h}\mathrm{i}\mathrm{s}}^{n} $，计算过程如式(7)所示：

$ {\boldsymbol{V}}_{\mathrm{h}\mathrm{i}\mathrm{s}}^{n}=\mathrm{r}\mathrm{e}\mathrm{l}\mathrm{u}({\boldsymbol{W}}_{\mathrm{h}\mathrm{i}\mathrm{s}}{\boldsymbol{Q}}_{\mathrm{h}\mathrm{i}\mathrm{s}}^{n}+{\boldsymbol{b}}_{\mathrm{h}\mathrm{i}\mathrm{s}}) $

(7)

其中：权重$ {\boldsymbol{W}}_{\mathrm{h}\mathrm{i}\mathrm{s}} $、偏差$ {\boldsymbol{b}}_{\mathrm{h}\mathrm{i}\mathrm{s}} $均为学习参数。

注意力机制是仿照人类处理信息时大脑有意或无意地选择更具有价值的信息所发明的一种数学机制，使用注意力机制可以从众多信息中选择最有价值的信息。因而，本文使用注意力机制获取最相关的历史快件组合。

首先使用全连接层来计算外部因素模块的输出$ {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $与相关快件组合向量$ {\boldsymbol{V}}_{\mathrm{h}\mathrm{i}\mathrm{s}}^{n} $的相关性分数，然后使用类似SoftMax计算方式，将相关性分数转换为和为1的概率分布，最后根据权重分布对相关快件组合向量$ {\boldsymbol{V}}_{\mathrm{h}\mathrm{i}\mathrm{s}}^{n} $进行加权求和，得到最相关组合向量$ {\boldsymbol{V}}_{\mathrm{a}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}} $，计算过程如式(8)~式(10)所示：

$ {S}_{n}=\mathrm{r}\mathrm{e}\mathrm{l}\mathrm{u}({\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}}{\boldsymbol{W}}_{\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}}{\boldsymbol{V}}_{\mathrm{h}\mathrm{i}\mathrm{s}}^{n}+{\boldsymbol{b}}_{\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}}) $

(8)

$ {\alpha }_{n}={\mathrm{e}}^{Sn}/\sum\limits_{i=1}^{N}{\mathrm{e}}^{{S}_{n}} $

(9)

$ {\boldsymbol{V}}_{\mathrm{a}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}}=\sum\limits_{i=1}^{N}{\alpha }_{n}{\boldsymbol{V}}_{\mathrm{h}\mathrm{i}\mathrm{s}}^{n} $

(10)

其中：权重$ {\boldsymbol{W}}_{\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}} $、偏差$ {\boldsymbol{b}}_{\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}} $均为学习参数；n为顺序类别。

得到相关组合向量后，将其与外部因素表示向量$ {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $连接，通过堆叠的全连接层对待派送快件顺序进行预测。计算过程如式(11)所示：

$ {\tilde{\boldsymbol{y}}}_{\mathrm{s}\mathrm{e}\mathrm{q}}=\mathrm{r}\mathrm{e}\mathrm{l}\mathrm{u}\left({\boldsymbol{W}}_{\mathrm{s}\mathrm{e}\mathrm{q}}\right[{\boldsymbol{V}}_{\mathrm{a}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}}, {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}}]+{\boldsymbol{b}}_{\mathrm{s}\mathrm{e}\mathrm{q}}) $

(11)

其中：权重$ {\boldsymbol{W}}_{\mathrm{s}\mathrm{e}\mathrm{q}} $、偏差$ {\boldsymbol{b}}_{\mathrm{s}\mathrm{e}\mathrm{q}} $为学习参数；$ \left[\right] $表示连接操作。损失函数使用均方根误差损失，计算过程如式(12)所示：

$ {l}_{\mathrm{s}\mathrm{e}\mathrm{q}}={\left(1/m\sum\limits_{i=1}^{m}({\boldsymbol{y}}_{\mathrm{s}\mathrm{e}\mathrm{q}}^{i}-{\tilde{\boldsymbol{y}}}_{\mathrm{s}\mathrm{e}\mathrm{q}}^{i}{)}^{2}\right)}^{1/2} $

(12)

2.2.4 多任务融合

本文使用全连接层对快件送达时间的预测结果进行输出。具体而言，将外部因素表示向量$ {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $，派送路径表示向量$ \boldsymbol{H} $，最相关组合向量$ {\boldsymbol{V}}_{\mathrm{a}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}} $进行拼接得到最终输入向量$ \boldsymbol{X}=[{\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}}, \boldsymbol{H}, {\boldsymbol{V}}_{\mathrm{a}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}}] $，将其输入堆叠的全连接层后，得到送达时间预测结果。计算过程如式(13)、式(14)所示：

$ {\boldsymbol{X}}_{\mathrm{f}\mathrm{u}\mathrm{l}\mathrm{l}}=\mathrm{r}\mathrm{e}\mathrm{l}\mathrm{u}({\boldsymbol{W}}_{\mathrm{f}\mathrm{u}\mathrm{l}\mathrm{l}}\boldsymbol{X}+{\boldsymbol{b}}_{\mathrm{f}\mathrm{u}\mathrm{l}\mathrm{l}}) $

(13)

$ {\tilde{y}}_{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}}=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}({\boldsymbol{W}}_{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}}{\boldsymbol{X}}_{\mathrm{f}\mathrm{u}\mathrm{l}\mathrm{l}}+{\boldsymbol{b}}_{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}}) $

(14)

其中：权重$ {\boldsymbol{W}}_{\mathrm{f}\mathrm{u}\mathrm{l}\mathrm{l}} $、$ {\boldsymbol{W}}_{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}} $和偏差$ {\boldsymbol{b}}_{\mathrm{f}\mathrm{u}\mathrm{l}\mathrm{l}} $、$ {\boldsymbol{b}}_{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}} $均为学习参数。损失函数使用平均绝对误差，计算过程如式(15)所示：

$ {l}_{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}}=\frac{1}{m}\sum\limits_{i=1}^{m}|{\boldsymbol{y}}_{{\rm{arrive}}}^{i}-{\tilde{\boldsymbol{y}}}_{{\rm{arrive}}}^{i}| $

(15)

最终将多任务的损失函数与$ {l}_{\mathrm{s}\mathrm{e}\mathrm{q}} $、$ {l}_{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}} $结合，计算过程如式(16)所示：

$ l=\alpha {l}_{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}}+\beta {l}_{\mathrm{s}\mathrm{e}\mathrm{q}} $

(16)

其中：$ \alpha \mathrm{、}\beta $为超参数。

3 实验与结果分析 3.1 数据集描述

本文的实验数据集来自某快递企业在上海市2个运营区域：2019年11月1日—12月31日共计61天的快递员派送数据，共有931个快递员、45万条快件数据。每个快件数据均有对应快递员ID、签收时间、地址类型以及经纬度坐标。本文选择11月1日—12月10日共计40天的派送数据作为训练集，12月11日—20日共计10天的派送数据作为验证集，12月21日—31日共计11天的派送数据作为测试集。

3.2 基准方法与评价指标

本文将MTDTN模型与以下6种现有的预测方法进行对比：

1) HA(History Average)。即平均值方法，根据特定快递员的历史平均送达时间进行预测。

2) LR(Linear Regression)。使用岭回归方法(L2正则)作为线性回归方法。

3) DNN。使用三层全连接神经网络进行预测，隐藏状态神经元个数分别为128、64、32。

4) LSTM。使用两层LSTM堆叠进行预测，隐藏状态神经元分别为128和128。

5) DeepTTE^[18]。用于道路货车行驶时间预测的深度神经网络模型。使用卷积和堆叠LSTM表示原始GPS轨迹，引入分段路径时间辅助任务完成到达时间预测，将分段路径时间辅助任务转为每个已派送快件送达时间，其他参数和网络结构不变。

6) DeepETA^[2]。用于快件送达时间预测的深度神经网络模型，将快件地址聚类为AOI后，使用地理信息嵌入和双向LSTM表示派送模式，并引入注意力机制建模历史频繁派送信息。将AOI坐标替换为本文研究中的快件地理坐标，其他参数和网络结构不变。

上述所有模型与MTDTN输入相同，本文根据不同模型所需的数据格式进行了相应调整。

评价指标采用平均绝对误差(MAE)和平均绝对百分比误差(MAPE)，计算过程如式(17)和式(18)所示：

$ {M}_{\mathrm{M}\mathrm{A}\mathrm{E}}=\frac{1}{n}\sum\limits_{i=1}^{n}|{x}_{i}-{\widehat{x}}_{i}| $

(17)

$ {M}_{\mathrm{M}\mathrm{A}\mathrm{P}\mathrm{E}}=\frac{1}{n}\sum\limits_{i=1}^{n}\left|\frac{{\widehat{x}}_{i}-{x}_{i}}{{x}_{i}}\right| $

(18)

3.3 参数设置

本文模型基于Keras深度学习网络框架实现，批量大小为1 024，学习率为0.001。在外部因素表示模块，将日期、周次、区域编码、快递员编号分别嵌入为$ {\mathbb{R}}^{2} $、$ {\mathbb{R}}^{2} $、$ {\mathbb{R}}^{2} $、$ {\mathbb{R}}^{10} $的向量；堆叠两层全连接层隐藏单元神经元个数分别为64、64。在派送路径表示模块，使用右填充方式输入派送路径的快件序列，长度为20。在卷积层，卷积核个数为32，卷积核形状为$ {\mathbb{R}}^{3\times 32} $。双向LSTM隐藏单元神经元个数为64。在顺序预测模块，相似未派送快件分类数N设置为10，全连接网络隐藏单元神经元个数为128；计算输出$ {\boldsymbol{V}}_{\mathrm{f}\mathrm{e}\mathrm{a}} $与相似快件组合向量$ {\boldsymbol{V}}_{\mathrm{h}\mathrm{i}\mathrm{s}}^{n} $的相关性分数的全连接网络隐藏单元神经元个数为64；顺序预测子任务，最终融合向量预测顺序时堆叠两层全连接神经网络，隐藏单元神经元个数分别为32、32。在多任务融合模块中，$ \alpha =0.7 $，$ \beta =0.3 $。

3.4 结果分析

本文模型与各基准模型的实验结果如表 1所示。可以看出，本文提出的MTDTN在MAE以及MAPE两个指标均优于其他方法，相对于基准方法中最优的DeepETA模型，本文模型MAE降低16.11%，MAPE降低12.88%。

下载CSV 表 1 不同模型预测结果对比 Table 1 Comparison of prediction results of different models

HA模型依赖快递员的历史平均送达时间对快件送达时间进行预测，对于派送过程中的时空相关性无法有效利用，且忽略了特定场景下的派送情况及相关因素，效果最差；使用岭回归可以对时间序列信息加以利用，但是依然无法捕获序列数据的短期和长期依赖，因而效果与HA模型相比仅得到部分提升；DNN模型将数据按照时间维度展开输入，通过堆叠神经网络可以捕获各时间步的相关性，且对于特定场景下的相关因素进行表示学习，辅助预测任务，效果得到显著提升；LSTM模型通过引入状态变量与门控机制，克服了DNN模型对于长序列信息学习能力的不足，可以更好地捕获序列中的长距离依赖，挖掘时空轨迹数据的时序语义信息，与DNN相比，预测效果大幅提升。

DeepTTE通过卷积网络及堆叠LSTM捕获了轨迹数据中的时空相关性，并且引入了分路径的到达时间预测，增加了网络学习能力，与LSTM模型相比，MAE降低30%；而DeepETA模型除了对时空轨迹数据中的时空相关性进行学习，还通过注意力机制对历史数据中频繁模式进行选取，充分考虑历史派送模式对于预测任务的影响，效果在基准实验中最优。而本文提出的MTDTN模型与DeepETA模型相比，除了对快递员等影响送达时间的外部因素进行特征提取与表示学习外，还增加了对于地理信息的编码和卷积操作，以进一步捕获地理空间的相关性，同时通过引入未派送快件派送顺序预测辅助任务，充分建模了未派送快件之间的相互影响，从而使得模型效果有了极大提升。

3.5 消融实验

为进一步验证模型各部分的有效性，本文设计了原模型的3种变体，将这3种变体与MTDTN进行比较，各模型描述如下：

1) MTDTN。本文完整模型。

2) MTDTN-A。外部因素模块中将嵌入层转为one-hot编码，待预测快件特征及快递员的特征以原始值替代额外统计及计算结果。

3) MTDTN-D。将原先的路径表示模块更替为堆叠的两层LSTM。

4) MTDTN-M。在MTDTN基础上，去除顺序预测子任务，只对快件送达时间进行单任务预测。

消融实验结果如表示2所示，实验结果充分说明了MTDTN各模块的有效性。

下载CSV 表 2 不同模型消融实验结果对比 Table 2 Comparison of ablation experiment results of different models

MTDTN-A与MTDTN模型相比，减少了外部因素表示模块中相关因素的特征提取与表示，MAE上升了近28%，证明了外部因素表示作为其他模块的输入，对于快件送达时间预测问题是有效的。MTDTN-D与MTDTN模型相比，无法有效捕获地理空间的相关性，且因为原始地理信息直接输入到LSTM中，可能引入过多噪声，使得模型对于时间相关性的捕获能力也受到影响，因而预测准确率下降，从另一方面证明了派送路径表示模块对于提高模型效果的作用。MTDTN-M与MTDTN模型相比，由于顺序预测辅助任务的缺失，在多目的地预测问题中，无法有效建模未派送快件间的相互影响，MAE上升62%，MAPE上升15.5%，说明了本文引入的多任务学习机制对于提升多目的地场景下的到达时间预测准确性具有重要作用。

4 结束语

本文针对快递员派送场景，提出一种基于多任务学习的快件送达时间预测模型。该模型使用多种角度和方式建模影响送达时间的外部因素，通过Geo-hash编码方式对地理信息编码，使用卷积操作和双向长短时记忆网络捕获派送路径中的时空相关性，并且引入顺序预测辅助任务，基于注意力机制选择历史相似快件组合完成预测子任务，最终通过多任务融合模块输出结果。在真实数据集上的实验结果表明，本文提出的模型在MAE、MAPE两个指标上明显优于HA、LR等模型。由于该模型仅引入顺序预测作为辅助任务，下一步将对其他相关事件与快件送达时间预测之间的内在关系进行研究，优化模型结构与计算方式，从而提高快件送达时间预测的准确率。

参考文献

[1]	王岳含, 曾军山. 快递业自赋能现状及发展方向[J]. 中国国情国力, 2020(1): 56-60. WANG Y H, ZENG J S. The status and development direction of self-empowerment in express delivery industry[J]. China National Conditions and Strength, 2020(1): 56-60. (in Chinese)
[2]	WU F, WU L X. DeepETA: a spatial-temporal sequential neural network model for estimating time of arrival in package delivery system[J]. Artificial Intelligence, 2019, 33(1): 774-781.
[3]	ULMER M W, THOMAS B W. Enough waiting for the cable guy—estimating arrival times for service vehicle routing[J]. Transportation Science, 2019, 53(3): 897-916.
[4]	闫皎洁, 张锲石, 胡希平. 基于强化学习的路径规划技术综述[J]. 计算机工程, 2021, 47(10): 16-25. YAN J J, ZHANG Q S, HU X P. Review of path planning techniques based on reinforcement learning[J]. Computer Engineering, 2021, 47(10): 16-25. (in Chinese)
[5]	HONG H T, LIN Y C, YANG X Q, et al. HetETA: heterogeneous information network embedding for estimating time of arrival[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2020: 2444-2454.
[6]	SUN Y W, WANG Y L, FU K, et al. FMA-ETA: estimating travel time entirely based on FFN with attention[EB/OL]. [2021-02-10]. https://arxiv.org/abs/2006.04077v1.
[7]	LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539
[8]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[9]	PARK C, LEE C, BAHNG H, et al. STGRAT: a spatio-temporal graph attention network for traffic forecasting[EB/OL]. [2021-02-10]. https://arxiv.org/abs/1911.13181v2.
[10]	YAO H X, TANG X F, WEI H, et al. Revisiting spatial-temporal similarity: a deep learning framework for traffic prediction[J]. Artificial Intelligence, 2019, 33(1): 5668-5675.
[11]	LI K, YAN X J, TAN X H, et al. Predicting taxi demand based on 3d convolutional neural network and multi-task learning[J]. Remote Sensing, 2019, 11(11): 1265. DOI:10.3390/rs11111265
[12]	WANG Z, FU K, YE J P. Learning to estimate the travel time[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2018: 858-866.
[13]	LEE W C, SI W P, CHEN L J, et al. HTTP: a new framework for bus travel time prediction based on historical trajectories[C]//Proceedings of ACM International Symposium on Advances in Geographic Information Systems. New York, USA: ACM Press, 2012: 279-288.
[14]	WENG J C, WANG C, HUANG H N, et al. Real-time bus travel speed estimation model based on bus GPS data[J]. Advances in Mechanical Engineering, 2016, 8(11): 1687-1697.
[15]	WANG Y L, ZHENG Y, XUE Y X. Travel time estimation of a path using sparse trajectories[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2014: 25-34.
[16]	ZHANG H Y, WU H, SUN W W, et al. DeepTravel: a neural network based travel time estimation model with auxiliary supervision[C]//Proceedings of the 27th IEEE International Joint Conference on Artificial Intelligence. Washington D.C., USA: IEEE Press, 2018: 3245-3256.
[17]	SCHUSTER M, PALIWAL K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2673-2681. DOI:10.1109/78.650093
[18]	WANG D, ZHANG J B, CAO W, et al. When will you arrive?Estimating travel time based on deep neural networks[C]//Proceedings of AAAI Conference on Artificial Intelligence. [S. 1.]: AAAI Press, 2018: 2366-2378.
[19]	LI Y G, FU K, WANG Z, et al. Multi-task representation learning for travel time estimation[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2018: 1695-1704.
[20]	GAL Y, GHAHRAMANI Z. A theoretically grounded application of dropout in recurrent neural networks[EB/OL]. [2021-02-10]. https://arxiv.org/pdf/1512.05287.pdf.
[21]	ZHANG J B, ZHENG Y, QI D K, et al. DNN-based prediction model for spatio-temporal data[C]//Proceedings of the 24th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York, USA: ACM Press, 2016: 1-4.