基于时空注意力机制的加油站级客流量预测

引用本文

包恒彬, 马玉鹏, 杨奉毅, 等. 基于时空注意力机制的加油站级客流量预测[J]. 计算机工程, 2021, 47(4), 291-297. DOI: 10.19678/j.issn.1000-3428.0057229.

BAO Hengbin, MA Yupeng, YANG Fengyi, et al. Gas Station-level Foot Traffic Prediction Based on Spatial-Temporal Attention Mechanism[J]. Computer Engineering, 2021, 47(4), 291-297. DOI: 10.19678/j.issn.1000-3428.0057229.

基金项目

新疆天山青年人才培养项目（2018Q005）

作者简介

包恒彬(1995-), 男, 硕士研究生, 主研方向为大数据分析与挖掘;
马玉鹏, 研究员、博士;
杨奉毅, 硕士研究生;
韩云飞, 助理研究员、博士

文章历史

收稿日期：2020-01-15
修回日期：2020-03-11

Contents Abstract Full text Figures/Tables PDF

基于时空注意力机制的加油站级客流量预测

包恒彬^1,2 , 马玉鹏^1,2 , 杨奉毅^1,2 , 韩云飞¹

1. 中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室, 乌鲁木齐 830011;
2. 中国科学院大学, 北京 100049

收稿日期：2020-01-15；修回日期：2020-03-11

基金项目：新疆天山青年人才培养项目（2018Q005）

作者简介：包恒彬(1995-), 男, 硕士研究生, 主研方向为大数据分析与挖掘; 马玉鹏, 研究员、博士; 杨奉毅, 硕士研究生; 韩云飞, 助理研究员、博士.

E-mail: baohengbin17@mails.ucas.ac.cn

摘要：加油站是重要的能源供给单位，对加油站站点的下一时段客流量进行精准预测，可为相关资源的调度与分配提供决策支撑。针对加油站级客流量预测问题，结合加油站客流数据的时空特征，提出一种基于注意力机制的时空网络模型。以路网结构建模的站级客流数据为输入，结合卷积神经网络、长短期记忆网络与注意力机制，解决站点间的空间依赖、短期与长期时序依赖以及长期时序依赖中的时间漂移问题，精准预测下一时段的站级客流量。在真实数据集上的实验结果表明，与历史平均模型、长短期记忆网络模型和双向长短期记忆网络模型等基线模型相比，该模型在均方误差（RMSE）、平均绝对误差与平均绝对百分比误差上均有所提升，其中RMSE提升22.89%。

Gas Station-level Foot Traffic Prediction Based on Spatial-Temporal Attention Mechanism

BAO Hengbin^1,2 , MA Yupeng^1,2 , YANG Fengyi^1,2 , HAN Yunfei¹

1. Xinjiang Laboratory of Minority Speech and Language Information Processing, The Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Sciences, Urumqi 830011, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China

Abstract: Gas station is an important energy supply unit, the accurate prediction of the foot traffic of each gas station in the next period can provide important support for the scheduling and allocation of related resources. Aiming at the problem of the gas station-level foot traffic prediction, combined with the spatial-temporal characteristics of gas station foot traffic data, this paper proposes an Attention Mechanism-based Spatial Temporal Network (AMSTN) model. Taking the station-level foot traffic data modelled in road network structure as input, the model integrates Convolution Neural Network (CNN), Long Short-Term Memory (LSTM) network and attention mechanism to deal with the spatial dependence, short-term and long-term temporal dependence, and time drifting in long-term temporal dependence between stations. On this basis, the accurate prediction of the station-level foot traffic in the next period is realized. The experimental results on real data sets show that compared with the Historical Average (HA) model, LSTM network model and bidirectional LSTM network model, the proposed model improves Root Mean Square Error (RMSE), Mean Absolute Error (MAE) and Mean Absolute Percentage Error (MAPE), and its RMSE is increased by 22.89%.

0 概述

加油站流量可反映城市的能源消耗及经济水平，对加油站的客流量进行准确预测可帮助相关部门及企业制定更符合各站点实际需求的选址、运营以及调配策略，还可为需要加油的顾客提供推荐信息，以帮助其寻找排队时间最短的加油站^[1]。

目前，针对加油站短时客流量预测的研究尚少，而加油站客流数据是一种典型的时空数据，这种时空特性使得加油站客流量预测问题与交通领域的其他问题具有概念上的相似性。早期研究通常采用如差分自回归移动平均（Autoregressive Integrated Moving Average，ARIMA）模型^[2]及其改进方法来解决该类预测问题，而后期结合复杂特征工程与传统机器学习模型的方法被应用到该领域。然而，这些传统的时间序列模型或机器学习模型具有较大局限性，不能有效捕捉复杂的非线性时间与空间依赖的关系。

近年来，由于深度学习凭其优异的端到端学习能力而在解决自然语言处理、计算机视觉等领域任务时取得显著效果^[3]，因此研究人员逐渐将循环神经网络（Recurrent Neural Network，RNN）^[4]和卷积神经网络（Convolution Neural Network，CNN）^[5]应用到交通领域预测问题中。RNN可对时间序列数据进行复杂建模并提取数据中的时间依赖关系，CNN通过在像素级矩阵中不断进行卷积操作来捕捉数据间的空间相关性。同时，结合RNN与CNN构成一个复杂深度神经网络模型以克服传统方法的局限性，使得整个模型具有强大的时空数据多维非线性关联处理能力。将CNN应用于大规模时空数据时需要进行特殊的预处理操作，目前主流的处理方法是将使用网格矩阵表示的时空数据转换为图像，以学习数据中的空间依赖关系。但该方法不适用于站点级的预测问题，且当网格设置较大时，同一网格会覆盖多个站点，无法满足所需的预测粒度。反之，如果网格尺寸小到只包含一个站点，则构成的巨大图像矩阵与冗余零元素将大幅增加计算量。

因为加油站客流数据在时间维度上具有以天为单位的周期性，所以结合最近几小时内的短期序列与过去几天的周期性序列，可以更准确地对数据时序依赖进行建模。然而，实际中加油站客流数据并不具有严格意义上的周期性，例如虽然每日的周期趋势大致相同，但是客流高峰出现的时段并不固定，且在一定范围内发生漂移，这种现象被称为周期性数据中的时间漂移。因此，仅对过去几天相同时段的周期性序列进行建模显然忽略了时间漂移所带来的影响。

受交通预测领域研究的启发，本文结合加油站客流数据特征，提出利用路网矩阵对站级客流数据进行建模，并使用基于注意力机制的时空网络（Attention Mechanism-based Spatial Temporal Network，AMSTN）模型同时捕获数据的空间与时间维度依赖关系，从而对加油站客流量进行预测。采用该模型对数据内空间与时间维度的关联关系分别进行建模，利用局部CNN捕获站点间的空间依赖关系，再采用多个长短期记忆（Long Short-Term Memory，LSTM）网络^[6]建模短期与长期时间依赖性，并引入注意力机制修正时间漂移问题对长期预测结果的影响，以提高预测结果的准确性。

1 相关工作

加油站客流量预测问题与交通领域的相关预测问题具有相似性。本质上，交通预测的目标是预测某时间某位置的相关指标值，例如出租车需求量、区域客流量等，而这些指标的形成过程是相似的。因此，交通预测领域的相关研究工作可为加油站客流预测问题提供参考。交通预测领域中的现有模型大致可以分为基于传统机器学习方法的预测模型和基于深度学习的预测模型。

1.1 基于传统机器学习的预测模型

交通预测问题的主要研究对象是时空序列数据，它是一种特殊的时间序列数据，早期研究主要根据数据的时间维度进行预测，采用经典的时间序列预测方法依赖于特征工程和特征选择来获得较好的预测特征。传统的交通客流预测方法可以分为参数方法与非参数方法。其中，参数方法包括基于ARIMA及其改进方法^[7-9]，非参数方法包括K-近邻（K-Nearest Neighbor，KNN）非参数回归法^[10]、历史平均法（Historical Average，HA）与向量自回归法（Vector Autoregressive，VAR）^[11]等。然而，基于ARIMA及其改进方法的模型依赖于不间断的输入序列，不适用于分析缺少数据的时间序列。HA方法不能有效捕捉交通数据的动态变化（如周期性特征）。VAR方法可以捕捉相关时间序列之间的线性相关性，但忽略了预测值之间的相关性。由于上述方法仅考虑了时序特征，因此不能捕捉到数据间复杂的非线性时空依赖关系。

1.2 基于深度学习的预测模型

受图像识别领域的研究启发，现有的深度学习预测模型多数将同时段的预测量按空间位置建模为类似于图像的数据矩阵，并按时间顺序组织各时段的数据矩阵，为预测模型保留数据中丰富的空间与时间维度信息。文献[12]利用基于CNN的网络模型捕捉空间依赖，并采用残差神经网络对城市人群流动进行预测。文献[13-14]使用基于RNN的模型来建模时序依赖关系。虽然上述研究均明确对空间依赖或时序依赖进行建模，但它们都没有同时考虑空间与时间两种维度间的依赖关系。因此，文献[15-17]尝试结合CNN与LSTM的优势同时建模交通数据的空间和时间依赖性。文献[16]通过将卷积LSTM单元与注意力机制相结合来增强代表性数据对每一步预测的影响权重。文献[17]采用局部CNN、LSTM和语义图嵌入分别集成空间、时间和语义多个角度进行区域级出租车需求量预测。文献[18]提出门控机制和周期注意机制，使模型具有同时捕获静态与动态时空依赖的能力。

针对加油站领域预测的相关工作较少，文献[19]利用出租车GPS数据，通过出租车在加油站的等待时间来估计加油站内的排队长度，并预测此时加油站内的客流量及销量。文献[20]将城市划分为网格空间，并结合多种深度学习网络建模区域内的时间、空间与语义三种维度的相关性，从而对区域级的油品销量进行预测。然而在加油站级客流量预测问题中，客流数据间的站级复杂非线性空间与时间依赖关系也是影响预测结果准确性的重要因素，而以上研究都没有进行相关的分析建模。因此，本文提出使用路网矩阵建模站级客流数据，并通过AMSTN模型处理数据间复杂空间与时间维度依赖关系，实现对加油站级客流量的准确预测。

2 问题定义

将加油站站点集合定义为$ S=\left\{{s}_{1}, {s}_{2}, \cdots , {s}_{M}\right\} $，时间间隔集合为$ T=\left\{{t}_{1}, {t}_{2}, \cdots , {t}_{n}\right\} $，每个时间间隔$ t $的长度为30 min。本文对客流记录、客流量及路网矩阵进行定义，并在此基础上对加油站级客流量预测问题进行形式化定义与描述。

定义1（客流记录）用三元组（o.t，o.s，o.uid）表示一条客流记录，其中，o.t、o.s和o.uid分别为记录时间戳、加油站唯一编码与顾客唯一编码。

定义2（客流量）用$ {y}_{t}^{s} $表示站点$ s $在时间间隔$ t $内的客流量，$ {y}_{t}^{s}=\left|\left\{\left.o:o.t\in T\wedge o.s\in S\right\}\right.\right| $，$ \left|o\right| $表示集合的基数。

定义3（路网矩阵）用$ {\boldsymbol{\boldsymbol{B}}}_{t} $表示时间间隔$ t $内所有站点客流量构成的路网矩阵。

$ {\boldsymbol{\boldsymbol{B}}}_{t}=\left[\begin{array}{cccc}{y}_{t}^{{s}_{1}}& {y}_{t}^{{s}_{2}}& 0& {y}_{t}^{{s}_{3}}\\ 0& 0& {y}_{t}^{{s}_{4}}& 0\\ 0& {y}_{t}^{{s}_{5}}& 0& 0\\ {y}_{t}^{{s}_{6}}& 0& 0& {y}_{t}^{{s}_{7}}\end{array}\right] $

(1)

路网矩阵大小为$ a\times b $，$ a $、$ b $分别为包含加油站的横向街道数与纵向街道数，将站点根据空间分布对应到路网矩阵的相近节点，节点值为一个站点在该时间间隔内的客流量$ {y}_{t}^{s}(s\in S) $，无对应站点的节点值始终为0。

定义4（加油站级客流量预测问题）以路网矩阵的形式给定各加油站历史客流量$ \left\{{\boldsymbol{\boldsymbol{B}}}_{t}|t\in T\right\} $，并预测$ t+1 $时刻各站点的客流量$ {y}_{t+1}^{s}(s\in S) $。

3 基于时空注意力机制的预测模型

本节将详细介绍本文提出的AMSTN模型，该模型结合CNN、LSTM与注意力机制同时捕获加油站客流数据中存在的空间与时间维度相关性。图 1展示了AMSTN模型的总体架构，时空数据首先输入到用于处理站点间空间依赖的CNN，CNN提取出空间关联后，将输出分别输入到提供短期时序预测的短期LSTM网络，以及引入了注意力机制修正时间漂移影响后提供长周期时序预测的长期LSTM网络，结合2个时序网络的输出得到网络的最终预测结果。

	Download: JPG larger image
图 1 AMSTN模型架构 Fig. 1 Architecture of AMSTN model

3.1 局部CNN

CNN通过持续的卷积操作可有效提取像素矩阵内的空间相关性，受此启发，本文使用CNN提取站点间的空间依赖关系。采用路网矩阵对一个时间间隔内所有站点的客流记录进行建模，然后将该矩阵作为一维灰度图像输入到AMSTN模型的CNN组件中进行学习。但对整个矩阵直接应用CNN会考虑大量的距离较远且相关性较弱的站点，削弱了CNN对站点间强相关性的学习能力，从而影响整体预测性能。因此，本文使用局部CNN^[18]仅对当前预测站点临近的局部范围采用CNN网络提取站点间空间维度的依赖关系。

在一个时间间隔$ t $内，以路网矩阵中一个节点$ i $为中心，提取其周围$ D\times D $范围内所有节点的流量值，得到$ D\times D $大小的一维图像，并将其作为该节点的输入样本$ {\boldsymbol{\boldsymbol{Y}}}_{t}^{i}\in {\mathbb{R}}^{D\times D\times 1} $。图 2以路网矩阵中数值为6的节点为中心，取$ D $=3构造样本，位于矩阵边界的节点周围使用0补全。

	Download: JPG larger image
图 2 D=3时构造的样本 Fig. 2 Sample constructed when D=3

局部CNN将提取出的原始输入$ {\boldsymbol{\boldsymbol{Y}}}_{t}^{i} $作为$ {\boldsymbol{\boldsymbol{Y}}}_{t}^{i, 0} $输入到$ K $层卷积层，使用二维卷积提取空间依赖，且每一层卷积公式为：

$ {\boldsymbol{\boldsymbol{Y}}}_{t}^{i, k}=\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left({\boldsymbol{\boldsymbol{W}}}^{k}\mathrm{*}{\boldsymbol{\boldsymbol{Y}}}_{t}^{i, k-1}+{\boldsymbol{\boldsymbol{b}}}^{k}\right) $

(2)

其中，$ k(k\in K) $为卷积层数，$ \mathrm{*} $为卷积操作，使用ReLU作为激活函数，$ {\boldsymbol{\boldsymbol{W}}}^{k} $和$ {\boldsymbol{\boldsymbol{b}}}^{k} $是需要学习的参数。在卷积操作后使用全连接网络将提取到的空间关联信息处理为LSTM网络输入$ {\boldsymbol{\boldsymbol{y}}}_{t}^{i} $。

3.2 短期LSTM网络

LSTM网络对输入的隐状态向量，采用转移函数来解决RNN网络在处理长序列时可能出现的梯度消失和梯度爆炸问题，从而达到在时序数据建模中具有更好的性能。本文使用一个LSTM网络学习短期时序依赖，根据预测时间点前$ L $个时间间隔的短期时序数据给出短期预测结果，网络输入的短期序列及LSTM网络的简化转移公式可表示为：

$ \left[{\boldsymbol{\boldsymbol{y}}}_{t-L+1}^{i}\mathrm{ }, {\boldsymbol{\boldsymbol{y}}}_{t-L+2}^{i}\mathrm{ }, \cdots , \mathrm{ }{\boldsymbol{\boldsymbol{y}}}_{t}^{i}\mathrm{ }\right] $

(3)

$ {\boldsymbol{\boldsymbol{h}}}_{t}^{i}=\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}\left({\boldsymbol{\boldsymbol{y}}}_{t}^{i}, {\boldsymbol{\boldsymbol{h}}}_{t-1}^{i}\right) $

(4)

其中，$ {\boldsymbol{\boldsymbol{h}}}_{t}^{i} $是站点$ i $在时间段$ t $预测的输出表示，$ {\boldsymbol{\boldsymbol{y}}}_{t}^{i} $是卷积网络的输出。

3.3 基于注意力机制的长期LSTM网络

短期LSTM网络仅处理预测时间点前几个时间间隔的短期时序依赖，忽略了以天为周期的长期时序依赖。然而仅增加序列输入长度会增大梯度消失的风险，削弱模型直接捕获长期时序依赖的能力。因此，本文使用与预测时间点相同时间的过去连续$ P $日的数据构成长期序列（如$ P=2 $，代表昨天和前天的同一时间），将其作为长期LSTM网络输入来捕获长期依赖进行预测，输入序列可表示为：

$ \left[{\boldsymbol{\boldsymbol{y}}}_{t}^{i, 1}, {\boldsymbol{\boldsymbol{y}}}_{t}^{i, 2}, \cdots , {\boldsymbol{\boldsymbol{y}}}_{t}^{i, P}\right] $

(5)

仅提取如式（5）所示的过去相同时间点序列进行长期时序依赖学习，忽略了周期性数据中的时间漂移问题。加油站客流数据虽然每日的趋势大致相同但并不具有严格意义上的周期性。图 3以某站点连续5天的客流数据及客流高峰出现时间为例，展示了站点客流高峰出现时间会在一定时间范围内漂移的现象，这种时间漂移现象在加油站客流量时序数据中普遍存在。其中，图 3中的每个时间间隔为30 min。

	Download: JPG larger image
图 3 时间漂移现象示例 Fig. 3 Example of time drift phenomenon

本文通过引入注意力机制来修正时间漂移的影响，并得到最终的长期LSTM网络输入序列。如图 1所示，采样过去$ P $天中预测时间点前后共有$ Q $个时间间隔的历史数据$ {\boldsymbol{\boldsymbol{y}}}_{q}^{i, p}(p\in P, q\in Q) $作为长期网络的输入样本。例如，如果预测的时间间隔是上午10：00—10：30，则需提取预测时间的前后1小时范围数据作为输入（即上午9：00—11：30，此时$ Q=5 $），使用LSTM提取每天的时序信息$ {\boldsymbol{\boldsymbol{h}}}_{q}^{i, p}(p\in P, q\in Q) $用于学习不同时刻对当天最终向量表示的贡献权重，应用的注意力机制及权重分配公式如下所示：

$ {\boldsymbol{\boldsymbol{h}}}_{q}^{i, p}=\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}\left({\boldsymbol{\boldsymbol{y}}}_{q}^{i, p}, {\boldsymbol{\boldsymbol{h}}}_{q-1}^{i, p}\right) $

(6)

$ s={\boldsymbol{\boldsymbol{v}}}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({\boldsymbol{\boldsymbol{W}}}_{\boldsymbol{\boldsymbol{H}}}{\boldsymbol{\boldsymbol{h}}}_{q}^{i, p}+{\boldsymbol{\boldsymbol{W}}}_{\boldsymbol{\boldsymbol{X}}}{\boldsymbol{\boldsymbol{h}}}_{t}^{i}+{\boldsymbol{\boldsymbol{b}}}_{\boldsymbol{\boldsymbol{X}}}\right) $

(7)

$ {\alpha }_{q}^{i, p}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left(s\right)}{\sum \limits_{q\in Q}\mathrm{e}\mathrm{x}\mathrm{p}\left(s\right)} $

(8)

$ {\boldsymbol{\boldsymbol{h}}}_{t}^{i, p}=\sum \limits_{q\in Q}{\alpha }_{q}^{i, p}{\boldsymbol{\boldsymbol{h}}}_{q}^{i, p} $

(9)

其中，$ {\boldsymbol{\boldsymbol{h}}}_{t}^{i, p} $为站点$ i $在第$ p $日预测时间点$ t $的最终向量，$ {\alpha }_{q}^{i, p} $为注意力贡献权重，$ s $为贡献评分函数，$ {\boldsymbol{\boldsymbol{v}}}^{\mathrm{T}} $、$ {\boldsymbol{\boldsymbol{W}}}_{\boldsymbol{\boldsymbol{H}}} $、$ {\boldsymbol{\boldsymbol{W}}}_{\boldsymbol{\boldsymbol{X}}} $与$ {\boldsymbol{\boldsymbol{b}}}_{\boldsymbol{\boldsymbol{X}}} $为学习的参数，$ {\boldsymbol{\boldsymbol{h}}}_{q}^{i, p} $表示站点$ i $在第$ p $日$ q $时段的向量，$ {\boldsymbol{\boldsymbol{y}}}_{q}^{i, p} $为站点$ i $在第$ p $日$ q $时段的CNN网络输出。基于注意力机制的LSTM网络组件的输入序列及预测网络可表示为：

$ \left[{\boldsymbol{\boldsymbol{h}}}_{t}^{i, 1}, {\boldsymbol{\boldsymbol{h}}}_{t}^{i, 2}, \cdots , {\boldsymbol{\boldsymbol{h}}}_{t}^{i, P}\right] $

(10)

$ {\widehat{\boldsymbol{\boldsymbol{h}}}}_{t}^{i, p}=\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}\left({\boldsymbol{\boldsymbol{h}}}_{t}^{i, p}, {\widehat{\boldsymbol{\boldsymbol{h}}}}_{t-1}^{i, p-1}\right) $

(11)

其中，$ {\widehat{\boldsymbol{\boldsymbol{h}}}}_{t}^{i, p} $为网络修正时间漂移现象影响后给出的长期预测。

3.4 融合训练

串联短期LSTM网络输出$ {\boldsymbol{\boldsymbol{h}}}_{t}^{i} $和长期LSTM网络输出$ {\widehat{\boldsymbol{\boldsymbol{h}}}}_{t}^{i, p} $得到$ {\boldsymbol{\boldsymbol{h}}}_{t}^{i, f} $，再使用tanh函数激活$ {\boldsymbol{\boldsymbol{h}}}_{t}^{i, f} $，得到站点$ i $在$ t+1 $时刻的预测客流$ {\boldsymbol{\boldsymbol{y}}}_{t+1}^{i} $，最终预测函数定义为：

$ {y}_{t+1}^{i}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({\boldsymbol{W}}_{f}{\boldsymbol{\boldsymbol{h}}}_{t}^{i, f}+{\boldsymbol{b}}_{f}\right) $

(12)

其中，$ {\boldsymbol{W}}_{f} $、$ {\boldsymbol{b}}_{f} $为学习的参数，输出结果在[-1, 1]内，将结果反归一化得到站点$ i $在$ t+1 $时刻的预测值$ \boldsymbol{y}_{t+1}^{i} $。

4 实验与结果分析 4.1 数据集与预处理

本文以某市属行政区内所有加油站从2019-02-12—2019-04-02共50天的客流量数据作为数据集。数据集的前40天用于训练与验证模型，后10天用于评估模型性能。

将该行政区域构造成大小为11×11的路网矩阵作为输入，并将站点按照在路网中的空间分布对应到路网矩阵的近似节点。使用30 min作为数据处理的时间间隔得到各站点客流量数据，并对所有客流量数据进行最大-最小（Max-Min）归一化处理，处理后的数据分布在[0, 1]。训练数据集的80%用于训练，20%用于验证。根据学术界及工业界经验，在测试模型性能时过滤客流量等于0的样本不参与评估^[18]。

4.2 实验参数设置

本文提出的AMSTN模型使用Python、TensorFlow1.14.0和Keras2.3.1实现，并在真实加油站客流数据集上验证了该模型的预测能力。实验中AMSTN模型具体超参数设置如表 1所示。

下载CSV 表 1 AMSTN模型的超参数设置 Table 1 Hyper-parameter setting of AMSTN model

4.3 评价指标

实验使用均方误差（Root Mean Square Error，RMSE）、平均绝对误差（Mean Absolute Error，MAE）与平均绝对百分比误差（Mean Absolute Percentage Error，MAPE）3个标准评价指标对实验结果进行评价。3个评价指标的计算方法如式（13）~式（15）所示：

$ \mathrm{R}\mathrm{M}\mathrm{S}\mathrm{E}=\sqrt{\frac{1}{M}\sum \limits_{i=1}^{M}{\left({y}_{t+1}^{i}-{\widehat{y}}_{t+1}^{i}\right)}^{2}} $

(13)

$ \mathrm{M}\mathrm{A}\mathrm{E}=\frac{1}{M}\sum \limits_{i=1}^{M}\left|{y}_{t+1}^{i}-{\widehat{y}}_{t+1}^{i}\right| $

(14)

$ \mathrm{M}\mathrm{A}\mathrm{P}\mathrm{E}=\frac{1}{M}\sum \limits_{i=1}^{M}\frac{\left|{y}_{t+1}^{i}-{\widehat{y}}_{t+1}^{i}\right|}{{\widehat{y}}_{t+1}^{i}}\times 100\mathrm{\%} $

(15)

其中，$ {y}_{t+1}^{i} $和$ {\widehat{y}}_{t+1}^{i} $分别代表在$ t+1 $时刻站点$ i $的预测值与实际值，$ M $为样本站点数。

4.4 结果分析

HA模型使用各时段的历史客流平均值作为预测，LSTM网络是一种改进的RNN模型，其可以处理时间序列数据中的顺序依赖性，双向长短期记忆（Bi-LSTM）网络由前向LSTM与后向LSTM组合而成，其可同时从前后两个方向对时间序列进行建模。实验对HA、LSTM、Bi-LSTM与本文模型的预测效果进行对比，结果如表 2所示，表中的数据是10次实验结果的平均值。从表 2可以看出：在本文选择的数据集上，LSTM与Bi-LSTM模型的预测能力一般，虽然相比HA模型在RMSE与MAE指标上有一定提升，但MAPE结果表现略差，这是因为MAPE指标对数据中的较低值更敏感，而仅考虑时序特征的方法更倾向于拟合数据中的较高值，所以出现RMSE与MAE指标提升而MAPE下降的现象；3个评价指标均验证了本文所提AMSTN模型预测能力均优于其他3种对比模型，与HA模型相比，本文模型在RMSE与MAE指标上分别提高了22.89%与21.39%。

下载CSV 表 2 4种模型的评价指标结果对比 Table 2 Comparison of evaluation index results of four models

HA、LSTM与本文模型对同一个站点连续两天的预测结果如图 4所示。其中，Ground Truth为该站点两天内的实际客流量，且经过Max-Min归一化处理，每个时间间隔为30 min。从图 4可以看出，本文模型相较于其他模型更贴近实际结果，且具有最佳的预测能力。

	Download: JPG larger image
图 4 本文模型与其他模型的预测结果对比 Fig. 4 Comparison of prediction results between the proposed model and other models

移除AMSTN模型中部分组件的消融实验结果如表 3所示。其中：表 3中的AMSTN-S模型是在本文模型的基础上移除注意力机制的长期LSTM组件，仅使用局部CNN组件与短期LSTM组件提取数据中的空间依赖与短期时序依赖关系；AMSTN-L模型是在本文模型的基础上移除短期LSTM组件，仅使用局部CNN组件与基于注意力机制的长期LSTM组件提取数据的空间依赖、长期时序依赖以及长期时序依赖中的时间漂移。

下载CSV 表 3 消融实验结果对比 Table 3 Comparison of ablation experiment results

从表 3可以看出：AMSTN-S与AMSTN-L模型的预测性能相比本文模型均有一定程度的下降，这是因为数据中的短期时序依赖、长期时序依赖和时间漂移因素共同提升了本文模型的预测准确性，而AMSTN-S与AMSTN-L模型在预测时分别遗失了部分时间维度依赖关系；AMSTN-S模型的预测能力优于AMSTN-L模型，这说明在预测时数据中的短期时序依赖相较于长期时序依赖和时间漂移对最终预测结果的影响更大。

为了考察空间CNN输入样本大小与短期LSTM网络输入时序长度2个重要超参数对AMSTN模型的性能影响，本文进行不同超参数设置的对比实验，结果如图 5所示。从图 5（a）可以看出：随着D值的增大，本文模型的预测性能呈下降趋势，当D=3时输入样本大小为3×3，此时本文模型的预测性能最佳；当空间输入大小接近整个矩阵大小时，模型预测能力显著降低，这可能是因为过多弱关联数据削弱了本文模型中CNN组件捕获与保存空间强关联关系的能力。从图 5（b）可以看出：不同输入长度对预测性能的影响较大，当输入序列长度为6时，AMSTN模型的预测性能最佳；随着输入序列长度的增大，模型预测能力逐渐稳定，但整个模型的训练时间明显增加。

	Download: JPG larger image
图 5 不同超参数对本文模型预测性能的影响 Fig. 5 Effect of different hyper-parameters on the prediction performance of the proposed model

5 结束语

针对加油站级客流量预测问题，本文提出一种基于时空注意力机制的深度神经网络预测模型。该模型通过路网矩阵对站级时空数据进行建模，并采用结合多个深度网络组件的模型处理站点间复杂的时空依赖关系。实验结果表明，该模型可对各站点的客流量进行准确预测。本文模型通过舍弃空间距离较远的数据输入来保障其预测性能，然而少量空间距离较远的站点间也可能存在强关联性。因此，下一步将从多源数据中提取少量的远距离强关联性站点关系，并将其与本文模型相融合，以进一步提升模型预测准确性。

参考文献

[1]	ZHENG Y, CAPRA L, WOLFSON O, et al. Urban computing: concepts, methodologies, and applications[J]. ACM Transactions on Intelligent Systems and Technology, 2014, 5(3): 38-87.
[2]	BOX G E P, JENKINS G M, REINSEL G C, et al. Time series analysis: forecasting and control[M]. New York, USA: John Wiley & Sons, Inc., 2015.
[3]	LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539
[4]	BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 194(3): 1137-1155.
[5]	LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791
[6]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[7]	SMITH B L, WILLIAMS B M, OSWALD R K. Comparison of parametric and nonparametric models for traffic flow forecasting[J]. Transportation Research Part C: Emerging Technologies, 2002, 10(4): 303-321. DOI:10.1016/S0968-090X(02)00009-8
[8]	WILLIAMS B M, HOEL L A. Modeling and forecasting vehicular traffic flow as a seasonal ARIMA process: theoretical basis and empirical results[J]. Journal of Transportation Engineering, 2003, 129(6): 664-672. DOI:10.1061/(ASCE)0733-947X(2003)129:6(664)
[9]	DANG Xiaochao, YAN Lin. Network traffic forecast based on short related ARIMA model[J]. Computer Engineering, 2012, 38(13): 71-74. (in Chinese) 党小超, 阎林. 基于短相关ARIMA模型的网络流量预测[J]. 计算机工程, 2012, 38(13): 71-74. DOI:10.3778/j.issn.1002-8331.2012.13.016
[10]	ZHANG L, LIU Q, YANG W, et al. An improved K-nearest neighbor model for short-term traffic flow prediction[J]. Procedia-Social and Behavioral Sciences, 2013, 96: 653-662. DOI:10.1016/j.sbspro.2013.08.076
[11]	CHANDRA S R, AL-DEEK H. Predictions of freeway traffic speeds and volumes using vector autoregressive models[J]. Journal of Intelligent Transportation Systems, 2009, 13(2): 53-72. DOI:10.1080/15472450902858368
[12]	ZHANG Junbo, ZHENG Yu, QI Dekang. Deep spatio-temporal residual networks for citywide crowd flows prediction[C]//Proceedings of the 21st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI, 2017: 1028-1036.
[13]	YU R, LI Y, SHAHABI C, et al. Deep learning: a generic approach for extreme condition traffic forecasting[EB/OL]. [2019-12-02]. https://epubs.siam.org/doi/pdf/10.1137/1.9781611974973.87.
[14]	LI Yuelong, TANG Dehua, JIANG Guiyuan, et al. Short term traffic flow forecasting based on dimension weighted residual LSTM[J]. Computer Engineering, 2019, 45(6): 1-5. (in Chinese) 李月龙, 唐德华, 姜桂圆, 等. 基于维度加权的残差LSTM短期交通流量预测[J]. 计算机工程, 2019, 45(6): 1-5.
[15]	SHI X J, CHEN Z, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2015: 802-810.
[16]	ZHOU Xian, SHEN Yanyan, ZHU Yanmin, et al. Predicting multi-step citywide passenger demands using attention-based neural networks[C]//Proceedings of the 11th ACM International Conference on Web Search and Data Mining. New York, USA: ACM Press, 2018: 736-744.
[17]	YAO Huaxiu, WU Fei, KE Jintao, et al. Deep multi-view spatial-temporal network for taxi demand prediction[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI, 2018: 1087-1096.
[18]	YAO Huaxiu, TANG Xianfeng, WEI Hua, et al. Revisiting spatial-temporal similarity: a deep learning framework for traffic prediction[C]//Proceedings of AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI, 2019: 5668-5675.
[19]	ZHANG F, YUAN N J, WILKIE D, et al. Sensing the pulse of urban refueling behavior: a perspective from taxi mobility[J]. ACM Transactions on Intelligent Systems and Technology, 2015, 6(3): 1-23.
[20]	MA Bo, YANG Yating, ZHANG Guangyi, et al. A multi-view spatial-temporal network for vehicle refueling demand inference[C]//Proceedings of International Conference on Knowledge Science, Engineering and Management. Berlin, Germany: Springer, 2019: 412-423.