基于双重注意力机制和GRU网络的短期负荷预测模型

引用本文

李晓, 卢先领. 基于双重注意力机制和GRU网络的短期负荷预测模型[J]. 计算机工程, 2022, 48(2), 291-296, 305. DOI: 10.19678/j.issn.1000-3428.0060145.

LI Xiao, LU Xianling. Method for Forecasting Short-Term Power Load Based on Dual-Stage Attention Mechanism and Gated Recurrent Unit Network[J]. Computer Engineering, 2022, 48(2), 291-296, 305. DOI: 10.19678/j.issn.1000-3428.0060145.

基金项目

江苏省重点研发计划项目（BE2018334）

作者简介

李晓（1995—），男，硕士研究生，主研方向为电力负荷预测、数据挖掘;
卢先领，教授、博士

文章历史

收稿日期：2021-01-28
修回日期：2021-02-25

Contents Abstract Full text Figures/Tables PDF

基于双重注意力机制和GRU网络的短期负荷预测模型

李晓^1,2 , 卢先领^1,2

1. 江南大学轻工过程先进控制教育部重点实验室, 江苏无锡 214122;
2. 江南大学物联网工程学院, 江苏无锡 214122

收稿日期：2021-01-28；修回日期：2021-02-25

基金项目：江苏省重点研发计划项目（BE2018334）

作者简介：李晓（1995—），男，硕士研究生，主研方向为电力负荷预测、数据挖掘; 卢先领，教授、博士.

E-mail：jnluxl@jiangnan.edu.cn

摘要：电力负荷预测对电力系统的部署、规划和运行影响重大，但目前各输入特征对电网负荷情况影响的程度不稳定，且递归神经网络捕获负荷数据的长期记忆能力差，导致预测精度下降。提出一种基于双重注意力机制和GRU网络的预测新模型，利用特征注意力机制自主分析历史信息与输入特征间的关联关系，提取重要特征，并通过时序注意力机制自主选取GRU网络中关键时间点的历史信息，提升较长时间段预测效果的稳定性。在3个公开数据集上的实验结果表明，该模型在预测精度指标上表现良好，对比SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNN-LSTM、Attention-CNN-GRU模型预测精度分别提高了2.47、1.14、1.93、1.37、1.04、0.74、0.41个百分点。

Method for Forecasting Short-Term Power Load Based on Dual-Stage Attention Mechanism and Gated Recurrent Unit Network

LI Xiao^1,2 , LU Xianling^1,2

1. Key Laboratory of Advanced Process Control for Light Industry, Jiangnan University, Wuxi, Jiangsu 214122, China;
2. School of Internet of Things Engineering, Jiangnan University, Wuxi, Jiangsu 214122, China

Abstract: Power load forecasting significantly impacts the deployment, planning, and operation of power systems. However, the impact of input characteristics on power grid load is unstable, and the long-term memory ability of recursive neural networks to capture load data is poor, reducing the forecasting accuracy. A new prediction model based on a dual attention mechanism and Gated Recurrent Unit (GRU) network was established in this study. The feature attention mechanism was used to autonomously analyze the relationship between historical information and input features and extract essential features. Moreover, the historical information of key time points in the GRU network was independently selected based on a temporal attention mechanism to improve the stability of the prediction effect over an extended period. The experimental results for three public data sets show that the prediction accuracy index of the model is satisfactory. Compared with the Support Vector machine Regression(SVR), Kernel Principal Component Analysis-Extreme Learning Machine(KPCA-ELM), Deep Belief Network(DBN), GRU, attention-GRU, Convolutional Neural Network (CNN)-Long Short-Term Memory(CNN-LSTM), and attention-CNN-GRU models, the prediction accuracy improved by 2.47, 1.14, 1.93, 1.37, 1.04, 0.74, and 0.41 percentage points, respectively.

开放科学（资源服务）标志码（OSID）：

0 概述

随着国家大力推进泛在电力物联网的建设，电力系统已向高智能、信息化方向发展。电力负荷预测是其中重要的一环，其结果将对电力系统的部署、规划和运行产生很大的影响。此外，准确预测电力负荷不仅可以保证电力系统的安全，而且也能保证供电企业对供电项目进行实时调度^[1]。

短期电力负荷预测主要对电力系统未来几小时到一天的用电量进行预测，电力负荷的随机性和非线性，使得预测难度提升。同时，受实时变化的环境因素如温度、降雨、湿度、光照等以及用户主观的影响，短期负荷预测的复杂程度进一步增加，精确的短期负荷预测成为一项极具挑战的任务^[2]。

短期负荷预测有较多方法，其中传统的预测方法有时间序列法^[3-4]、回归分析法^[5]等。这些方法的实现原理简单、运算速度快，适合处理结构简单、规模小的数据集。但随着基础设施不断完善，用户规模不断扩大，电力数据呈现爆发式增长。同时，由于其电力数据非线性、适应性差的特点，传统方法逐渐被淘汰，而机器学习方法因其强大的适应性和非线性处理能力得到应用。支持向量回归（Support Vector Regression，SVR）^[6-8]、神经网络模型^[9]展现出不错的效果。文献[10]引入灰色关联分析改善样本筛选，提高数据利用率，并利用混沌粒子群算法优化完善最小二乘支持向量机的参数选择，从而能更好地进行负荷预测。文献[11]根据负荷参考指标的非线性提出核主成分分析来改进极限学习机（ELM）神经网络，降低了输入维数，有效地提高了预测精度。文献[12]提出一种基于最大偏差相似性准则的BP神经网络短期电力负荷预测算法，通过改进最大偏差相似性准则，在最大偏差相似性准则算法聚类后的类中心负荷特征的距离基础上，使用预测日的负荷特征向量来确定预测日的相似日类别。上述方法将影响居民用电情况参量的相关性纳入考虑范围，突出了重要特征。但由于所采用的关联规则方法依赖专家经验，导致特征选取具有一定的主观性，且无法根据实际情况做出自适应的调整，预测时精度呈现不稳定性。

深度学习算法在处理大数据量问题时具有良好的特征提取能力，而短期负荷预测需要从复杂多变的历史负荷数据中提取典型特征，才能做出准确的负荷预测，所以深度学习方法被广泛应用到短期负荷预测中。文献[13]将深度残差网络应用到负荷预测中，具有很好的泛化能力，但同样忽视了时序性的研究。通过研究历史负荷数据得知，负荷有明显的周期性规律，因此在研究短期负荷问题时要考虑其时序性。深度学习模型中的LSTM网络、GRU网络能记忆相关历史信息，从而学习负荷的变化情况。文献[14]提出一种Seq2seq模型，通过LSTM网络构建的编解码器分析用户负荷数据的周期性波动特征，建立负荷数据的相关性并进行预测。文献[15]通过隔离森林算法挖掘清理异常历史负荷数据，利用LSTM网络学习负荷的时序特性并进行预测。文献[16]通过卷积神经网络CNN提取负荷特征，并利用LSTM网络学习负荷的长短期依赖关系。相较于手动提取特征，该方法的提取结果更全面且误差更小。文献[17]引入循环神经网络（Recurrent Neural Network，RNN）以捕获在时间上距离很远数据间的相关性，并利用Zoneout技术解决梯度消失问题，大幅减少待训练的网络参数。文献[18]提出一种双向GRU网络预测模型，通过分析过去和未来的负荷信息学习其周期性和非线性。上述方法虽然能很好地处理负荷在时序上的相关性问题，但忽视了实际运行中各输入特征的关联关系，存在片面性。

深度学习中的注意力机制^[19]是根据人们在处理全局图像时，自主增强焦点区域信息通过抑制其他冗余区域表达的选择性来反映全局信息，而衍生出的以从众多信息中自主选择对当前任务更关键信息的一种信息处理方式^[20]。基于上述原理，针对短期负荷预测深受实时变化的环境因素与居民自身主观因素影响的问题，设计出特征注意力机制和时序注意力机制，利用特征注意力机制来分析不同输入参量对负荷的重要程度，挖掘出关联关系。同时，利用时序注意力机制分析各历史时刻的负荷对待预测时刻负荷的重要程度，来选择关键时间点数据，从而提高预测精度。

本文提出一种基于GRU网络的双重注意力机制，利用特征信息的关联性和时序信息依赖性提升负荷预测的准确率。使各时刻的原始输入信息结合前一时刻GRU网络隐藏的状态信息，并将其输入到特征注意力机制中，分析得到各输入特征的影响力权重，加权后得到优化后的输入数据。在此基础上，使用GRU网络学习特征，将当前时刻网络的隐藏状态输出结合各历史时刻的隐藏状态输出，并通过时序注意力机制，分析得到各历史时刻隐藏状态的影响力权重，加权后得到当前时刻最终隐藏状态的输出，最终通过全连接输出层得到预测结果。

1 深度学习模型原理 1.1 GRU网络

通过研究历史负荷数据得知，负荷有明显的周期性规律，因此在研究负荷问题时要考虑其时序性。深度学习模型中LSTM网络及GRU网络能记忆相关历史信息，从而学习负荷变化情况。LSTM网络被广泛使用，能够分析时间序列数据及捕获长期依赖关系。而GRU网络由LSTM网络改进而来，其通过减少及合并门结构单元优化LSTM复杂的内部结构，从而在保证精度的前提下提高网络的训练速度^[21]。LSTM包含输入门、遗忘门和输出门，而GRU则只包含更新门和重置门，后者减少了参数的训练。更新门控制前一时刻状态信息保留到当前状态中的程度，值越大表示前一时刻的状态信息保留越多。重置门控制当前信息与先前信息结合的程度，值越小说明忽略的信息越多。GRU网络结构如图 1所示。

	Download: JPG larger image
图 1 GRU网络结构 Fig. 1 Structure of GRU network

GFEU网络结构参数单据关系如式（1）~式（4）所示：

$ {z}_{t}=\sigma \left(\mathit{\boldsymbol{W}}_{z}\times \left[{X}_{t}, {h}_{t-1}\right]\right) $

(1)

$ {r}_{t}=\sigma \left(\mathit{\boldsymbol{W}}_{r}\times \left[{X}_{t}, {h}_{t-1}\right]\right) $

(2)

$ {\tilde{h}}_{t}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left(\mathit{\boldsymbol{W}}_{\tilde{h}}\times \left[{X}_{t}, {r}_{t}\times {h}_{t-1}\right]\right) $

(3)

$ {h}_{t}=\left(1-{z}_{t}\right)\times {h}_{t-1}+{z}_{t}\times {\tilde{h}}_{t} $

(4)

其中：$ {z}_{t} $为更新门；$ {r}_{t} $为重置门；$ {X}_{t} $为当前输入；$ {\tilde{h}}_{t} $为输入和过去隐层状态的汇总；$ {h}_{t} $为隐藏层输出；$ \mathit{\boldsymbol{W}}_{z} $、$ \mathit{\boldsymbol{W}}_{r} $、$ \mathit{\boldsymbol{W}}_{\tilde{h}} $均为可训练参数矩阵。

1.2 注意力机制

注意力机制是一种模拟人脑注意力的模型，借鉴了人脑在某个特定时刻对事物的注意力会集中到特定的地方，而减少甚至忽略对其他部分注意力的特点。注意力通过对模型的输入特征赋予不同的权重，突出更关键的影响因素，帮助模型做出更加准确的判断。

在特征关联分析方面，利用GRU网络分析前一时刻隐藏状态输出和当前时刻输入特征，通过多层感知机构建的注意力机制分析得出注意力权重，来反映当前各输入特征对待预测信息的重要程度，提高预测模型的学习效果。

在时序分析方面，注意力机制通过概率分配方式对GRU网络各历史时刻进行重要性分析，突出关键时刻输出的比重，帮助模型做出更准确的预测。

基于上述理论，利用特征注意力机制来分析不同输入参量对负荷的重要程度，挖掘出其关联关系。同时，利用时序注意力机制分析各历史时刻的负荷对预测时刻负荷的重要程度，来选择关键时间点数据，从而提高预测精度。

2 基于双重注意力机制和GRU的负荷预测模型 2.1 特征注意力机制

影响大众电力消费行为的因素有很多，如温度、降雨、湿度、光照、节假日等。为探索相关因素对人们电力消耗的关联性高低程度，引入如图 2所示的特征注意力机制，并采用多层感知机的方法量化各特征影响力的权重。

	Download: JPG larger image
图 2 特征注意力机制 Fig. 2 Feature attention mechanism

将特征时间序列前一时刻GRU网络的隐藏状态$ {h}_{t-1} $和当前时刻输入特征$ {x}_{t}^{m} $作为特征注意力机制的输入，通过式（5）对当前时刻各特征进行注意权重的计算后进行式（6）的归一化处理，并根据注意力权重增强或削弱相关输入信息的表达，将当前时刻得到的权重与对应特征相乘，输出$ \mathit{\boldsymbol{X}}_{t} $，从而自适应优化相关特征的影响力。

$ {e}_{t}^{m}=\mathit{\boldsymbol{V}}_{e}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left(\mathit{\boldsymbol{W}}_{e}\times {h}_{t-1}+\mathit{\boldsymbol{U}}_{e}\times {x}_{{}^{t}}^{m}+{b}_{e}\right) $

(5)

其中：$ \mathit{\boldsymbol{V}}_{e}\in {\mathbb{R}}^{T} $、$ \mathit{\boldsymbol{W}}_{e}\in {\mathbb{R}}^{T\times q} $、$ \mathit{\boldsymbol{U}}_{e}\in {\mathbb{R}}^{T\times T} $均为多层感知机需要学习的神经元权重；$ {b}_{e}\in {\mathbb{R}}^{T} $为偏置参数；q为编码器GRU网络最后一层隐藏层神经元数量。特征权重和优化的输入信息的计算公式如式（6）和式（7）所示：

$ {\alpha }_{t}^{m}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({e}_{t}^{m}\right) = \mathrm{e}\mathrm{x}\mathrm{p}\left({e}_{t}^{m}\right)/\sum \limits_{i=1}^{M}\mathrm{e}\mathrm{x}\mathrm{p}\left({e}_{t}^{i}\right) $

(6)

$ \mathit{\boldsymbol{X}}_{t}={\left({\alpha }_{t}^{1}{x}_{t}^{1}, {\alpha }_{t}^{2}{x}_{t}^{2}, \cdots, {\alpha }_{t}^{M}{x}_{t}^{M}\right)}^{\mathrm{T}}\in {\mathbb{R}}^{1\times M} $

(7)

通过特征注意力机制学习当前时刻各输入特征与待预测负荷信息的相关性，并自适应处理原始输入的特征，以强化相关特征影响力及弱化不相关特征。

2.2 时序注意力机制

居民当前用电负荷情况受历史状态影响较大，且不同时刻的负荷情况影响力不同。为研究每一历史时刻状态信息对当前预测结果的影响程度，引入如图 3所示的时序注意力机制至GRU网络，以自适应处理历史状态信息，并强化相关时刻状态信息的影响力。

	Download: JPG larger image
图 3 时序注意力机制 Fig. 3 Temporal attention mechanism

以包含各历史时刻信息的最后一层隐层状态作为时序注意力机制的输入，分析历史状态与当前状态的关联性，并赋予影响权重，计算公式如式（8）~式（11）所示：

$ \mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}\left({h}_{t}, {h}_{i}\right)={h}_{t}^{\mathrm{{\rm T}}}{h}_{i} $

(8)

$ {\alpha }_{t, i}=\mathrm{e}\mathrm{x}\mathrm{p}\left(\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}\left({h}_{t}, {h}_{i}\right)\right)/\sum \limits_{k=1}^{{T}_{x}}\mathrm{e}\mathrm{x}\mathrm{p}\left(\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}\left({h}_{t}, {h}_{k}\right)\right) $

(9)

$ {c}_{t}=\sum \limits_{i=1}^{{T}_{x}}{\alpha }_{t, i}{h}_{i} $

(10)

$ {\tilde{h}}_{t}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({W}_{c}\left[{c}_{t};{h}_{t}\right]\right) $

(11)

其中：score评分函数采用点积；$ {\alpha }_{t, i} $为历史输入的隐藏层状态对当前输入的注意力权重；$ {c}_{t} $是中间向量；$ {\tilde{h}}_{t} $表示最终输出的当前时刻的隐藏层状态值。

2.3 基于双重注意力机制的GRU模型

双重注意力机制的GRU模型包括输入向量、特征注意力层、3层GRU网络、时序注意力层、全连接层输出。输入向量结合前一时刻GRU网络的隐藏状态，经过特征注意力层计算得到各特征量对当前预测情况的影响权重，并得到修正后的输入特征。经过两层GRU网络学习特征，再通过时序注意力层计算出各历史时刻输出信息的影响权重，得到改进后的当前时刻隐层状态输出，最后输入到全连接层得到最终预测结果，结果如图 4所示。

	Download: JPG larger image
图 4 基于双重注意力机制的GRU网络模型结构 Fig. 4 Structure of GRU network model based on dual-stage attention mechanism

将原始输入信息和前一时刻GRU网络的输出通过注意力机制进行计算，并得出当前时刻输入的特征对本次预测的权重，赋予原始输入信息对应权重，得到新的输入信息。此外，GRU网络随着层数的增加，非线性拟合能力也不断提高，学习效果越好。但考虑到训练时间的问题，层数的选择也要适中。实验设置3层GRU网络：第1层设置128个神经元，以学习特征；第2层设置64个神经元，以减少冗余数据的干扰；第3层设置29个神经元。时间步长为24，学习率为0.001，训练周期为1 000次。另外，结合当前时刻网络输出与历史输出，并通过注意力机制分析所输入特征对预测的影响权重，突出关键时刻的影响因素，得到新的输出向量。最后通过全连接层得到预测结果。

3 算例分析 3.1 数据集

本文采用3个真实的电力负荷数据集验证模型性能，分别为美国纽约电力市场（2018—2020年）数据、印度旁遮普省电力消耗（2019—2020年）数据、美国德克萨斯州电力可靠性委员会（2006—2012年）数据。包括：24点负荷数据，温度，湿度，光强，降雨量，节假日情况（工作日为1，休息日为0），并间隔1 h采集1次数据。为分析本文模型的效果，与SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNN-LSTM、Attention-CNN-GRU模型进行对比。SVR模型采用径向基核函数（RBF），惩罚因子为1 000；KPCA-ELM模型设置了5个主成分，ELM模型为单隐藏层结果；DBN模型采用了神经元个数均为25的3层隐藏层结构；GRU模型采用了神经元个数均为29的3层隐藏层结构，时间步长为24，学习率为0.001，训练周期1 000次。单注意力机制模型的GRU网络采用了神经元个数均为24的3层隐藏结构，时间步长为24，训练迭代次数为1 000次，学习率为0.001；Attention-CNN-GRU模型由2个卷积层、2个池化层和全连接层组成CNN框架。为保证实验的有效性和可靠性，所有方法的实验条件均相同。

3.2 评价指标

误差指标采用平均绝对百分比误差（Mean Absolute Percentage Error，MAPE）和均方根误差（Root Mean Square Error，RMSE），计算公式如下：

$ {e}_{\mathrm{M}\mathrm{A}\mathrm{P}\mathrm{E}}=\frac{1}{n}\sum \limits_{i=1}^{n}\frac{\left|{l}_{i}-{l}_{i}^{'}\right|}{{l}_{i}}\times 100\mathrm{\%} $

(12)

$ {e}_{\mathrm{R}\mathrm{M}\mathrm{S}\mathrm{E}}=\sqrt{\frac{1}{n}\sum \limits_{i=1}^{n}{\left({l}_{i}-{l}_{i}^{'}\right)}^{2}} $

(13)

其中：n为预测点个数；$ {l}_{i} $表示第i点的真实值；$ {l}_{i}^{'} $表示第i点的预测值。

3.3 实验结果与分析 3.3.1 Mendeley数据集上的实验结果对比

本文将2018—2019年的美国纽约电力市场电力数据作为训练数据，将2020年的数据作为测试数据。各模型预测误差如表 1所示。

下载CSV 表 1 不同模型在Mendeley数据集上的预测精度比较 Table 1 Comparison of prediction accuracy among different models on Mendeley data sets

实验结果表明，本文模型的误差为3.82%，与SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNN-LSTM、Attention-CNN-GRU模型相比，分别降低了2.65、1.32、2.25、1.66、1.29、1.05、0.65个百分点。RMSE模型的误差也小于其他模型，可见本文模型比传统机器学习、深度学习方法有更好的预测效果。此外，相比于传统关联分析与神经网络相结合的模型，本文模型取得的预测效果更好。

3.3.2 Kaggle数据集上的实验结果对比

本文将印度旁遮普省电力消耗（2019—2020年）数据集前18个月作为训练数据，后6个月作为测试数据。各模型预测误差如表 2所示。

下载CSV 表 2 不同模型在Kaggle数据集上的预测精度比较 Table 2 Comparison of prediction accuracy among different models on Kaggle data sets

实验结果显示，本文模型的误差为3.17%，与SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNN-LSTM、Attention-CNN-GRU模型相比，分别降低了2.67、1.44、2.04、1.51、0.99、0.69、0.36个百分点，充分证明了本文模型的准确性。

为更直观地描述本文模型的预测效果，图 5给出了各模型针对印度旁遮普省某日上午电力负荷数据的预测曲线。由图 5可知，各模型均能预测曲线的走势，总体上误差相差不大，但随着时间的推移，到负荷最低点时，各模型间的差异开始凸显。传统模型SVR、GRU、DBN的误差都较大，Attention-GRU、CNN-LSTM、KPCA-ELM模型的误差略优。虽然Attention-CNN-GRU模型的效果很好，但本文模型的误差更小，准确率更高。综合分析，本文模型的性能最优。

	Download: JPG larger image
图 5 负荷曲线1 Fig. 5 Curve of load 1

3.3.3 ERCOT数据集上的实验结果对比

本文将2006—2009年美国德克萨斯州电力可靠性委员会电力数据作为训练数据，2010—2012年的数据作为测试数据。各模型的预测误差如表 3所示。

下载CSV 表 3 不同模型在ERCOT数据集上的预测精度比较 Table 3 Comparison of prediction accuracy among different models on ERCOT data sets

实验结果表明，本文模型的预测精度达到97.33%，均方根误差仅为107.754 kW，与SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNN-LSTM、Attention-CNN-GRU模型相比，平均绝对百分比误差分别减少了2.1、0.65、1.51、0.95、0.85、0.48、0.22个百分点，均方根误差分别降低了143.377 kW、120.677 kW、137.093 kW、129.71 kW、122.717 kW、81.683 kW、35.424 kW。综合分析，本文模型在MAPE和RMSE指标上均有显著减少，表明该模型的预测性能优于其他方法。

为验证特征注意力机制自适应挖掘各特征参量的关联性，对训练完成的模型进行实验，提取某日24 h的特征分析情况。关系热力图如图 6所示，其中每个方块的颜色表征该特征与待预测负荷的相关性分数，每行所有方块表征的相关性分数和为1，方块的颜色代表相关性分数的高低，颜色越浅，对应的特征与待测数据越相关，对待测数据影响力越大。

	Download: JPG larger image
图 6 负荷关联特征热力图 Fig. 6 Association heat map of load

由图 6可知，节假日所对应的热力图颜色很淡，表明节假日对用户负荷情况影响很大。在温度所对应的热度图中，在午间时分颜色越来越淡，可知午间温度高时对负荷的影响也很大。而湿度对负荷的影响不大，只在早晨和夜晚时分略有影响。光强对负荷的影响主要在正午光照最强时，天气晴朗时降雨减少，对负荷的影响也变小。总体关联关系较符合居民用电规律。

为更直观地表征本文模型的准确性，使用各模型对美国德克萨斯州电力可靠性委员会某日的数据集进行预测，结果如图 7所示。由图 7可知，各模型均能预测曲线的走势，误差相差不大，但到负荷最低点时，误差开始增大。传统模型SVR、GRU、DBN误差均较大，Attention-GRU、CNN-LSTM、KPCA-ELM模型略优，虽然Attention-CNN-GRU模型的效果也很好，但本文所提模型误差更小，准确率更高。在最高负荷点时，各模型的误差也有所增加，但本文模型预测精度相对更高。

	Download: JPG larger image
图 7 负荷曲线2 Fig. 7 Curve of load 2

4 结束语

针对电网负荷影响因素不稳定以及递归神经网络捕获负荷数据的长期记忆能力差导致的预测精度下降问题，本文提出一种基于双重注意力机制和GRU网络的短期负荷预测模型。针对多变的输入特征，通过特征注意力机制分析相关特征的重要性，从而优化输入特征。同时，使用时序注意力机制，并结合历史信息，分析负荷的时序特性，挖掘关键历史信息，以优化模型的输出，提高模型预测准确度。实验结果表明，本文模型与SVR、KPCA-ELM、DBN、GRU、Attention-GRU、CNN-LSTM、Attention-CNN-GRU模型相比，预测精度分别提高了2.47、1.14、1.93、1.37、1.04、0.74、0.41个百分点。下一步将引入特征选择算法以寻找更优的参考特征，并通过加深GRU网络隐藏层的深度，优化注意力模型，提高关联分析能力与短期负荷预测精度。

参考文献

[1]	AKKAR H A R, ALI W H. Estimation load forecasting based on the intelligent systems[J]. Al-Nahrain Journal for Engineering Sciences, 2018, 21(2): 285-291. DOI:10.29194/NJES21020285
[2]	CHEN J, LI T, ZOU Y, et al. An ensemble feature selection method for short-term electrical load forecasting[C]//Proceedings of the 3rd Conference on Energy Internet and Energy System Integration. Washington D. C., USA: IEEE Press, 2019: 231-241.
[3]	LANG K, ZHANG M Y, YUAN Y B, et al. Short-term load forecasting based on multivariate time series prediction and weighted neural network with random weights and kernels[J]. Cluster Computing, 2018, 22(12): 12589-12597. DOI:10.1007/s10586-017-1685-7
[4]	JUAN C L, RIDER M J, WU Q. Parsimonious short-term load forecasting for optimal operation planning of electrical distribution systems[J]. IEEE Transactions on Power Systems, 2019, 34(2): 1427-1437. DOI:10.1109/TPWRS.2018.2872388
[5]	BRACALE A, CARAMIA P, DE FALCO P, et al. Multivariate quantile regression for short-term probabilistic load forecasting[J]. IEEE Transactions on Power Systems, 2020, 35(1): 628-638. DOI:10.1109/TPWRS.2019.2924224
[6]	汤强, 谢明中, 罗元盛. 基于SVR的用电负荷特征三维回归模型[J]. 计算机工程, 2017, 43(9): 300-303, 309. TANG Q, XIE M Z, LU Y S. SVR based three dimensional regression model of power load characteristics[J]. Computer Engineering, 2017, 43(9): 300-303, 309. (in Chinese)
[7]	郭艳飞, 程林, 李洪涛, 等. 基于支持向量机和互联网信息修正的空间负荷预测方法[J]. 中国电力, 2019, 52(4): 80-88. GUO Y F, CHENG L, LI H T, et al. Spatial load forecasting method based on support vector machine and internet information correction[J]. Electric Power, 2019, 52(4): 80-88. (in Chinese)
[8]	JIANG H, ZHANG Y, MULJADI E, et al. A short-term and high-resolution distribution system load forecasting approach using support vector regression with hybrid parameters optimization[J]. IEEE Transactions on Smart Grid, 2018, 9(4): 3341-3350. DOI:10.1109/TSG.2016.2628061
[9]	XU F Y, CUN X, YAN M, et al. Power market load forecasting on neural network with beneficial correlated regularization[J]. IEEE Transactions on Industrial Informatics, 2018, 14(11): 5050-5059. DOI:10.1109/TII.2017.2789297
[10]	唐玮, 钟士元, 舒娇, 等. 基于GRA-LSSVM的配电网空间负荷预测方法研究[J]. 电力系统保护与控制, 2018, 46(24): 76-82. TANG W, ZHONG S Y, SHU J. Research on spatial load forecasting of distribution network based on GRA-LSSVM method[J]. Power System Protection and Control, 2018, 46(24): 76-82. (in Chinese)
[11]	董浩, 李明星, 张淑清, 等. 基于核主成分分析和极限学习机的短期电力负荷预测[J]. 电子测量与仪器学报, 2018, 42(20): 73-78. DONG H, LI M X, ZHANG S Q, et al. Short-term power load forecasting based on kernel principal component analysis and extreme learning machine[J]. Journal of Electronic Measurement and Instrument, 2018, 42(20): 73-78. (in Chinese)
[12]	罗育辉, 蔡延光, 戚远航, 等. 基于最大偏差相似性准则的BP神经网络短期电力负荷预测算法[J]. 计算机应用研究, 2019, 36(11): 3269-3273. LUO Y H, CAI Y G, QI Y H, et al. Short-term power load forecasting algorithm based on maximum deviation similarity criterion BP neural network[J]. Application Research of Computers, 2019, 36(11): 3269-3273. (in Chinese)
[13]	CHEN K, WANG Q, HE Z, et al. Short-term load forecasting with deep residual networks[J]. IEEE Transactions on Smart Grid, 2019, 10(4): 3943-3952. DOI:10.1109/TSG.2018.2844307
[14]	GONG G, AN X, MAHATO N K, et al. Research on short-term load prediction based on seq2seq model[J]. Energies, 2019, 12(16): 3199-3205. DOI:10.3390/en12163199
[15]	MA Y, ZHANG Q, DING J, et al. Short term load forecasting based on iForest-LSTM[C]//Proceedings of the 14th IEEE Conference on Industrial Electronics and Applications. Washington D. C., USA: IEEE Press, 2019: 123-134.
[16]	陆继翔, 张琪培, 杨志宏, 等. 基于CNN-LSTM混合神经网络模型的短期负荷预测方法[J]. 电力系统自动化, 2019, 43(8): 131-137. LU J X, ZHANG Q P, YANG Z H, et al. Short-term load forecasting method based on CNN-LSTM hybrid neural network model[J]. Automation of Electric Power Systems, 2019, 43(8): 131-137. (in Chinese)
[17]	庄世杰, 於志勇, 郭文忠, 等. 基于Zoneout的跨尺度循环神经网络及其在短期电力负荷预测中的应用[J]. 计算机科学, 2020, 47(9): 105-109. ZHUANG S J, YU Z Y, GUO W Z, et al. Short term load forecasting via zoneout-based multi-time scale recurrent neural network[J]. Computer Science, 2020, 47(9): 105-109. (in Chinese)
[18]	TANG X L, DAI Y Y, WANG T, et al. Short-term power load forecasting based on multi-layer bidirectional recurrent neural network[J]. IET Generation, Transmission and Distribution, 2019, 13(17): 3847-3854. DOI:10.1049/iet-gtd.2018.6687
[19]	周雨佳, 窦志成, 葛松玮, 等. 基于递归神经网络与注意力机制的动态个性化搜索算法[J]. 计算机学报, 2020, 43(5): 812-826. ZHOU Y J, DOU Z C, GE S W, et al. Dynamic personalized search based on RNN with attention mechanism[J]. Chinese Journal of Computers, 2020, 43(5): 812-826. (in Chinese)
[20]	杜圣东, 李天瑞, 杨燕, 等. 一种基于序列到序列时空注意力学习的交通流预测模型[J]. 计算机研究与发展, 2020, 57(8): 1715-1728. DU S D, LI T R, YANG Y, et al. A sequence-to-sequence spatial-temporal attention learning model for urban traffic flow prediction[J]. Journal of Computer Research and Development, 2020, 57(8): 1715-1728.
[21]	WANG Y, LIAO W, CHANG Y. Gated recurrent unit network-based short-term photovoltaic forecasting[J]. Energies, 2018, 11(8): 1-14.