基于预训练-微调策略的COVID-19预测模型

引用本文

杨莉, 万旺根. 基于预训练-微调策略的COVID-19预测模型[J]. 计算机工程, 2022, 48(3), 17-22. DOI: 10.19678/j.issn.1000-3428.0061241.

YANG Li, WAN Wanggen. COVID-19 Prediction Model Based on Pre-training and Fine-tuning Strategy[J]. Computer Engineering, 2022, 48(3), 17-22. DOI: 10.19678/j.issn.1000-3428.0061241.

基金项目

上海市科委国际合作项目(18510760300)；中国博士后科学基金(2020M681264)

作者简介

杨莉(1996-), 女, 硕士研究生, 主研方向为数据挖掘、机器学习;
万旺根, 教授、博士生导师

文章历史

收稿日期：2021-03-23
修回日期：2021-05-17

Contents Abstract Full text Figures/Tables PDF

基于预训练-微调策略的COVID-19预测模型

杨莉^1,2 , 万旺根^1,2

1. 上海大学通信与信息工程学院, 上海 200444;
2. 上海大学智慧城市研究院, 上海 200444

收稿日期：2021-03-23；修回日期：2021-05-17

基金项目：上海市科委国际合作项目(18510760300)；中国博士后科学基金(2020M681264)

作者简介：杨莉(1996-), 女, 硕士研究生, 主研方向为数据挖掘、机器学习; 万旺根, 教授、博士生导师.

E-mail: yanglee@shu.edu.cn

摘要：COVID-19的世界性大流行对整个社会产生了严重的影响，通过数学建模对确诊病例数进行预测将有助于为公共卫生决策提供依据。在复杂多变的外部环境下，基于深度学习的传染病预测模型成为研究热点。然而，现有模型对数据量要求较高，在进行监督学习时不能很好地适应低数据量的场景，导致预测精度降低。构建结合预训练-微调策略的COVID-19预测模型P-GRU。通过在源地区数据集上采用预训练策略，使模型提前获得更多的疫情数据，从而学习到COVID-19的隐式演变规律，为模型预测提供更充分的先验知识，同时使用包含最近历史信息的固定长度序列预测后续时间点的确诊病例数，并在预测过程中考虑本地人为限制政策因素对疫情趋势的影响，实现针对目标地区数据集的精准预测。实验结果表明，预训练策略能够有效提高预测性能，相比于卷积神经网络、循环神经网络、长短期记忆网络和门控循环单元模型，P-GRU模型在平均绝对百分比误差和均方根误差评价指标上表现优异，更适合用于预测COVID-19传播趋势。

COVID-19 Prediction Model Based on Pre-training and Fine-tuning Strategy

YANG Li^1,2 , WAN Wanggen^1,2

1. School of Communication and Information Engineering, Shanghai University, Shanghai 200444, China;
2. Institute of Smart City, Shanghai University, Shanghai 200444, China

Abstract: The COVID-19 pandemic has had a serious impact on the global society.Building a mathematical model to predict the number of confirmed cases will help provide a basis for public health decision-making.In a complex and changeable external environment, the infectious disease prediction model based on deep learning has become commonly researched.However, the existing models have high requirements regarding the amount of data and cannot adapt to a scene with scarce data during supervised learning.This results in the reduction of model prediction accuracy.The COVID-19 prediction model P-GRU combined with pre-training and fine-tuning strategy is constructed in this study.By adopting the pre-training strategy on the dataset obtained from a specific region, the model is exposed to more epidemic data in advance.Consequently, it can learn the implicit evolution law of COVID-19, provide more sufficient prior knowledge for model prediction, and use the fixed length series containing recent historical information to predict the number of confirmed cases in the future.During the prediction process, the impact of local restrictive policies on the epidemic trend is considered to realize an accurate prediction of the dataset in the target area.The experimental results demonstrate that the pre-training strategy can effectively improve the prediction performance.Compared to Convolution Neural Network (CNN), Recurrent Neural Network (RNN), Long and Short Term Memory (LSTM) network, and Gated Recurrent Unit (GRU) models, P-GRU model attains excellent performance regarding the Mean Absolute Percentage Error (MAPE) and Root Mean Squared Error (RMSE) evaluation indexes.Furthermore, it is more suitable for predicting the transmission trend of COVID-19.

开放科学(资源服务)标志码(OSID):

0 概述

2019年末，新型冠状病毒肺炎(COVID-19)由局部爆发逐渐演变为世界性大流行，截止到2020年12月23日，COVID-19已经造成全球超过7 800万人感染，累计超过170万人死亡。对确诊病例数的准确预测能够帮助决策者进行疫情预防控制措施和长/短期救治方案措施的制定^[1-2]，这种措施的制定对于疫情的有效控制具有重要意义。

研究人员提出了大量数学模型对COVID-19的扩散和传播趋势进行建模和预测。目前主流的传染病模型主要可以分为3类：第1类是经典传染病传播模型，如SIR(易感者-患病者-康复者)^[3-4]、SEIR(易感者-暴露者-患病者-康复者)^[5-6]等；第2类是基于深度学习的传染病传播模型；第3类是其他模型，使用最广泛的是复合群体模型^[7-8]。经典传染病模型在复杂多变的情况下(如政策和外部条件变化)需要手工分段设计以及参数估算，缺乏灵活性且效果不佳。复合群体模型对人群之间的迁移数据要求非常高，任何原始数据的缺陷都会导致模型预测误差变大，难以在大样本的场景下进行建模。因此，在复杂多变的环境下，基于深度学习的传染病传播模型逐渐成为研究热点。然而，目前在COVID-19研究方面存在数据量严重不足的问题，现有的监督学习方法不能很好地适应低数据量的场景，模型预测精度较低。

冠状病毒在生物学特征上具有很大的相似性，有极为相似的病症表现、传染途径以及发展趋势，将这一特性作为建模因素，能够使预测模型提前学习到病毒相关特征信息，有效辅助确诊病例趋势预测。本文构造基于预训练-微调策略的COVID-19预测模型P-GRU。在已有数据集上采用预训练策略，使模型提前接触到更多的疫情数据，从而获得更充分的先验知识。同时，将本地人为限制政策对疫情趋势的影响考虑到模型中，在目标地区数据集中实现精准预测。

1 相关工作 1.1 COVID-19传播预测

在COVID-19传播预测方面，经典传染病传播模型通过数学建模来预测COVID-19传播的趋势，如SIR传染病模型、改进的SEIR模型等。虽然SIR模型及其变体可以略微捕捉到COVID-19的传播流行规律，但在实践中仍然存在一定的问题。SIR模型及其变体模型^[9]在复杂多变的实际情况下缺乏灵活性，不能结合实际环境情况因素，如医院的收治能力、不同患者的传染率等，对于政策和外部情况的变化，模型需要手工分段设计和参数估算^[10]，并没有考虑很多外部因素对模型参数的影响，因此在预测结果上易出现较大偏差。复合群体模型考虑了人群的流动性对传染病传播的影响，适用于研究不同地区之间的病毒传播情况，如傅家旗等提出的P-SI模型^[7]结合人口流动变化对COVID-19传播过程进行预测。虽然复合群体模型在一些场景下有着不错的效果，但是一般而言，复合群体模型对不同群体的迁移数据要求非常高，原始数据的细微缺陷都会导致模型预测产生很大误差。目前该研究更多局限在小样本的情况下，且未考虑潜伏期的影响，对于大样本等实际疫情复杂的情况，建模难度较大。

基于深度学习的预测模型通过多层非线性结构学习低维特征，形成更抽象的高维表示，具有强表达能力。CHIMMULA等使用长短期记忆(Long and Short Term Memory，LSTM)网络预测加拿大疫情的结束日期^[11]，模型的短期精度为93.4%，长期精度为92.67%。ARORA等使用LSTM及其变体对印度的阳性病例数进行预测^[12]，该方法的日预报误差小于3%，周预报误差小于8%。虽然采用LSTM能够较好地预测确诊人数的整体趋势，但LSTM对某一参数的变化不敏感，如对于国家政策实施而导致某段时间内确诊人数激增的情况难以进行有效预测。此外，HUANG等提出用卷积神经网络(Convolutional Neural Network，CNN)来分析和预测确诊病例的数量^[13]。然而，上述深度学习方法均没有考虑到复杂多变的因素对疫情的影响。YANG等考虑到部分外界因素对疫情的影响，结合社会经济特征，基于门控循环单元(Gated Recurrent Unit，GRU)研究美国的流行病数据和疫情时间序列，进而对未来疫情传播趋势进行预测^[14]。但监督学习对数据量的要求较高，数据量不足会导致模型预测效果不佳。

1.2 预训练模型

预训练模型是业内为解决目标问题而构建的已训练好的模型。通过使用在其他问题上训练过的模型参数作为当前任务模型参数的起点，能够避免重新建立模型。在深度学习成为人工智能领域的主流方法后，预训练模型被成功应用于各类计算机领域任务，如图像分类、物体检测等^[15]。在自然语言处理领域，近几年预训练模型发展迅速，在大部分自然语言处理子任务中均取得了较高水准，包括序列标注、分类任务、句子关系判断以及生成式任务^[16]等。其中，预训练-微调策略具有很强的可扩展性，在支持一个新任务时，只需要利用该任务的少量标注数据进行微调即可有效完成当前任务。

在COVID-19数据集中，当前任务数据量不足会导致预测模型效果不佳，而不同地区的数据特征较为相似，因此，本文考虑采用预训练-微调策略解决数据量不足这一问题。

2 P-GRU预测模型

本文构建基于预训练-微调策略的COVID-19预测模型P-GRU。通过预训练策略，在一定程度上解决数据量不足导致预测模型精度降低的问题，并为预测模型提供更丰富的初始化参数，从而使模型提前学习到COVID-19的病毒本质规律，在新的数据集上进行微调后，针对确诊病例发展趋势具有较高的预测精度。

2.1 定义

设定源地区数据集A=$ {\left\{\left({X}_{t}, {y}_{t}\right)\right\}}_{t=1}^{N} $，表示源地区包含有N个样本的数据，以及目标地区数据集B=$ {\left\{\left({X}_{t}, {y}_{t}\right)\right\}}_{t=1}^{N} $，表示目标地区包含有N个样本的数据，其中，$ {X}_{t}=\left({h}_{0}, {x}_{t}\right) $，$ {h}_{0} $为静态特征，$ {x}_{t} $为第t个样本的动态特征，$ {y}_{t} $为第t个样本的真实确诊病例数。由于COVID-19传播速度极快，几乎同时间段在各个国家地区流行，因此源地区和目标地区数据集的样本数量均设为N。

2.2 预训练-微调策略

预训练-微调策略表示为：

$ \mathrm{M}\mathrm{o}\mathrm{d}\mathrm{e}{\mathrm{l}}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}}=\mathrm{ }\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}\left(\mathrm{A}\right) $

(1)

$ \mathrm{M}\mathrm{o}\mathrm{d}\mathrm{e}{\mathrm{l}}_{\mathrm{f}\mathrm{i}\mathrm{n}\mathrm{a}\mathrm{l}}=\mathrm{f}\mathrm{i}\mathrm{n}\mathrm{e}\_\mathrm{t}\mathrm{u}\mathrm{n}\mathrm{i}\mathrm{n}\mathrm{g}(\mathrm{M}\mathrm{o}\mathrm{d}\mathrm{e}{\mathrm{l}}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}}, \mathrm{B}) $

(2)

其中：pretrain作为一个函数，表示预训练策略；$ \mathrm{f}\mathrm{i}\mathrm{n}\mathrm{e}\_\mathrm{t}\mathrm{u}\mathrm{n}\mathrm{i}\mathrm{n}\mathrm{g} $也是一个函数，表示微调过程。在源地区数据集A上经过预训练得到$ \mathrm{M}\mathrm{o}\mathrm{d}\mathrm{e}{\mathrm{l}}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}} $，$ \mathrm{M}\mathrm{o}\mathrm{d}\mathrm{e}{\mathrm{l}}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}} $在目标地区数据集B上进行微调，得到最终模型$ \mathrm{M}\mathrm{o}\mathrm{d}\mathrm{e}{\mathrm{l}}_{\mathrm{f}\mathrm{i}\mathrm{n}\mathrm{a}\mathrm{l}} $，$ \mathrm{利}\mathrm{用}\mathrm{M}\mathrm{o}\mathrm{d}\mathrm{e}{\mathrm{l}}_{\mathrm{f}\mathrm{i}\mathrm{n}\mathrm{a}\mathrm{l}} $即可对目标地区的确诊病例数进行预测。

在预训练过程中，本文模型也考虑了本地人为限制政策对疫情趋势的影响。经过预训练后，保存训练好的预训练模型。利用在源地区中提前学习到的COVID-19病毒本质规律，为后续的趋势预测提供一个更好的初始化参数，将训练好的模型和目标地区的疫情数据输入到GRU预测模型中，并在目标地区中经过微调后得到最终模型，利用此模型进行预测即得到在目标地区中的确诊病例预测结果。预训练策略示意图如图 1所示。

	Download: JPG larger image
图 1 预训练-微调策略示意图 Fig. 1 Schematic diagram of pre-training and fine-tuning strategy

2.3 预测模型

通常利用回归学习任务来解决预测问题，本文的预测模型包含一个用于趋势预测的GRU网络。GRU网络通过适当地合并历史信息来处理序列数据，并且能够有效地简化结构，相比于LSTM网络更加高效。本文预测模型架构如图 2所示，主要由嵌入模块、递归模块和输出模块实现。

	Download: JPG larger image
图 2 P-GRU预测模型架构 Fig. 2 Framework of prediction model P-GRU

预测模型有两类输入：一类是影响因素，另一类是流行病时间序列数据，如确诊病例数。影响因素通过嵌入模块作为GRU的隐藏状态的初始状态，流行病时间序列数据通过GRU的输入端输入模型，模型在时间序列上实现一个滑动窗口，使用带有最近历史信息的固定长度(L)序列来预测每个后续时间点。同时，为了使模型中的预测任务具备更好的合理性及可解释性，滑动窗口固定长度的设定与COVID-19的潜伏期相关。输出模块则输出预测值。另一个具有时变特征的输入特征是本地限制政策^[17]。由于本地限制政策的限制，在不同因素下，疫情的演变是不同的，因此本文在模型中加入本地限制政策的影响因素，如果在滑动窗口的长度L内有人为政策的限制，那么在隐式特征中加入本地限制政策的特征位，以一种隐式的方式考虑本地限制政策对疫情演变的影响。上述过程可由式(3)~式(6)表示：

$ \mathrm{h}\mathrm{i}{\mathrm{d}}_{0}=\mathrm{E}\mathrm{m}\mathrm{b}\mathrm{e}\mathrm{d}\mathrm{d}\mathrm{i}\mathrm{n}\mathrm{g}\left({\mathrm{h}}_{0}\right) $

(3)

$ \mathrm{h}\mathrm{i}{\mathrm{d}}_{t}=\mathrm{G}\mathrm{R}\mathrm{U}(\mathrm{h}\mathrm{i}{\mathrm{d}}_{t-1}, {x}_{t}) $

(4)

$ \mathrm{l}\mathrm{a}\mathrm{t}\mathrm{e}\mathrm{n}{\mathrm{t}}_{\mathrm{f}\mathrm{e}\mathrm{a}\mathrm{t}\mathrm{u}\mathrm{r}\mathrm{e}}=\left[\mathrm{h}\mathrm{i}{\mathrm{d}}_{t};\mathrm{r}\mathrm{e}\mathrm{s}\mathrm{t}\mathrm{r}\mathrm{i}\mathrm{c}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\right] $

(5)

$ {y}_{t+1}^{\mathrm{\text{'}}}=\mathrm{l}\mathrm{a}\mathrm{t}\mathrm{e}\mathrm{n}{\mathrm{t}}_{\mathrm{f}\mathrm{e}\mathrm{a}\mathrm{t}\mathrm{u}\mathrm{r}\mathrm{e}}·{W}^{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}\mathrm{i}\mathrm{c}\mathrm{t}} $

(6)

在式(3)中，$ \mathrm{E}\mathrm{m}\mathrm{b}\mathrm{e}\mathrm{d}\mathrm{d}\mathrm{i}\mathrm{n}\mathrm{g} $表示嵌入模块的实现，hid₀表示递归模块的初始状态；在式(4)中，GRU表示递归模块GRU神经网络的实现；式(5)表示将静态特征与本地限制政策的动态特征进行连接；在式(6)中，$ {y}_{t+1}^{\mathrm{\text{'}}} $表示模型输出的预测值，$ {W}^{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}\mathrm{i}\mathrm{c}\mathrm{t}} $表示最后一层输出全连接层权重。

3 实验与结果分析 3.1 实验设置 3.1.1 数据集

本文实验使用谷歌云平台数据集，包含与COVID-19相关的每日时间序列数据，遍布全球20 000个不同位置。实验采用的数据周期为2020年1月1日―2020年11月26日。实验中选取了印度和美国两个地区的数据，在印度地区数据集上进行预训练，在美国地区数据集上进行微调。作为输入的特征数据影响因素^[18-20]包括静态特征数据和动态特征数据影响因素。静态特征数据影响因素包括当地人均GDP、人口统计数据、当地人的平均寿命等，动态特征数据影响因素包括COVID-19病例数据(每日感染病例、累计感染病例、死亡数据)、政府干预政策数据等。同时，还有很多其他与疫情传播有关的因素^[21]。

3.1.2 评价指标

模型预测性能评价指标使用平均绝对百分比误差(Mean Absolute Percentage Error，MAPE)和均方根误差(Root Mean Square Error，RMSE)。MAPE将精确度量化为一个比率，并可以确定为每个时间帧比率的绝对误差百分比，即实际值减去预测值除以实际值；RMSE则能够衡量观测值与真实值之间的偏差。MAPE和RMSE的计算公式分别如式(7)和式(8)所示：

$ {M}_{\mathrm{M}\mathrm{A}\mathrm{P}\mathrm{E}}=\frac{1}{n}\sum\limits _{t=1}^{n}\left|\frac{{y}_{t}^{\mathrm{\text{'}}}-{y}_{t}}{{y}_{t}^{\mathrm{\text{'}}}}\right|\times 100\mathrm{\%} $

(7)

$ {R}_{\mathrm{R}\mathrm{M}\mathrm{S}\mathrm{E}}=\sqrt[]{\frac{1}{n}\sum\limits _{t=0}^{n}({y}_{t}^{\mathrm{\text{'}}}-{y}_{t}{)}^{2}} $

(8)

3.1.3 对比模型

通过与当前主流模型进行比较，以客观充分地验证本文模型的有效性。实验选择CNN模型、循环神经网络(Recurrent Neural Network，RNN)模型、LSTM网络模型、GRU模型和无预训练策略的P-GRU模型(No-pretrain-P-GRU)作为对比模型。

1) CNN模型使用权重共享的概念，其训练较为容易，且重要特征更能被有效提取^[22]。1D CNN可以用于时间序列分析，也可以用于分析具有固定长度周期的数据。当希望从整体数据集较短的片段中获得重要特征，且该特征在数据片段中的位置不具有高度相关性时，1D CNN是非常有效的。

2) RNN模型包含跨时间分布的隐藏状态，这使其能够处理可变长度的连续数据^[23]，因此在预测应用中最为常见，但RNN的主要缺点是不能解决梯度消失或者梯度爆炸的问题，而且由于只涉及前一时间步^[23]的隐藏激活功能，因此只能存储短期记忆。

3) 对于预测任务，LSTM被认为是最可行的解决方法之一，其可根据数据集中存在的各种突出特征来预测未来趋势变化。LSTM是一种特殊的RNN，主要解决了长序列训练过程中的梯度消失和梯度爆炸的问题^[24]。LSTM模型能够将过去的隐藏状态传递到后续阶段中，相比于普通的RNN模型，能够在长序列中获得更好的效果。

4) GRU是循环神经网络中的一种，和LSTM一样，也是为了解决长期记忆和反向传播中的梯度问题而提出的，LSTM和GRU都是通过各种门函数来将重要特征保留下来，这样就保证了信息在长期传播时也不会丢失^[25]。而且，GRU相对于LSTM少了一个门函数，GRU只剩下两个门，即更新门和重置门^[26-27]，重置门决定了如何将新的输入信息与前面的记忆相结合，更新门定义了前面记忆保存到当前时间步的量。因此，GRU的参数量少于LSTM，整体上GRU训练速度快于LSTM。

3.1.4 参数设置

在印度数据集上预训练时：嵌入模块将4维特定的静态特征稀疏编码为100维度的向量；递归模块是使用单层的具有100维隐藏状态的GRU层，其采用嵌入层的嵌入结果作为第一个初始状态，将长度为7的滑动窗口状态下的总确诊病例数以及每天的本地限制政策作为输入，若7 d内有限制政策，则在隐式特征中加入标志位1，若在7 d内没有本地限制政策，则在隐式特征中加入标志位0；输出层采用全连接层进行预测，通过最近7 d携带的历史信息来预测后续时间点的病例数。实验使用Adam优化器以1e-4学习率训练模型，损失函数采用RMSE。

在美国地区数据集^[28]上进行微调时，与印度数据集上预训练部分基本一致，但是递归模块初始状态的输入除了嵌入层的嵌入结果，还将印度数据集上的预训练模型结果也作为模型的一部分初始状态。

3.2 结果对比

分别利用CNN、RNN、LSTM、GRU、No-pretrain-P-GRU以及P-GRU这6个模型对美国数据集进行预测，并分别比较RMSE以及MAPE。确诊病例数归一化后的模型RMSE以及MAPE结果如表 1所示。可以看出，在所有模型中，本文模型的RMSE和MAPE最小，由此表明其相比于其他模型更适合用于预测COVID-19传播趋势。

下载CSV 表 1 不同模型的预测性能对比 Table 1 Comparison of prediction performance between different models

4 结束语

本文提出一种结合预训练-微调策略的COVID-19预测模型P-GRU，并在美国地区数据集上与CNN、RNN等模型进行均方根误差和平均绝对百分比的性能对比。实验结果表明，本文模型基于监督学习，能在一定程度上解决数据量少而导致的模型精度不足问题，有助于提高确诊病例趋势预测性能。对于变异新冠病毒的传播，也可采用本文提出的预训练-微调策略对疫情传播趋势进行预测。下一步将深入分析外生因素对COVID-19传播的影响，并将其他与疫情传播相关的因素作为特征加入模型，如口罩的流行率、人们的防护意识等，进一步提升模型对于新冠肺炎的预测精度。

参考文献

[1]	周涛, 刘权辉, 杨紫陌, 等. 新型冠状病毒肺炎基本再生数的初步预测[J]. 中国循证医学杂志, 2020, 20(3): 359-364. ZHOU T, LIU Q H, YANG Z M, et al. Preliminary prediction of the basic reproduction number of the novel coronavirus 2019-nCoV[J]. Chinese Journal of Evidence-Based Medicine, 2020, 20(3): 359-364. (in Chinese)
[2]	MURRAY C J L. Forecasting COVID-19 impact on hospital bed-days, ICU-days, ventilator-days and deaths by US state in the next 4 months[EB/OL]. (2020-03-21)[2021-02-10]. https://www.researchgate.net/publication/340307671_Forecasting_COVID-19_impact_on_hospital_bed-days_ICU-days_ventilator-days_and_deaths_by_US_state_in_the_next_4_months/fulltext/5e83399d92851c2f526dea7d/Forecasting-COVID-19-impact-on-hospital-bed-days-ICU-days-ventilator-days-and-deaths-by-US-state-in-the-next-4-months.pdf?origin=publication_detail.
[3]	COOPER I, MONDAL A, ANTONOPOULOS C G. A SIR model assumption for the spread of COVID-19 in different communities[J]. Chaos, Solitons & Fractals, 2020, 139: 1-10.
[4]	张应. 基于SIR模型对COVID-19的研究[D]. 济南: 山东大学, 2020. ZHANG Y. Study on COVID-19 based on SIR model[D]. Jinan: Shandong University, 2020. (in Chinese)
[5]	YANG Z F, ZENG Z Q, WANG K, et al. Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions[J]. Journal of Thoracic Disease, 2020, 12(3): 165-174. DOI:10.21037/jtd.2020.02.64
[6]	邵俊杰, 禹世雄, 高婧婧, 等. 基于SEIR模型的中国山东省与韩国COVID-19疫情早期传播特征比较分析[J]. 华中师范大学学报(自然科学版), 2020, 54(6): 1072-1077. SHAO J J, YU S X, GAO J J, et al. Comparative analysis of the early transmission characteristics of COVID-19 epidemic between Shandong Province in China and South Korea based on the SEIR model[J]. Journal of Central China Normal University(Natural Sciences), 2020, 54(6): 1072-1077. (in Chinese)
[7]	傅家旗, 刘敏, 邓春燕, 等. 复杂人流网络下的COVID-19传播模型[J]. 电子科技大学学报, 2020, 49(3): 383-391. FU J Q, LIU M, DENG C Y, et al. Spreading model of the COVID-19 based on the complex human mobility[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 383-391. (in Chinese)
[8]	雷斌, 刘星良, 曹振, 等. COVID-19在城市轨道交通系统内的传播建模与预测[J]. 交通运输工程学报, 2020, 20(3): 139-149. LEI B, LIU X L, CAO Z, et al. Modeling and forecasting of COVID-19 spread in urban rail transit system[J]. Journal of Traffic and Transportation Engineering, 2020, 20(3): 139-149. (in Chinese)
[9]	张原, 尤翀, 蔡振豪, 等. 新冠肺炎(COVID-19)新型随机传播动力学模型及应用[J]. 应用数学学报, 2020, 43(2): 440-451. ZHANG Y, YOU C, CAI Z H, et al. A new stochastic dynamics model for COVID-19 and its application[J]. Acta Mathematicae Applicatae Sinica, 2020, 43(2): 440-451. (in Chinese)
[10]	张李盈, 李东宸, 任景莉. 多阶段动态时滞动力学模型的COVID-19传播分析[J]. 武汉大学学报(信息科学版), 2020, 45(5): 658-666. ZHANG L Y, LI D C, REN J L. Analysis of COVID-19 by discrete multi-stage dynamics system with time delay[J]. Geomatics and Information Science of Wuhan University, 2020, 45(5): 658-666. (in Chinese)
[11]	CHIMMULA V K R, ZHANG L. Time series forecasting of COVID-19 transmission in Canada using LSTM networks[J]. Chaos, Solitons & Fractals, 2020, 135: 1-10.
[12]	ARORA P, KUMAR H, PANIGRAHI B K. Prediction and analysis of COVID-19 positive cases using deep learning models: a descriptive case study of India[J]. Chaos, Solitons & Fractals, 2020, 139: 1-10.
[13]	HUANG C J, CHEN Y H, MA Y X, et al. Multiple-input deep convolutional neural network model for COVID-19 forecasting in China[EB/OL]. (2020-03-23)[2021-02-10]. https://www.researchgate.net/publication/340240123_Multiple-Input_Deep_Convolutional_Neural_Network_Model_for_COVID-19_Forecasting_in_China/fulltext/5e81fa1f458515efa0ba3053/Multiple-Input-Deep-Convolutional-Neural-Network-Model-for-COVID-19-Forecasting-in-China.pdf?origin=publication_detail.
[14]	YANG T, SHA L, LI J, et al. A deep learning approach for COVID-19 trend prediction[EB/OL]. (2020-08-09)[2021-02-10]. https://arxiv.org/pdf/2008.05644.pdf.
[15]	CHEN H T, WANG Y H, GUO T Y, et al. Pre-trained image processing transformer[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2021: 12294-12305.
[16]	李舟军, 范宇, 吴贤杰. 面向自然语言处理的预训练技术研究综述[J]. 计算机科学, 2020, 47(3): 162-173. LI Z J, FAN Y, WU X J. Survey of natural language processing pre-training technology[J]. Computer Science, 2020, 47(3): 162-173. (in Chinese)
[17]	DANDEKAR R, BARBASTATHIS G. Quantifying the effect of quarantine control in COVID-19 infectious spread using machine learning[EB/OL]. (2020-04-12)[2021-02-10]. https://www.researchgate.net/profile/Raj-Dandekar/publication/340473490_Quantifying_the_effect_of_quarantine_control_in_Covid-19_infectious_spread_using_machine_learning/links/5fe4290a92851c13feb498b5/Quantifying-the-effect-of-quarantine-control-in-Covid-19-infectious-spread-using-machine-learning.pdf?origin=publication_detail.
[18]	ADIGA A, VENKATRAMANAN S, SCHLITT J, et al. Evaluating the impact of international airline suspensions on the early global spread of COVID-19[EB/OL]. (2020-02-20)[2021-02-10]. https://www.researchgate.net/profile/Stefan-Hoops/publication/339452693_Evaluating_the_impact_of_international_airline_suspensions_on_COVID-19_direct_importation_risk/links/5e6687aaa6fdcc37dd139610/Evaluating-the-impact-of-international-airline-suspensions-on-COVID-19-direct-importation-risk.pdf?origin=publication_detail.
[19]	GUAN W J, NI Z Y, HU Y, et al. Clinical characteristics of coronavirus disease 2019 in China[J]. New England Journal of Medicine, 2020, 382(18): 1708-1720. DOI:10.1056/NEJMoa2002032
[20]	GUPTA S, RAGHUWANSHI G S, CHANDA A. Effect of weather on COVID-19 spread in the US: a prediction model for India in 2020[J]. Science of the Total Environment, 2020, 728: 1-10.
[21]	ONDER G, REZZA G, BRUSAFERRO S. Case-fatality rate and characteristics of patients dying in relation to COVID-19 in Italy[J]. JAMA, 2020, 323(18): 1775-1776.
[22]	ALBAWI S, MOHAMMED T A, AL-ZAWI S. Understanding of a convolutional neural network[C]//Proceedings of 2017 International Conference on Engineering and Technology. Washington D.C., USA: IEEE Press, 2017: 1-6.
[23]	GRAVES A. Generating sequences with recurrent neural networks[EB/OL]. (2013-08-04)[2021-02-10]. https://arxiv.org/pdf/1308.0850.pdf.
[24]	FISCHER T, KRAUSS C. Deep learning with long short-term memory networks for financial market predictions[J]. European Journal of Operational Research, 2018, 270(2): 654-669. DOI:10.1016/j.ejor.2017.11.054
[25]	田武. 基于GRU神经网络的广告精准投放预测模型研究[D]. 北京: 北京工业大学, 2019. TIAN W. Research on precision prediction model of advertising placement based on GRU neural network[D]. Beijing: Beijing University of Technology, 2019. (in Chinese)
[26]	CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. (2014-12-11)[2021-02-10]. https://arxiv.org/pdf/1412.3555.pdf.
[27]	CHO K, VAN MERRIËNBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL]. (2014-06-03)[2021-02-10]. https://arxiv.org/pdf/1406.1078.pdf.
[28]	PEI S, SHAMAN J. Initial simulation of SARS-CoV2 spread and intervention effects in the continental US[EB/OL]. (2020-03-21)[2021-02-10]. https://www.researchgate.net/publication/340108285_Initial_Simulation_of_SARS-CoV2_Spread_and_Intervention_Effects_in_the_Continental_US/fulltext/5e795fc4299bf1b2b9ac05bc/Initial-Simulation-of-SARS-CoV2-Spread-and-Intervention-Effects-in-the-Continental-US.pdf?origin=publication_detail.