计算机工程

物联网继续迈向低碳化，MIT团队开发出一次训练、多平台部署的AI系统

物联网继续迈向低碳化，MIT团队

开发出一次训练、多平台部署的AI系统

万物互联时代，AI 计算不能仅依赖于云端服务器。例如自动驾驶车辆或无人机执行的物体识别任务，有着较高的实时性需求，因此需要在这些形态各异的终端设备本地中部署深度神经网络（DNN）。但这又会凸显能耗问题，因为终端设备的可用资源往往是受限的。

除了 AI 硬件设计者们在努力开发低功耗的专用芯片以外，还有一组研究人员正想方设法让 DNN 本身更加“低碳化”：将 DNN 模型高效地部署到各种硬件平台上，涉及根据具体硬件算力进行重新设计（或裁剪）以及重头训练，由此带来的成本会随着硬件平台的数量而线性增长，造成大量的能源消耗与碳排放。

一次训练就能适应多平台部署的 Once for All（OFA）方案，成为一种解决思路。

最近，来自麻省理工学院的韩松团队就发表了这个方向的一项新成果：团队开发了一个适用于多种不同硬件平台的 AutoML 系统，这种系统碳足迹更小，硬件上的计算效率更高。这将是一项颇具应用前景的研究。

该方法训练了一个大型的母网络，其中包含许多不同大小的子网络，就能实现子网无需再训练即可适应不同的硬件平台，从而大幅降低了为新平台 (可能包括数十亿个物联网设备) 训练每个专门的神经网络所需的成本。

团队估计，与当今最先进的神经网络架构搜索方法（NAS）相比，利用该系统训练一个计算机视觉模型只需要大约原来 1/ 1300 的碳排放（图 1），同时在不损失准确率的前提下，将推理时间缩短了 1.5-2.6 倍（图 2）。

“我们的目标是更小、更环保的神经网络。目前搜索高效的神经网络架构会产生巨大的碳排放，新方法减少了几个数量级的碳排放”，韩松说。

团队基于 AutoML 建立了这个系统，从而可以自动搜索巨大的神经网络结构空间，以寻找适合于给定硬件平台的网络结构。但是这仍然存在效率问题：不同硬件平台必须单独选择模型，然后从头开始对选择的模型进行训练。

韩松介绍道：“我们如何才能为从 1 美元的物联网设备，到上百美元的智能手机，到上千美元的 GPU 和云 AI 都有效地适配不同的网络？考虑到物联网设备的多样性，神经架构搜索的计算成本将会激增。”

而团队开发的 AutoML 系统之所以能避开这些成本，关键在于只训练作为 OFA 的 “母” 网络。

这个 “母” 网络嵌套了非常多的子网，与所有的子网络共享所有的学习权值，这意味着子网络基本上是经过预先训练的。因此，每个子网可以在推理时独立运行而无需再训练。

针对特定的平台，系统会使用 OFA 作为搜索空间，根据与平台的能力和速度限制相吻合的准确性和延迟权衡，找到最佳的子网。例如，对于物联网设备，系统会找到一个较小的子网。对于智能手机，它将选择较大的子网，但根据电池寿命和计算资源的不同，子网的结构也将不同。OFA 将模型训练和架构搜索解耦，并将一次性训练成本分摊到多个推理硬件平台和资源约束上，在需要多平台部署的场景下显现优势。

这依赖于 “渐进收缩” 算法，它能有效地训练 OFA 网络以同时支持所有的子网。“渐进收缩”算法首先用最大尺寸训练整个网络，然后逐步缩小网络的大小去覆盖更小的子网。小的子网络在大的子网络的帮助下一起提升。最后，系统支持不同大小的所有子网络，并允许基于平台的能力和速度限制进行快速定制化。它支持多种硬件设备，在添加新设备时，训练成本为零。

“一个通用的 OFA 网络，支持在大量不同的结构设置下通过截取 OFA 网络的不同部分来进行高效推理”，HAN Lab 博士生蔡涵说。根据论文，一个 OFA 网络可包含超过 10 的 19 次方个结构设置，几乎覆盖了所有需要的平台。

那么成本以外，准确性如何？

结果显示，这种方法在移动设备上提供了目前最优的 ImageNet 精度（图 3）。

蔡涵表示：“从计算资源的角度，NAS 方法的总计算资源是随着部署场景数量的增加而线性增长的。当有多个部署场景的时候，OFA 会比 NAS 方法高效得多。具体上，在 40 个部署场景的情况下，OFA 的总计算资源消耗是 ProxylessNAS 的 1/16，MnasNet 的 1/1300”。

从准确率的角度，OFA 中的子网在经过微调后可以达到比单独从头训练更好的准确率。在 ImageNet 上，OFA 在大量的硬件平台和效率约束下都达到了明显好于 EfficientNet 和 MobileNetV3 的性能（图 2）。在 ImageNet 的 Mobile Vision 条件下（< 600M MACs），OFA 达到了最新的 80.0% SOTA 准确率。OFA 网络在第三届和第四届低功耗计算机视觉比赛（Low-Power Computer Vision Challenge）中都取得了第一。

现在，该研究论文已被 ICLR 2020 大会收录，并在 github 上开源了训练代码以及 50 个用于各种硬件平台的 ImageNet 预训练模型，包括了在 600M MACs 约束下达到 80.0%ImageNet 准确率的模型、预训练的 OFA 网络。

接下来，团队将继续拓展 OFA 在不同应用下的效率提升，让 AI 轻量化，既能运行在云端平台也能运行在边缘设备上。

发布日期：2020年5月6日

来源：DeepTech深科技

发布日期: 2020-05-13 访问总数: 34

模态框（Modal）标题