SMASH:通过Hyper Net works进行一次性模型架构搜索外文翻译资料

 2022-06-06 10:06

英语原文共 21 页,剩余内容已隐藏,支付完成后下载完整资料


SMASH:通过Hyper Net works进行一次性模型架构搜索

Andrew Brock, Theodore Lim, amp; J.M. Ritchie

School of Engineering and Physical Sciences

Heriot-Watt University

Edinburgh, UK

{ajb5, t.lim, j.m.ritchie}@hw.ac.uk

Nick Weston

Renishaw plc

Research Ave, North

Edinburgh, UK

Nick.Weston@renishaw.com

摘要

为深度神经网络设计架构需要专业知识和大量的计算时间。我们提出了一种技术,通过学习一个辅助的HyperNet来加速架构选择,该辅助的HyperNet生成一个以该模型架构为条件的主要模型的权重。通过比较具有HyperNet生成权重的网络的相对验证性能,我们可以以一次训练运行为代价,有效搜索各种体系结构。为了便于搜索,我们开发了一种基于内存读写的灵活机制,允许我们定义各种网络连接模式,包括ResNet,DenseNet和FractalNet模块作为特殊情况。我们在CIFAR-10和CIFAR-100,STL-10,ModelNet10和Imagenet32x32上验证了我们的方法。

1介绍

深度神经网络的高性能受到广泛工程和验证的成本的限制,以找到针对给定问题的最佳体系结构。诸如深度,每层单位和层连通性等高层设计决策并不总是显而易见,而诸如Inception [ensp;39],ResNets [ensp;13],FractalNets [ensp;20]和DenseNets [ 15] 等模型的成功证明了其优点错综复杂的设计模式。即使掌握了专业知识,确定编织在一起的设计元素也需要充足的实验时间。

在这项工作中,我们建议绕过昂贵的全过程训练候选模型,而不是训练一个辅助模型HyperNetensp;[12],以动态生成具有可变体系结构的主模型的权重。尽管这些生成的权重比固定架构的自由学习权重更差,但我们利用观察[ 21],即早期训练中不同网络的相对性能(即与最终最优值相距一定距离)常常提供最佳性能的有意义的指示。通过比较使用生成权重的一组体系结构的验证性能,我们可以以单次培训运行为代价对大量体系结构进行排名。

为了便于搜索,我们开发了一种基于内存读写的灵活方案,该方案允许我们定义多种体系结构,以ResNets,DenseNets和FractalNets作为特殊情况。我们通过CIFAR-10和CIFAR-100 [ensp;19],Imagenet32x32 [ensp;7],ModelNet10 [ensp;41]和STL-10 [ 8] 验证了通过Hypernetworks(SMASH)的卷积神经网络(CNN),通过同样规模的手工设计网络实现有竞争力的表现。

2相关工作

用于优化超参数的现代实用方法依赖于随机搜索[ensp;4]或贝叶斯优化(BO)[ensp;33,34ensp;],将模型性能视为黑盒子。虽然成功,但这些方法需要多次训练运行才能进行评估(即使以良好的初始模型开始时),并且在BO的情况下,通常不用于指定可变长度设置,如正在考虑的模型的连通性和结构。相关的,基于匪的方法[ 21]提供了一个框架,通过采用一种自适应的早期停止策略来有效地探索超参数空间,并将更多资源分配给在培训早期显示承诺的模型。

进化技术[ensp;10,37,38,40]提供从琐碎的初始条件,发现杂色模型灵活的方式,但往往很难扩展到深层神经网络,其中搜索空间广阔,甚至有巨大的计算能力[26]。

强化学习方法[ensp;3, 44]已经被用于训练的试剂来产生使用策略梯度网络定义。这些方法从微不足道的体系结构开始,发现实现非常高性能的模型,但可能需要12到15,000 完整培训才能达成解决方案。

最类似于我们自己的方法是Saxe等人的方法。[ensp;29],他们提出仅通过训练具有随机卷积权重的卷积网络输出层来有效地探索各种体系结构。这种方法虽然比全面训练整个网络端到端效率更高,但似乎并未扩展到更深层次的网络[ensp;42]。我们的方法在概念上类似于,但与通过HyperNets [生成的权重替换随机权12],它是一类的技术,用于通过使用辅助模型[动态适配的权重中的一个9,17,27, 31]。在我们的例子中,我们学习了从体系结构的二进制编码到权重空间的转换,而不是学习根据模型输入来调整权重。

我们的方法明确地设计用于评估各种模型配置(在连通性模式和每层单位方面),但不涉及其他超参数,如正则化,学习速率计划,权重初始化或数据增强。与上述进化或RL方法不同,我们探索了一个预先定义的设计空间,而不是从一个平凡的模型开始,并指定一组可用的网络元素。虽然我们仍然考虑一套丰富的体系结构,但我们的方法无法自行发现全新的结构,并且受到限制,因为它只能动态生成模型参数的特定子集。另外,虽然我们的方法不是进化的,但我们的编码方案让人想起CGP [23]。

随机正则化技术如Dropout [ensp;35],Swapout [ensp;32],DropPath [ensp;20]或随机深度[ensp;14]表面上与我们的方法相似,因为它们通过在固定网络体系结构中随机丢弃连通

全文共14928字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[11249],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。