英语原文共 12 页

任务学：揭开任务迁移学习的秘密

视觉任务是否有关系，或者它们是否没有关系？例如，表面法线是否可以简化估算图像的深度？直觉回答了这些问题，暗示了视觉任务中存在结构。发现这种结构有显著的价值; 它传递学习的基本概念，并提供了一种原则性的方法来识别任务之间的冗余，例如，无缝地重用相关任务之间的监督或在一个系统中解决许多任务而不会增加复杂性。

我们提出了一种完全利用计算的方法来模拟视觉任务的空间结构。这是通过在潜在空间中的二十六个2D，2.5D，3D和语义任务的字典中找到（一阶和更高阶）传递学习依赖性来完成的。该产品是用于任务转移学习的计算分类地图。我们研究了这种结构的后果，例如：非平凡的关系，并利用它们来减少对数据的需求。例如，我们表明，解决一组10个任务所需的标记数据点总数可以减少大约三分之二（与训练无关），同时保持性能几乎相同。我们提供了一套用于计算和探测这种分类结构的工具，包括用户可以用来为其用例设计有效监督策略的解算器。

1.简介

物体识别，深度估计，边缘检测，姿态估计等是被研究界认为有用和解决的常见视觉任务的例子。它们之间有一些相当清晰的关系：我们认为表面法线和深度是相关的（一个是另一个的衍生物），或房间中的消失点用于定向。其他关系不太清楚：关键点检测和房间中的阴影如何一起进行姿态估计。

图1：计算发现的示例任务结构
任务分类。从中可以发现，通过组合表面法线估计器和遮挡边缘检测器的学习特征，可以用很少的标记数据快速训练用于重新整形和点匹配的良好网络。

计算机视觉领域确实走得很远，没有明确地使用这些关系。我们通过开发能够在多对（x，y）s.t.从X到Y找到复杂映射的高级学习机器（例如ConvNets）取得了显着的进步。x isin; X, y isin; Y作为训练数据。这通常被称为完全受控的学习，并且经常导致孤立地解决问题。孤岛任务使训练成为一项新的任务或全面的感知系统成为不可能完成的挑战，每项任务都需要从头开始单独学习。这样做会忽略它们可量化的有用关系，从而导致大量标记数据要求。

另外，了解任务之间关系的模型需要较少的监督，使用较少的计算，并以更可预测的方式行事。结合这种结构是发展可证明有效的综合/普遍感知的第一步
模型[34,4]，即在监督或计算要求变得棘手之前可以解决大量任务的模型。但是，这个任务空间结构及其影响仍然很大程度上未知。这种关系是非平凡的，由于我们拥有不完善的学习模型和优化者，因此找到它们很复杂。在本文中，我们试图揭示这个底层结构，并提出一个映射视觉任务空间的框架。这就是我们所说的“结构”，它是一个由国家发现的关系集合，指明哪些任务提供了有用的信息，以及多少信息（见图1）。

我们采用完全计算的方法来实现这种目的，神经网络作为采用的计算功能类。在前馈网络中，每个层都成功地形成了输入的更抽象的表示，其包含将输入映射到输出所需的信息。然而，这些表示可以传输有助于解决其他输出（任务）的统计数据，可能是因为任务以某种形式相关[83,19,58,46]。这是我们方法的基础：我们根据是否可以从为另一个任务训练的表示中充分轻松地读出一个任务的解决方案来计算任务之间的亲和度矩阵。对此类转移进行了详尽的抽样，二元整数规划公式从中提取了全球有效的转移政策。我们展示这个模型导致用比独立学习它们更少的数据来解决任务，并且得到的结构保存在常见的数据集上（ImageNet [78]和Places [104]）。

基于完全计算和表示，所提出的方法避免对任务空间强加先前（可能是不正确的）假设。这是至关重要的，因为关于任务关系的先验通常来自人类的直觉或分析知识，而神经网络工作不需要在相同的原则上运[63,33,40,45,102,88]。例如，虽然我们可能期望深度更好地转移到表面法线（衍生物很容易），但相反的是在计算框架中更好的方向（即更好地适应神经网络）。使用我们模型的交互式分类求解器建议数据有效的课程，现场演示，在http://taskonomy.vision/可以找到数据和代码。

相关工作

在任务中存在结构的断言可以追溯到现代计算机科学的早期阶段，例如图灵争论使用学习元素[95,98]而不是最终结果或者让皮亚杰使用以前学过的阶段在发展阶段工作作为来源[74,39,38]，并扩展到[76,73,50,18,97,61,11,66]。在这里，我们试图找到这个结构。我们承认这与广泛的主题有关，例如，成分建模[35,10,13,23,55,92,90]，同态密码学[42]，终身学习[93,15,85,84]，功能图[71]，贝叶斯推理的某些方面和Dirichlet过程 [54,91,90,89,37,39]，少数学习[81,25,24,70,86]，转学[75,84,29,64,67,59]，非 / 半/ 自我监督学习[22,8,17,103,19,83]，研究各个领域[73,94,12]。我们在空间限制内回顾与视觉相关的主题：

自我监督的学习方法利用任务之间的固有关系，通过廉价的替代品（例如，颜色化）来学习所需的昂贵的（例如，物体检测）[68,72,17,103,100,69]。具体而言，它们在任务空间中使用结构的手动输入的本地部分（因为代理任务是手动定义的）。相比之下，我们的方法以计算方式对这个大的任务空间进行建模，并且可以发现模糊的关系。

无监督学习涉及输入域中的冗余，并利用它们来形成紧凑的表示，这通常对下游任务是不可知的[8,49,20,9,32,77]。我们的方法不受定义的监督，因为它对任务不是不可知的。相反，它模拟空间任务所属，并以某种方式利用任务之间的功能冗余。

元学习通常寻求在比传统学习发生的水平更高的水平上进行学习，例如，用于强化学习[21,31,28]，优化[2,82,48]，或某些建筑机制[27,30,87,65]。元学习背后的动机与我们的相似，我们的结果可以看作是任务空间的计算元结构。

域适应旨在提供在适用于另一个域的某个域[44,99,5,80,52,26,36]。它经常解决输入do main的变化，例如摄像头图像到D-SLR [47]，而任务保持不变。相反，我们的框架关注输出（任务）空间，因此可以被视为任务/输出适应。我们还在许多元素之间的更大空间中进行适应，而不是两个或几个。

在我们的建模转移方法的背景下，学习跨任务：

图2：任务关系的计算建模和创建分类法。从左到右：I。培训任务专用网络。II。在潜在空间中的任务之间训练（一阶和更高阶）传递函数。III。使用AHP（分析层次结构过程）获得标准化的转移亲和力。IV。使用BIP（二进制整数程序）查找全局转移分类。

学习理论方法可能与上述任何主题重叠，通常侧重于提供一般化保证。他们的方法各不相同：例如通过建模可转移性与转移家族建模，将一个任务的假设映射到另一个任务的假设[7]，通过基于信息的方法[60]，或通过建模归纳偏差[6]。对于这些保证，学习理论方法通常依赖于难以处理的计算，或通过限制模型或任务来避免这种计算。我们的方法从理论方法中汲取灵感，但为了使用现代神经机械而避开（目前）理论保证。

方法

我们将问题定义如下：我们希望最大化一组任务T = {t1，...，tn}的集体绩效，受制于我们有限监管预算的约束（由于财务，计算或时间限制）。我们将监督预算gamma;定义为我们愿意从头开始训练的最大允许任务数（即源任务）。任务字典定义为V=T cup; S，其中T是我们想要求解的任务集（目标），S是可以训练的任务集（源）。因此，T minus; T cap; S是我们想要解决但无法训练的任务（“只有目标”）T cap; S是我们想要解决的任务，但也可以作为来源发挥作用，并且S minus; T cap; S是我们可能不直接关心解决的“仅来源”任务（例如拼图游戏），但如果它们提高了T的性能，则可以选择使用。

任务分类（taskonomy）是计算上发现的有向超图，它捕获任务给定任务字典上的任务可转移性概念。在一组源任务和目标任务之间的边缘表示可行的转移案例，其权重是其性能的预测。我们使用这些边来估计全局最优转移策略来解决T. 分类法产生了一系列这样的图，通过可用的预期预算，选择的任务，转移顺序和转移函数来表示参数化。

使用图2中描绘的四步过程构建分类法。在阶段I中，训练S中的每个任务的任务特定网络。在第二阶段，培训来源和目标之间的所有可行转移。我们包括使用多个输入任务转移到一个目标的高阶转移。在阶段III中，从传递函数性能获得的任务亲和度被标准化，并且在阶段IV中，我们合成尺寸超图，其可以预测任何转移策略的性能并且针对最优转移策略进行优化。

图3：任务字典。查询的24个（26个）任务专用网络的输出（左上）。在此处查看在视频上逐帧应用的结果。

视觉任务是从原始图像中读取的抽象。我们将任务更正式地表示为将图像I映射到ft（I）的函数ft。我们的数据集D为每个任务包含一组训练对（I，ft（I）），例如，（图像，深度）。

图4：传递函数。训练小的读出功能以将源任务的冻结编码器的表示映射到目标任务的标签。如果指令gt; 1，则传递函数接收来自多个源的表示。

任务字典：我们的任务空间映射是通过字典中包含的（26）任务完成的，因此我们确保它们涵盖计算机视觉（2D，3D，语义等）中的共同主题，以阐明任务空间的细粒度结构。有关补充材料中提供的每项任务的详细定义的一些任务，请参见图3.我们包括具有各种抽象级别的任务，范围从可通过在图像上卷积的简单内核（例如边缘检测）解决到需要的任务对场景几何（例如消失点）的基本理解和涉及语义的更抽象的（例如场景分类）。

值得注意的是，任务字典应该是所有可想象的视觉任务的密集空间中的采样集，而不是详尽的列表。采样为我们提供了一种对稀疏空间进行稀疏建模的易处理方法，并且假设（根据适当的采样）派生模型应该推广到字典外的任务。空间越经常/越好采样，泛化越好。我们在Sec.4.2中评估这个，有了支持性结果。为了评估结果的稳健性，请选择二项，参见补充材料。

数据集：我们需要一个数据集，其中包含每个图像上的任务注释。在完全相同的像素上训练我们的所有任务消除了观察到的可转移性受到不同输入数据的影响而不仅仅是任务内在性的可能性。由于没有真实图像的比例数据集，因此我们从大约600座建筑物中创建了400万张室内场景图像数据集。每个图像都有一个每个任务的注释。图像注册并与类似于[3,101,14]的建筑物宽网格对齐，使我们能够编程计算许多任务的基本事实而无需人工标记。对于仍然需要标签的任务（例如，课程类），我们使用来自已知方法[104,57,56,78]的知识蒸馏[43]来生成它们。有关该过程的完整详细信息，请参阅补充材料，以及使用知识蒸馏生成的标签最终质量的用户研究（显示lt;7％错误）。

图5：将结果从5个不同的源任务传输到法线（上部）和2.5D分段（下部）。在不同来源之间的可转移性的传播是显而易见的，在这种情况下，在表现最好的那些之间进行了重新调整。特定于任务的网络接受了60多个数据的培训。 “Scratch”从头开始训练，没有转学习。

3.1.第一步：任务特定建模

我们为S中的每个任务训练一个完全监督的任务专用网络。特定于任务的网络在所有任务中都具有均匀的编码器解码器架构，其中编码器足够大以提取强大的表示，并且解码器足够大以实现性能良好但比编码器小得多。

3.2.第二步：转移建模

给定源任务s和目标任务t，其中s isin; S, t isin; T，传输网络在给定针对s计算的统计量的情况下学习t的小读出函数（参见图4）。统计量是来自s：Es（I）的编码器的图像I的表示。读出功能（Ds→t）通过theta;s→t 最小化损失Lt来参数化：

其中ft（I）是图像t的t的基础事实。根据t和s之间的关系，Es（I）可能或可能不足以求解t（图5中的例子）。因此，Ds→t的性能是作为任务亲和力的有用度量。我们为所有可行的源 - 目标组合训练传递函数。

可访问性：为了使转移成功，源的潜在表示应包括用于求解目标的足够信息并且具有可访问的信息，即易于提取（否则，原始图像或其基于压缩的表示将是最佳的）。因此，对于我们来说，采用低容量（小）架构作为使用少量数据训练的传递函数是至关重要的，以便测量高度可访问的可转移性。我们使用浅的完全卷积网络并用很少的数据训练它（比任务专用网络少8到120倍）。

图6：高阶转移。表示可以包含补充信息。例如。通过同时从3D边缘和Curvature转移，各个楼梯被带出。有关更多示例，请参阅我们公开的交互式传输可视化页。

高阶传输：多个源任务可以包含用于解决目标任务的补充信息（参见图6中的示例）。我们包括高阶转移，它与第一个订单相同，但在输入中接收多个代表。因此，我们的转移是函数D : weierp;(S) → T ,，其中weierp;运算

资料编号：[5102]

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

任务学：揭开任务迁移学习的秘密外文翻译资料

任务学：揭开任务迁移学习的秘密

您可能感兴趣的文章

登录

注册

找回密码

任务学： 揭开任务迁移学习的秘密

您可能感兴趣的文章

任务学：揭开任务迁移学习的秘密