Deep Visual-Semantic Alignments for Generating Image Descriptions

Andrej Karpathy, Member, IEEE and Li Fei-Fei, Member, IEEE

Abstract—We present a model that generates natural language descriptions of images and their regions. Our approach leverages datasets of images and their sentence descriptions to learn about the inter-modal correspondences between language and visual data. Our alignment model is based on a novel combination of Convolutional Neural Networks over image regions, bidirectional Recurrent Neural Networks (RNN) over sentences, and a structured objective that aligns the two modalities through a multimodal embedding. We then describe a Multimodal Recurrent Neural Network architecture that uses the inferred alignments to learn to generate novel descriptions of image regions. We demonstrate that our alignment model produces state of the art results in retrieval experiments on Flickr8K, Flickr30K and MSCOCO datasets. We then show that the generated descriptions outperform retrieval baselines on both full images and on a new dataset of region-level annotations. Finally, we conduct large-scale analysis of our RNN language model on the Visual Genome dataset of 4.1 million captions and highlight the differences between image and region-level caption statistics.

Index Terms—Image captioning, deep neural networks, visual-semantic embeddings, recurrent neural network, language model

Ccedil;

INTRODUCTION

quick glance at an image is sufficient for a human to point out and describe an immense amount of details about the visual scene [1]. However, this remarkable ability has proven to be an elusive task for our visual recognition models. The majority of previous work in visual recognition has focused on labeling images with a fixed set of visual cat- egories and great progress has been achieved in these endeavors [2], [3]. However, while closed vocabularies of visual concepts constitute a convenient modeling assump- tion, they are restrictive when compared to the enormous

amount of rich descriptions that a human can compose.

Some pioneering approaches that address the challenge of generating image descriptions have been developed [4], [5]. However, these models often rely on hard-coded visual concepts and explicitly defined sentence templates, which limits their variety. Moreover, the focus of these works has been on reducing complex visual scenes into a single sen- tence, which we view as an unnecessary restriction.

In this work, we strive to take a step towards the goal of generating dense descriptions of images (See concept Fig. 1). The primary challenge towards this goal is in the design of a model that is rich enough to simultaneously rea- son about contents of images and their representation in the domain of natural language. Additionally, the model should be free of assumptions about specific hard-coded templates, rules or categories and instead learn from pat- terns present in the raw training data in an end-to-end

●

The authors are with the Computer Science Department, Stanford Univer- sity, Stanford, CA 94305. E-mail: {karpathy, feifeili}@cs.stanford.edu.

Manuscript received 16 Dec. 2015; revised 16 June 2016; accepted 25 July 2016. Date of publication 4 Aug. 2016; date of current version 2 Mar. 2017. Recommended for acceptance by K. Grauman, A. Torralba, E. Learned-Miller, and A. Zisserman.

For information on obtaining reprints of this article, please send e-mail to: reprints@ieee.org, and reference the Digital Object Identifier below.

fashion. The second, practical challenge is that datasets of image captions are available in large quantities on the inter- net [6], [7], [8], but these descriptions multiplex mentions of several entities whose locations in the images are unknown. Our core insight is that we can leverage these large image-sentence datasets by treating the sentences as weak labels, in which contiguous segments of words correspond to some particular, but unknown location in the image. Our approach is to infer these alignments and use them to learn a generative model of descriptions in a language modeling

framework. Concretely, our contributions are two fold:

- We develop a deep neural network model that infers the latent alignment between segments of sentences and the region of the image that they describe. Our model associates the two modalities through a com- mon, multimodal embedding space and a structured objective. We validate the effectiveness of this approach on image-sentence retrieval experiments in which we surpass the state-of-the-art.
- We introduce a multimodal Recurrent Neural Net- work architecture that takes an input image and gen- erates its description in text. Our experiments show that the generated sentences outperform retrieval- based baselines and produce sensible qualitative predictions. We then train the model on the inferred correspondences and evaluate its performance on a new dataset of region-level annotations.

Our code, data and annotations are publicly available.¹

RELATED WORK

Dense Image Annotations. Our work shares the high-level goal of densely annotating the contents of images with many works before us. Barnard et al. [9] and Socher et al.

Digital Object Identifier no. 10.1109/TPAMI.2016.2598339 1. cs.stanford.edu/people/karpathy/deepimagesent/

0162-8828 copy; 2016 IEEE. Personal use is permitted, but republication/redistribution requires IEEE permission.

See http://www.ieee.org/publications_standards/publications/rights/index.html for more information.

Fig. 1. Motivation/Concept figure: Our model treats language as a rich label sp

基于深度视觉的语义比对生成图像描述

摘要:我们提出了一个生成图像及其区域的自然语言描述的模型。其方法是利用图像及其句子描述的数据集来了解语言和视觉数据之间的模态对应关系。我们的对齐模型是基于图像区域上的卷积神经网络、语句上的双向递归神经网络(RNN)以及通过多模态嵌入将两种模式对齐的结构化目标的新颖组合。然后描述了一个多模态递归神经网络架构，该架构使用推断的对齐理论来学习生成图像区域的新描述。我们证明了我们的对齐模型在Flickr8K、Flickr30K和MSCOCO数据集的检索实验中产生了最先进的结果。其次，我们发现生成的描述在完整图像和区域级注释的新数据集上都优于检索基线。最后，我们在410万个标题的可视化基因组数据集上对我们的RNN语言模型进行了大规模的分析，突出了图像和区域级标题统计数据之间的差异。

索引词:图像字幕，深层神经网络，视觉语义嵌入，递归神经网络，语言模型

简介

对图像的快速一瞥就足以让人指出并描述关于视觉场景的大量细节[1]。然而，对于我们的视觉识别模型来说，这种非凡的能力被证明是一个难以捉摸的任务。以往在视觉识别领域的研究主要集中在用一组固定的视觉类别来标记图像，并且这些努力取得了巨大进展 [2]，[3]。然而，尽管视觉概念的封闭词汇表构成了一个方便的建模假设，但与人类能够编写的大量丰富描述相比，它们是有限制的。

一些解决生成图像描述挑战的开创性方法已经开发出来[4]，[5]。然而，这些模型通常依赖于硬编码的视觉概念和显式定义的句子模板，这反而限制了它们的多样性。此外，这些作品的重点一直是将复杂的视觉场景压缩成一句话，我们认为这是一种不必要的限制。

在这项工作中,我们努力采取一步生成致密的目标图像的描述(见图1)概念。实现这一目标的主要挑战是设计一个模型，该模型足够丰富，能够同时推理图像的内容及其在自然语言领域中的表示。此外，模型应该不需要对特定的硬编码模板、规则或类别进行假设，而是从原始训练数据中以端到端方式呈现的模式中学习。第二，实际的挑战是，图像标题的数据集在互联网上大量可用，但这些描述涉及多个实体，这些实体在图像中的位置是未知的[6]，[7]，[8]。

我们的核心观点是，我们可以通过将这些句子视为弱标签来利用这些大型图像-句子数据集，其中相邻的单词片段对应于图像中某些特定但未知的位置。我们的方法是推断这些对齐，并使用它们来学习语言建模框架中描述的生成模型。具体来说，我们的贡献有两方面:1、我们开发了一个深度神经网络模型，它可以推断句子片段和它们所描述的图像区域之间的潜在对齐。我们的模型通过一个公共的多模态嵌入空间和一个结构化的目标将这两种模式联系起来。通过实验验证了该方法在图像句子检索实验中的有效性。2、我们介绍了一种多模态递归神经网络结构，该结构利用输入图像生成文本描述。实验表明，生成的句子优于基于检索的基线，并能产生合理的定性预测。然后，我们根据推断出的对应关系训练模型，并在一个新的区域级注释数据集上评估模型的性能。我们的代码、数据和注释是公开可用的。

图1.动机/概念图：我们的模型将语言视为丰富的标签空间，并生成图像区域的描述。

2相关工作

密集图像注释。我们的工作与我们面前的许多工作有共同的高层次目标，即密集注释图像的内容。Barnard[9]等和Socher[10]等人研究了单词和图像之间的多模态对应关系来注释图像片段。有几项工作[11]、[12]、[13]、[14]]研究了整体场景理解问题，其中场景类型、对象及其在图像中的空间支持被推断出来。然而，这些作品的重点是用一组固定的类别对场景、对象和区域进行正确的标注，而我们的重点是对区域进行更丰富、更高层次的描述。

生成描述。还探讨了用句子描述图像的任务。许多方法将任务作为检索问题，其中训练集中最兼容的注释被转移到测试图像[5]，[6]，[15]，[16]，[17]，或者训练的地方注释被分解并拼接在一起[18]，[19]，[20]。几种方法基于固定模板生成图像标题，固定模板基于图像的内容[4]，[5]，[21]，[22]，[23]，[24]，[25]或生成语法填充[ 26]，[27]，但这种方法限制了可能的输出的多样性。与我们更密切相关的是Kiros等人的方法。[28]，[29]他开发了一个对数双线性模型，该模型基于有限长度的上下文窗口生成字幕。基于递归神经网络语言模型[30]，[31]，[32]，[33]，[34]，这项工作同时开发了几种缓解有限上下文约束的方法。我们的RNN比大多数这些方法简单，但性能也略有下降。我们在实验中量化了这种比较。

图像中的自然语言基础。已经开发了许多方法来将文本接地视觉领域[35]，[36]，[37]，[38]，[39]，[40]。我们的方法受到Frome等人的启发。[41]通过语义嵌入将单词和图像联系起来。更密切相关的是Karpathy等人的工作。[42]，他将图像和句子分解成碎片，并使用排名目标推断出他们的模态间对齐。与基于接地依赖树关系的模型相比，我们的模型对齐了连续的句子段，这些句段更有意义，可解释，并且长度不固定。

视觉和语言领域的神经网络。已经开发了多种方法来表示更高级表示中的图像和单词。在图像方面，卷积神经网络（CNNs）[43]，[44]最近出现了一类强大的图像分类和物体检测模型[3]。在句子方面，我们的工作利用预训练的单词向量[45]，[46]，[47]来获得单词的低维表示。最后，回归神经网络先前已经在语言建模[48]，[49]，[50]的背景下使用或提出，但我们还在图像上调整这些模型。

3 我们的模型

概述。我们模型的最终目标是生成图像区域的描述。在训练期间，我们模型的输入是一组图像及其相应的句子描述。我们首先提出一个模型，将句子片段与通过多模式嵌入描述的视觉区域对齐。然后，我们将这些对应关系视为第二个多模式回归神经网络模型的训练数据，该模型学习生成片段（参见图2的视觉概述）。

图2.我们的方法概述。图像数据集及其句子描述是我们模型的输入（左）。我们的模型首先推断出对应关系（中间，第3.1节），然后学习生成新颖的描述（右，第3.2节）。

3.1学习对齐视觉和语言数据

我们的对齐模型假定图像的输入数据集及其句子描述。我们的主要观点是，人们写的句子经常引用图像中某个特定但未知的位置。例如，在图2中，单词“虎斑猫倾斜”指的是猫，单词“木桌”指的是表等。我们想推断这些潜在的对应关系，最终的目标是后期学习从图像区域生成这些片段。我们以Karpathy等人的方法为基础。[42]，谁学会将依赖树关系与具有排名目标的图像区域相关联。我们的贡献在于使用双向递归神经网络（BRNN）来计算句子中的单词表示，分配计算依赖树的需要并允许单词及其语句在句子中无限制的交互。我们也大大简化了他们的目标，并表明两种修改都提高了排名绩效

我们首先描述将单词和图像区域映射到通用的多模式嵌入的神经网络。然后我们介绍我们的新目标，它学习嵌入表示，以便在嵌入空间的附近区域中找到两个模态中的语义相似的概念。

3.2用于生成描述的多模态递归神经网络

在本节中，我们假设一组输入的字幕图像。这些可以是完整图像及其句子描述，或区域和文本片段，如排名所推断模型并在上一节中描述。关键的挑战在于设计一个模型，该模型可以预测给定图像的可变大小的单词序列。在先前开发的基于递归神经网络（RNNs）[49]，[50]，[55]的语言模型中，这是通过定义给定当前单词和来自先前时间步长的上下文的序列中的下一个单词的概率分布来实现的. .我们探索了一个简单但有效的扩展，它还对输入图像内容的语言模型的生成过程进行了调整。

更正式地，在训练期间，我们的多模态RNN采用原始图像像素I和一系列输eth;x1; ... ; xT THORN;。矢量xt 通常可以是300维的并且表示输入字幕中的每个字。这些向量可以通过每个单词的反向传播来学习，或者如果数据大小是一个问题，则可以根据单独的标准（例如，word2vec [47]）来设置它们。然后，Multimodal RNN计算隐藏状态序列eth;h1; ... ; hT THORN;和一系列输出矢量 eth;y1; ... ; yT THORN;通过迭代tfrac14;1到T的以下递推关系：

b_v frac14; W_hifrac12;CNN_uc eth;ITHORN;] (1)

h_t frac14; feth;W_hxx_t thorn; W_hhh_t_—1 thorn; b_h thorn; 1eth;t frac14; 1THORN;oslash; b_vTHORN; (2)

y_t frac14; W_ohh_t thorn; b_o: (3)

在上面的等式中，Whi; Whx; Whh; Woh 和 bh; bo是可学习的参数，CNNuc eth;ITHORN;是CNN的最后一个特征层（在非线性之后），f是激活函数（我们使用ReLU）。输出向量yt 被解释为保持字典中所有单词的（非标准化）日志概率和附加的特殊END标记。注意我们只在第一次迭代时向RNN提供图像上下文向量bv （通过与delta函数1eth;tfrac14;1THORN;的乘法交互调制），我们发现它比每个时间步都更好（可能由于更容易过拟合）。在实践中，我们还发现通过激活函数也可以帮助传递W_hxx_t。RNN的隐藏层的典型大小是512个神经元。

RNN培训。训练RNN采用单词（xt）和先前的上下文（ht—1）来预测序列中的下一个单词（yt）。RNN的预测以第一步的偏置相互作用为条件，以图像信息（bv）为条件。

训练如下进行（参见图4）：我们将h0 frac14; ~0，x1 设置为特殊的START向量，并将y1 的所需标签设置为第一个单词地面真相序列。类似地，在第二时间步骤t = 2，我们将x2 设置为第一个字的字向量，并期望网络预测第二个字等。最后，在xt 表示的最后一步最后一句话，目标标签设置为特殊的END标记。成本函数是最大化分配给目标标签的（标准化的）对数概率（即，Softmax分类器，或交叉熵损失）。

最后，请注意，由于START和END令牌引入的偏移，时间步长T的数量大于图像的基础真值标题中的字数。例如，具有七个单词的标题将需要T = 8的重复应用。在实践中，我们将T上限为16.在优化期间构建小批量数据时，我们会跟踪小批量中每个字幕的长度。然后，我们在小批量的每个示例中并行转发RNN 16个时间步长，并仅在包含单词的字幕的“占用”部分中反向传播渐变。这种方法浪费了一些计算但导致更快的收敛，因为可以比单个示例更有效地处理小批量。

RNN在测试时间。为了预测测试图像的标题，我们计算图像表示bv，将h0 = 0，x1 设置为START向量，并计算标题中第一个单词y的分布1 。我们对分布进行标准化并对单词进行采样（或选择argmax），将x2 设置为其嵌入向量，并重复此过程直到生成END标记。在实践中我们发现了波束搜索解码（例如，具有光束大小3）可以改善结果，因为它通常为输入图像产生更全局可能的字幕，否则其可能不会以贪婪的方式一次一个字地产生。

4生成的描述

我们现在在图像区域和文本片段之间的对应关系上训练多模态RNN，如对齐模型推断的那样。为了支持评估，我们使用Amazon Mechanical Turk来收集我们仅在测试时使用的区域级注释的新数据集。标签界面显示单个图像，并要求注释器（我们每个图像使用九个）绘制五个边界框并用文本注释每个边界框。总的来说，我们在MSCOCO测试分割中收集了200个图像的9,000个文本片段（即每个图像45个片段）。

多模式RNN直接在这个强监督数据上，而不必推断出近似的句子片段区域对齐。在这组实验中，我们使用Visual Genome [59]区域标题数据。与前面的部分不同，我们使用LSTM [60]而不是RNN，使用VGG-16 [61]卷积神经网络，并微调CNN。本节中的实验使用了在Torch [68]中编写的NeuralTalk2项目4 下的公开代码。

与上一节中进行的较小规模的实验类似，我们的目的是验证这样的假设：如果有人对生成区域级别的标题感兴趣，那么简单地训练完整的图像标题模型然后运行它就不是一个合适的策略。在个别地区。大规模的Visual Genome区域数据集使我们能够以更具统计意义的结果支持这一结论。特别是，我们训练两个单独的多模态RNN模型：MSCOCO数据集上的完整图像字幕模型，以及VG数据集上的区域字幕模型。请注意，VG数据集主要由MSCOCO图像组成，因此两个模型都在具有相同视觉统计数据的图像上进行训练，但与MSCOCO（具有110 K训练图像）相比，VG区域数据仅包含大约90 K个训练图像。另一方面，区域模型在总共410万个字幕上进行训练，而完整图像模型仅在大约55万个字幕上进行训练。两种不对称性略微偏向于另一种模型，但很难精确估计它们的相对影响。在这两种情况下我们评估在5,000个VG图像的测试集中的所有区域上的两个模型。

我们报告了METEOR [64]得分，因为在可获得少量参考字幕的情况下，该指标与人类判断强烈相关[65]。同样，我们观察到区域级任务（0.272对0.209 METEOR）在区域和区域标题训练方面有明显改善，而不是训练带有全帧标题的全帧模型，这表明两个案例的视觉和语义统计数据是可能

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于深度视觉的语义比对生成图像描述外文翻译资料

基于深度视觉的语义比对生成图像描述

简介

2相关工作

3 我们的模型

3.1学习对齐视觉和语言数据

3.2用于生成描述的多模态递归神经网络

4生成的描述

您可能感兴趣的文章

登录

注册

找回密码

基于深度视觉的语义比对生成图像描述

简介

2相关工作

3 我们的模型

3.1学习对齐视觉和语言数据

3.2用于生成描述的多模态递归神经网络

4生成的描述

您可能感兴趣的文章