Research on Image Recognition Based on Deep Learning Technology Hao Zhai

Keywords: Image Recognition; Deep Learning;

Abstract：Nowadays image recognition technology is widely used, and plays a very important in various fields. Deep learning technology uses multilayer structure to analyze and deal with image features, which can improve the performance of image recognition. The popular models of deep learning contain AutoEncoder, Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN) and other improved methods. The applications of image recognition based on deep learning technology including image classification, facial recognition, image search, object detection, pedestrian detection, video analysis. We believe that in the future deep learning will develop rapidly in theory, algorithm, and application and they will make our lives more intelligent.

Introduction

Deep learning has recently achieved superior performance on many tasks such as image classification, object detection and neural language processing. The core of the deep learning technology is that the layers of the features are not designed by human engineers and instead learned from data using a general-purpose learning procedure. There are a huge number of variants of the deep learning architecture. Most of them are branched from some original parent architectures. In this survey, we mainly focus on the convolutional neural network (CNN) and recurrent neural network (RNN) based approaches.

CNN is a type of feed-forward artificial neural network consisting of one or more convolutional layers which are then followed by one or more fully connected layers as in a standard MultiLayer perceptron (MLP). The convolutional layer is the core building block of a CNN. The layers parameters comprise a set of learnable filters (or kernels), which have a small receptive field, but extend through the full depth of the input volume. CNN has wide applications in image classification, object detection and image retrieval systems. Fully convolutional network (FCN) is a special convolutional neural network which replaces all the fully

connected layers in CNNs with convolutional layers. FCN can be trained end-to-end, pixels-to-pixels, which is very suitable for the task of semantic segmentation.

RNN is a kind of neural network where connections between units form a directed cycle, thus the activations can flow round in a loop. Unlike feedforward neural networks, RNNs can use their internal memory to process arbitrary sequences of inputs. This makes them applicable to tasks such as unsegmented connected handwriting recognition^[1]or speech recognition^[2]. One of the most popular RNNs is the long-short term memory (LSTM)^[3]which can remember a value for an arbitrary length of time. An LSTM unit contains multiple gates that determine when the input is significant enough to be remembered, when it should continue to remember or forget the value, and when it should output the value. Other RNN models include GNU^[4], MGU^[5].

Most deep learning networks can be trained end-to-end efficiently using backpropagation. It is a common method of training artificial neural networks used in conjunction with an optimization method such as gradient descent. The method calculates the gradient of a loss function with respect to all the weights in the network. The gradient is fed to the optimization method which in turn uses it to update the weights, in order to minimize the loss function.

Different from backpropagation, reinforcement learning is another kind of technology that lets the networks learn what to do–how to map situations to actions–so as to maximize a numerical reward signal. The networks are not told which actions to take, as in most forms of deep learning, but instead must discover which actions yield the most reward by trying them. In the most interesting and challenging cases, actions may affect not only the immediate reward but also the next situation and, through that, all subsequent rewards.

In this survey, we introduce the deep learning based approaches using the backpropagation or reinforcement learning. More concretely, the deep learning based fine-grained object classification will be firstly elaborated and then the deep learning based image semantic segmentation.

Definition of Deep Learning

Deep learning is a new field in the research of machine learning, which is a kind of unsupervised learning. The motivation of deep learning is to simulate the human brain to establish the neural network, which can interpret the data, such as images, sound and text, like human brain. In the neural network, attribute categories or features are represented by combining low-level features to form more abstract high-level features, in order to discover the distributed feature representation of data. One of the promises of deep learning is replacing handcrafted features with efficient algorithms for unsupervised or semi-supervised feature learning and hierarchical feature extraction .

In 2006, Hinton proposed the concept of Deep Learning and Restricted Boltzmann Machine (RBM) model, which used artificial neural networks with multiple hidden layers to improve the performance of visualization and classification . After that, Hinton presented Deep Belief Network (DBN) model based on RBM . On the other hand, deep Convolutional Neural Network

(CNN) was used in image recognition and achieved good performance. Then in 2012, Hinton team won the ImageNet Challenge competition, which is about image recognition. After that, deep learning methods attract a lot of people to study and use. Now these methods are widely used in image and video recognition, recommender systems and natural language processing.

全文共26638字，剩余内容已隐藏，支付完成后下载完整资料

基于深度学习技术的图像识别研究

Zhai Hao

关键词：图像识别; 深度学习;

摘要：当今图像识别技术应用广泛，在各个领域都发挥着重要的作用。深度学习技术采用多层结构来分析和处理图像特征，可以提高图像识别的性能。流行的深度学习模型包括AutoEncoder，Restricted Boltzmann Machine（RBM），Deep Belief Network（DBN），卷积神经网络（CNN），递归神经网络（RNN）等改进方法。基于深度学习技术的图像识别应用包括图像分类，人脸识别，图像搜索，物体检测，行人检测，视频分析等。我们相信，未来深度学习将在理论，算法和应用方面迅速发展，它们将使我们的生活更加智能化。

一．简介

深度学习最近在图像分类，目标检测和神经语言处理等许多任务中取得了卓越的性能。深度学习技术的核心是，这些功能的层次不是由人类工程师设计的，而是使用通用学习程序从数据中学习的。深度学习架构有很多变种。他们中的大多数是从一些原始的父体系结构分支出来的在这次调查中，我们主要关注卷积神经网络（CNN）和递归神经网络（RNN）的方法。

CNN是一种由一个或多个卷积层其然后随后是一个或多个完全连接层如在标准多层感知器（MLP）的前馈神经网络。卷积层是CNN的核心构件。图层参数包含一组可学习的过滤器（或内核），它们具有较小的接受范围，但延伸到输入体积的整个深度。 CNN在图像分类，目标检测和图像检索系统中有着广泛的应用。完全卷积网络（FCN）是一种特殊的卷积神经网络，它完全取代了所有卷积网络

与卷积层有关的CNN中的连接层。 FCN可以进行端到端，像素到像素的训练，这非常适合语义分割的任务。

RNN是一种神经网络，单元之间的连接形成有向循环，因此激活可以循环流动。与前馈神经网络不同，RNN可以使用其内部存储器来处理任意输入序列。这使它们适用于诸如无分割连接手写识别或语音识别等任务。最流行的RNN之一是长期记忆（LSTM），它可以记住任意时间长度的值。 LSTM单元包含多个门，用于确定何时输入足够大以便记住，何时应该继续记住或忘记该值，以及何时应该输出该值。其他RNN模型包括GNU ，MGU。

大多数深度学习网络可以使用反向传播有效地进行端对端培训。这是训练人工神经网络与梯度下降等优化方法结合使用的常用方法。该方法针对网络中的所有权重计算损失函数的梯度。梯度被馈送到优化方法，该优化方法又用它来更新权重，以使损失函数最小化。

与反向传播不同，强化学习是另一种让网络学会做什么的技术 - 如何将情境映射到行动 - 从而最大化数字奖励信号。网络没有被告知采取什么行动，如在大多数深度学习中，而是通过尝试发现哪些行为产生最大的回报。在最有趣和最具挑战性的案例中，行动不仅可以影响直接奖励，还可以影响下一个情况，并通过这些影响所有后续奖励。

在这项调查中，我们介绍了使用反向传播或强化学习的基于深度学习的方法。更具体地说，首先阐述基于深度学习的细粒度对象分类，然后再深度学习基于图像的语义分割。

二．深度学习的定义

深度学习是机器学习研究的一个新领域，是一种无监督学习。深度学习的动机是模拟人脑建立神经网络，它可以解释数据，如图像，声音和文本，如人脑。在神经网络中，通过组合低级特征来表示属性类别或特征以形成更抽象的高级特征，以便发现数据的分布式特征表示。深度学习的承诺之一是用无监督或半监督特征学习和分层特征提取的有效算法取代手工特征。

2006年，Hinton提出了Deep Learning和Restricted Boltzmann Machine（RBM）模型的概念，该模型使用多隐层的人工神经网络来提高可视化和分类的性能。之后，Hinton提出了基于RBM的Deep Belief Network（DBN）模型。另一方面，深度卷积神经网络

（CNN）被用于图像识别并取得了良好的性能。然后在2012年，Hinton团队赢得了ImageNet挑战赛，这是关于图像识别的。之后，深度学习方法吸引了很多人学习和使用。现在这些方法被广泛用于图像和视频识别，推荐系统和自然语言处理。

与传统的机器学习方法相比，深度学习方法特别适合处理大数据。深度学习方法可以通过更复杂的模型减少模型偏差以提高统计估计的准确性。另外，深度学习几乎是唯一端到端的机器学习系统，它放弃了人为规则的中间步骤，并将数据结构的先验知识应用到新的模型结构中。这些优势使得深度学习方法非常适合图像识别。

三．深度学习技术

深度学习是机器学习的一个分支，它基于一组算法，试图通过使用由多个线性和非线性变换组成的多个处理层的深度图对数据中的高级抽象建模。

深度学习算法基于分布式表示。分布式表示背后的基本假设是观察到的数据是由分层组织的因素的相互作用产生的。深度学习增加了这些因素层次与抽象层次或构成层次相对应的假设。可以使用不同数量的图层和图层大小来提供不同的抽象量。这些体系结构通常采用贪心的逐层方法构建。深度学习有助于解开这些抽象并挑选哪些特征对学习有用。

有许多深度学习模型的变体，如AutoEncoder，RBM，DBN，CNN，RNN等改进方法。在这一部分，我们简要介绍这些模型。

（1）自动编码器

AutoEncoder方法是深度学习方法的最简单方法，用于学习一组数据的表示（编码），通常用于降维。 AutoEncoder假定输出数据与输入数据相同，然后在训练过程中调整AutoEncoder的参数以获取每个图层的权重。 Autocoder的目标是重新显示输入数据。因此AutoEncoder必须捕捉最重要的因素，这可能是PCA等最重要的因素。最近，Autoencoder已经越来越广泛地用于学习数据生成模型。

（2）限制玻尔兹曼机器

受限玻尔兹曼机（RBM）是一种生成随机人工神经网络，可以学习其输入集合的概率分布。在RBM模型中，有一个二部图，每层节点之间没有链接。一层是可见层，即输入数据层。另一层是隐藏层。所有节点的值都是随机二进制值（只有0或1）。同时，总概率分布满足玻尔兹曼分布。

如果隐藏层的数量增加，则RBM转换为DBM。另一方面，如果在可视层附近使用贝叶斯信任网络，并且在可视层的最远端部分使用RBM，则RBM转换为DBN。

RBM已经在降维，分类，协同过滤，特征学习和主题建模中找到了应用。根据任务的不同，他们可以通过有监督或无监督的方式进行培训。

（3）深层信仰网络

DBN是一个概率生成模型，用于建立观测数据和标签之间的联合分布模型。 DBN由多个RBN层组成。 DBN非常灵活，这使得它更容易扩展。一个扩展是DBN（CDBN）的卷积。目前，DBN的相关研究包括堆叠自动编码器，它取代了DBN内部的传统RBM。

（4）卷积神经网络

CNN是第一个真正成功培养多层网络结构的学习模式。它利用空间关系来减少参数数量，以提高一般正向BP算法的训练性能。 CNN作为一种深度学习架构，被提出来最小化数据处理的过程。

CNN在图像识别中更加有效。在CNN中，图像的一小部分被视为分层结构中最低层的输入数据。然后将图像的信息依次发送到不同的层。每一层都可以通过数字滤波器获得观测数据的最重要特征。即使图像被翻译，缩放和旋转，CNN也可以处理重要特征的观测数据。因此，CNN是图像识别中一种重要而有效的方法。

（5）循环神经网络

循环神经网络（RNN）的目的是用来处理序列数据。在传统的神经网络模型中，数据是从输入层到隐藏层，然后到输出层，这些层完全连接，并且各层之间的节点没有连接。但是这个常见的神经网络无法解决很多问题。但是，在RNN中，当前输出的数据序列与前端输出有关。在RNN过程中，网络可以记住前端信息并将它们应用到计算的当前输出。这意味着隐藏层中的节点已连接。另一方面，隐藏层的输入数据不仅包括输入层的输出数据，而且还包括最后隐藏层的输出数据。

RNN可以应用于许多任务，如生成图像描述，无分割的连接手写识别，机器翻译和发言识别。

四．基于深度学习技术的图像识别应用

深度学习吸引了很多人进行研究和应用。世界着名大学已经找到了多伦多等研究中心和麻省理工学院技术评论。科技公司还成立了专门的研究小组，如Google的Google大脑项目，百度深度研究机构等。深度学习广泛应用于图像分类，面部识别，图像搜索，物体检测，行人检测，视频分析。

（1）图像分类

ImageNet大规模视觉识别挑战（ILSVRC）是对象类别分类的基准，可检测数百个对象类别和数百万个图像。挑战从2010年至今每年运行一次，吸引了五十多个机构的参与。 ILSVRC的目标是为了检索和自动注释而估计照片的内容。过去5年来，ILSVRC取得了许多成就，推动了图像分类的发展。 ILSVRC和其他大型图像数据集有很多潜在的改进和发展方向。

（2）面部识别

人脸识别是计算机视觉和深度学习领域的另一个重要挑战。在学术界，Labeled Faces in the Wild（LFW）是最着名的人脸识别测试集之一，成立于2007年。测试集中有6000对人脸图像，包含3000个正面样本和3000个负面样本。目前该测试集的识别率可达99.47％。

在工业领域，面部识别技术作为一种更高效的身份验证识别技术已逐渐进入实际应用阶段。人脸识别技术可用于政府，军事，银行，社会保障，电子商务，安防等领域。

（3）图片搜索

在Hinton团队赢得ImageNet竞赛后的6个月中，Google和百度创建了一个基于图像内容的新搜索引擎。他们在ImageNet大赛中跟随Hinton学习模型的深度，适用于他们的数据，并发现图像搜索的准确性大大提高。目前，一些网站推出图像搜索服务，如谷歌，百度等。他们根据输入图像的内容搜索相似的图像。研究结果可以

接近用户的需求。

（4）对象检测

深度学习也为物体检测带来了很大的改进，这比物体识别更困难。图像可能包含属于不同类别的多个对象，并且对象检测需要确定每个对象的位置和类别。 2013年，ImageNet ILSVRC组织者增加了对象检测任务，即需要检测200种对象，约4万张互联网图片。当时的准确率为22.581％，2014年的准确率提高到了43.933％，并且学习方法也很深入。近年来，更有影响力的作品包括RCNN，Overfeat，GoogLeNet，deep-net，VGG和深层CNN中的空间金字塔池。

（5）视频分析

如何用深度学习方法分析视频？最直接的方法是将视频制作为三维图像，并将CNN用于分析视频数据。在最新的研究工作中，存储网络的长度（LSTM）正受到广泛的关注，它可以捕捉复杂动态建模对视频的长期依赖。

随着深度学习的发展，Google，Facebook等企业在图形识别领域取得了重大突破。同时，一家名为Clarifai的初创公司提供了一项新服务，通过深度学习技术了解视频内容。

（6）用于细粒度图像分类的通用CNN

CNN在计算机视觉方面有着悠久的历史。这是LeCun等人首次提出的，并一直与其他识别任务的方法竞争。最近，随着大规模类别级别训练数据（例如ImageNet ）的出现，CNN在大规模视觉识别中表现出优越的性能。 CNN的令人印象深刻的性能[8]也激励研究人员将预先训练过的ImageNet上的CNN调整到其他领域和数据集，如细粒度图像数据集。此外，有线电视新闻网通常能够产生更加区分的图像表示，这对细粒度图像分类至关重要。大多数当前最先进的CNN可以用于细粒度图像分类。

AlexNet是一个深度卷积神经网络，它在ILSVRC-2012比赛中获胜，其中前5名的测试错误率为15.3％，而第二名则为26.2％。它包含八个可学习的图层。前五个是卷积，其余三个完全连接。图2说明了AlexNet的体系结构。

（7）深入细致的图像分类

随着深度学习的进展，细粒度的图像分类受到了相当的关注。近年来已提出许多基于深度学习的方法。细粒度对象分类旨在区分一般类别中不同的从属级别的对象，例如不同种类的鸟类，狗或不同类别的汽车。然而，细粒度分类是一项非常具有挑战性的任务，因为来自相似从属类别的对象可能具有边缘视觉差异，甚至人类难以识别。另外，由于尺度或视点的变化，复杂的背景和遮挡，相同从属类别内的对象可能呈现较大的外观变化。图1展示了三种不同类型的海鸥，具有高的类内方差和小的类间方差。

CUB 200数据集中的两种海鸥说明了细粒度目标分类的难度：类内方差大，类间方差小。相同物种内的鸥的姿态，背景和观点差异很大，不同种类的鸥具有高度的视觉相似性。区别性差异只存在于一些微妙的地区，例如喙或翅膀。

现有的基于深度学习的细粒度图像分类方法可以根据附加信息或人类推理的使用分为以下四类：1）直接使用一般深度神经网络（主要是CNN）来分类罚款2）使用深层神经网络作为特征提取器以更好地定位细粒物体的不同部分并进行对齐，3）使用多个深层神经网络以更好地区分高度视觉相似的细粒图像，以及4）使用视觉注意机制来查找细粒度图像的最具区分性的区域。

在本节中，我们将首先介绍几种主要用于精细图像分类的卷积神经网络。然后，将分别阐述基于零件检测和对齐的方法和基于网络的方法集合。本节的最后部分将回顾基于注意力的方法。

五．深度学习技术的未来

图像识别技术的发展方兴未艾，未来还有很大的发展空间。在对象识别和对象检测中，图像识别倾向于使用更多更深的网络结构。同时，训练数据的规模也在迅速增加，迫切需要研究新的算法和开发新的并行计算系统来训练大数据。

在推断最新的研究后，我们得出结论，未来图像识别的发展趋势有几种。（1）为了处理更多的数据，深层次的学习将

全文共5972字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[13824]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于深度学习技术的图像识别研究外文翻译资料

Introduction

Definition of Deep Learning

您可能感兴趣的文章

登录

Introduction

Definition of Deep Learning

您可能感兴趣的文章