一种基于深度卷积神经网络和数字图像处理的粒子形状提取与评估方法外文翻译资料

 2022-02-22 08:02

英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


一种基于深度卷积神经网络和数字图像处理的粒子形状提取与评估方法

摘要

评估粒子形状的前提是从具有复杂背景的原始粒子图像中获取粒子形状,但这也是一项具有挑战性的任务。本文利用深度卷积神经网络(轻量级U-net)和数字图像处理技术,建立了粒子提取和形状分析的系统框架。首先,对粒子的原始图像进行裁剪和人工标记,以训练神经网络。然后,利用训练过的网络从复杂背景下任意大小的图像中提取粒子投影。之后,利用改进的冲蚀充填法和b样条曲线技术对颗粒边界进行分离和光滑。最后,对提取的颗粒形状进行了评估,并与人工提取的颗粒形状数据进行了比较。这两种方法的形状分布具有很好的相关性,这证明了所提出算法的可靠性和性能。

关键词 粒子形状分析深度学习;卷积神经网络计算几何;颗粒状物质;数字图像处理;

1 概述

颗粒形状特征的量化是岩土工程、粉末技术、地质学等众多学科中一个经典且日益流行的研究课题。在相关研究中,通过一系列形状指标来量化形状特征,如投影面积、长短轴、延伸率、棱度、圆度或形状因子。这些形状指标传统上是通过手工测量或视觉比较来计算的。然而,这些传统的方法在处理不规则颗粒形状时费时费力,这意味着它们的准确性和效率是有限的。因此,这些方法不适合批量分析。

为了克服传统方法的不足,前人采用了数字图像处理(DIP)技术,更加客观有效地收集和分析颗粒形状。由于粒子的形状和纹理是复杂的,从具有复杂背景的图像中提取粒子仍然是一项重要而具有挑战性的任务。现有的粒子提取和评价方法主要是基于复杂的设备和图像处理工具包,需要大量的人工操作。例如,受到广泛认可的聚合图像测量系统(AIMS)由复杂的机器组成,只能在实验室中评估颗粒形状。在Roussillon和Mathieu等人的研究中,需要将岩石颗粒从土壤中分离出来,人工沉积在一块红色的板上进行图像采集。分离过程需要人类操作,而这在面对二元混合物或巨大的岩石时似乎不切实际。

2018年,基于经典机器学习算法(AdaBoost)和基于图像的形状分析方法,有研究提出了一种粒子形状识别和表征方法。该研究表明,快速发展的人工智能技术在粒子定位和提取方面优于许多其他技术。然而,由于这些方法需要相当数量的训练样本,因此这些方法仍然有局限性。

为了解决上述问题,引入并改进了深卷积神经网络,即轻量级U-net。如图1.1所示,在算法开始时,我们使用网络从具有复杂背景的原始粒子图像中提取粒子投影。然后,利用改进的冲蚀充填算法和b样条曲线法对提取的颗粒进行分离和平滑,进行形状评估。最后,得到了几种典型样品的颗粒形状分布,并讨论了颗粒提取和形状分析的准确性。

图1.1 该方法的工作流程

2 使用轻量级u型网提取粒子投影

U-net是一种全卷积神经网络(FCN),近年来被证明是解决复杂图像分割任务的一种成功方法。相对于经典的卷积神经网络(如Lenet-5),这是一个改进。在图像分割方面,这些经典的神经网络有一个缺点,这些神经网络结构中的全连通层包含太多的待训练参数,可能会降低训练效率。U-net可以用卷积层代替全连通层来解决这个问题,可以通过减少层数得到了进一步的改进。因此,这种结构被称为轻量级u型网。

在轻量级U-net中,首先将粒子图像转换成像素的wtimes;htimes;c三维矩阵,作为网络的输入,其中w=图像宽度,h=图像高度,RGB图像c=3,二进制图像c= 1。将该矩阵通过网络后,网络产生一个wtimes;h矩阵(即掩码),该掩码标记粒子像素(在矩阵中表示为1)和背景像素(在矩阵中表示为0)。轻量级U-net的主要操作可以分为三类:(1)卷积(Conv)、(2)最大池(MaxPool)和(3)反褶积(deconvolution, DeConv)。虽然所有这些操作都是在深度学习领域中常用的,但为了更清楚的介绍,将在下一节简要解释。

2.1 轻量级u型网中的操作

作为网络的主干,本研究中使用的Conv操作如图2.1所示。在开始时,输入矩阵(图2.1中包含P11、P12hellip;hellip;Pij的黑色部分)被展开并用零元素填充(这一步通常称为零填充操作)。然后,在x和y方向上,以跨步(S = 1)将一个核滑动到扩展的输入矩阵上。本研究将核定义为一个小方阵,将被覆盖的输入矩阵元素转换为相应的特征映射元素(yij)。使用逐元乘法执行转换,如下所示:

(2-1)

式(2-1)中kn为核矩阵的大小,xmn为(m,n)处输入矩阵(展开后)的元素,wmn为与xmn重叠的核矩阵元素,b为输出feature map的偏置值,AF(x)为激活函数。wmn和b都是训练过程中需要训练的参数。注意,本研究中都使用Conv操作,如果没有指定,则使用kn = 3并进行校正。以线性单元(ReLU)为激活函数(如,AF(x) = max (0,x))。

图2.1 卷积操作(为了清晰的显示,像素网格被放大)。

MaxPool和DeConv的操作是分别使用不同的内核和计算对输入矩阵进行下采样和上采样。它们都以滑动窗口的方式执行,就像Conv操作一样。本研究中的MaxPool操作可以看作是一个特殊的Conv操作,它使用kn = 2, S = 2来定义,将整个Eq. 1替换为maxout函数,输出内核所覆盖的最大元素,特别的,

(2-2)

DeConv操作与Conv操作相反。 它有不同的解释,包括上采样或转置卷积。 在本研究中,我们使用了TensorFlow内置的DeConv。

除上述三种主要操作外,还有两种技术,即批量归一化和dropout(保持概率为0.9),本文也做了介绍。批处理归一化用于减少训练阶段的“内部协变量移位”,加快训练速度,而dropout是一种著名的技术,广泛用于通过向输入矩阵添加噪声来防止一种称为过拟合的现象。在所使用的网络中,经常使用Conv操作,然后进行批处理归一化;为了简单起见,这两个操作用CoBn表示。

2.2 轻量级U-net的体系结构

采用的轻量级U-net采用了“向下采样和向上采样”结构,就像原始版本的U-net一样。网络的总体架构可以看作是三种类型组件的组装。这些组件在这里称为下块、上块和底层。本质上,它们是层和操作的组合。这些块分别用于编码和解码输入矩阵。如图2.2(a)和图(b)所示,下行块和上行块主要由三个卷积层组成,通过2cobn操作连接。除了与相邻区域相连,每个下行块也与一个上行块通过直接复制它的第三层与第一层连接在相应上行块,灰色层图2.2(a)和2.2(b),在通过所有下行块之后,输入矩阵(图像)被压缩到底层,在上面通过上块获取输出掩码。图2.2(c)为底层结构示意图;它本质上是由2个CoBn操作连接的三个卷积层。其中w和h为特征图的宽度和高度,nic为卷积层i的特征图个数。

图2.2 (a) U-net下块;(b)U-net上块;(c)底层的结构

而图2.3展示了使用的轻量级U-net是如何由上述组件组成的。首先,输入图像将通过一个dropout操作和四个下行块。在这些块中,输入图像的特征映射由Conv操作编码,MaxPool操作压缩。然后将这些要素图复制并直接插入到对应的上行块中,即图2.3(b)所示的灰色部分。随后,依次通过以下所有块,并与它们的连接副本组合在一起。接下来,在上行块中,对要素图进行解码和解压缩,以确保输出掩码的大小与输入图像相同。最后,通过使用S形函数对上行块1的输出进行归一化来获得所需的掩模。

在所使用的网络中,所有块的要素图的数量远远小于原始版本。但是在本文中,它结合了批量标准化和dropout操作。它们的优点是:(1)减少了网络参数的数量,大大减少了训练过程所需的计算量,降低了过度拟合的风险;(2)根据观测结果,修改不会影响网络的精度;(3)当使用相同的图形卡训练不同版本的网络时,轻量级U-net可能比原始版本的精度更高。主要原因是它只需要更小的GPU内存,因此可以接受更高分辨率的图像。

图2.3 U-net的总体架构

2.3 训练数据

训练数据是网络培训的先决条件。为了演示这一个完整过程,我们拍摄了4个砂砾混合样品,得到了像素大小为3648times;2432的原始图像。然后,从原始图像中手工标记粒子投影,可以生成全尺寸的二进制掩码。而接下来,将原始图像和全尺寸的二进制掩码以滑动窗口的方式裁剪成小尺寸的图像/掩码,(如图2.4所示)。图中(a)是裁剪全尺寸图像;图中(b)是裁剪小尺寸图像,由于实际的情况,图中只绘制了10幅图像和遮罩以作说明。

图2.4 (a)裁剪全尺寸图像;(b)裁剪小尺寸图像

在裁剪过程中,滑动窗口的尺寸对网络训练至关重要。一方面,滑动窗口应尽可能大,以提供更多的详细信息和更大的接受区域。另一方面,它将产生更大尺寸的功能映射,对GPU内存带来相当大的需求。本研究采用NVIDIA GTX 1080Ti GPU (11gb内存),并确定滑动窗口大小为1024times;1024,以充分利用设备。

小尺寸图像经过滑动窗口裁剪后,通过一系列数据增强技术处理,增加训练数据的数量和多样性。如图2.5所示,共使用了4种数据增强方法:(1)旋转(2)轴翻转(3)亮度校正(4)通过将部分像素更改为黑色像素来增加噪声。最后得到540幅图像和掩模。在训练过程中,随机选取90%的图像作为训练集对网络进行训练,其余10%的图像作为测试集进行精度评估。

图2.5 数据增强技术的使用

2.4 训练网络

网络训练本质上是一个自动改变内核矩阵和偏差值的过程,如式(2-1)所述,以最小化手动标记掩码和网络输出掩码之间的差异。这个过程包含两个重要的任务,即选择合适的损失函数并使用算法使其最小化。

对于损失函数,选择加权二元交叉熵(WBCE)函数。 对于输出掩码(Om)及其对应的标记掩模,WBCE计算如下:选择加权二叉熵(WBCE)函数作为损失函数。对于输出掩模(Om)及其对应的标记掩模(或ground truth, GT), WBCE计算如下:

(2-3)

如式(2-3)所示,其中lm是损失图,wm是权重图,SM(矩阵)是计算矩阵中所有元素之和的函数,EWlog(矩阵)是指元素对数函数,ε = 1e minus; 8是用于确保EWlog(矩阵)不输出 minus;infin;(当矩阵具有零元素时),beta;是权重参数,并且“*”表示元素乘法。在上面的等式中,wm和lm都是与Om相同大小的矩阵。lm记录输出掩模的每个像素处的损耗。wm用于在粒子部分小于背景部分时为粒子部分的误差分配更高的权重,反之亦然。它可以减少不平衡训练数据的,这种影响通常是由于使用太密集或太稀疏的粒子图像引起的。例如,如果背景占据非常高比例的训练图像,则网络可以成功地学习如何识别背景但是不能识别粒子。因此,它会将整个图像识别为背景并生成全零输出。使用极其密集的粒子图像的结果是类似的,即网络可能最终产生全一输出。

为了使损失函数最小化,采用ADAM训练算法。在训练过程中,批量大小(单个训练迭代中使用的图像数量)设置为2;在训练开始时,每次迭代3000次,学习率降低5%。经过200个epoch (epoch定义为对所有训练数据进行迭代)的训练后,将学习率降低90%,以便对所有层进行微调。在图7中,通过绘制WBCE和另外两个骰子损失函数的学习曲线,证明了该学习策略的有效性。第一个骰子损失函数定义为损耗=1 - 骰子,第二个定义为损耗= - log (骰子)。在这些损失函数中,骰子的定义如式(2-4)所示:

其中Ag为GT中的粒子部分,Ap为预测粒子部分。如图所示,上述三个损失函数的检测结果的准确率(正确分类像素的比例)达到98%。此外,WBCE损失函数的精度高于其他两个损失函数,因为测试结果的准确性收敛了大约99%。

图2.6证明了所获得的训练结果是准确和可接受的,精度定义为正确分类像素的比例,这意味着所使用的训练图像数量可以满足本研究的要求。 对于其他任务,没有明确的标准来选择最小训练图像编号。但是,在现有研究中可以找到选择足够训练集的建议。

图2.6 使用不同损失函数的学习曲线

Ronneberger等人使用了30个灰度512times;512图像的训练集。类似的网络已在几个数据库中成功训练,这些数据库分别包含50个图像和169个图像。这意味着具有169个图像的数据集足以训练网络。但是,使用不同的训练图像并增加图像数量总是可以提高准确性。

2.5 提取任意尺寸图像上的粒子投影

由于网络结构固定,因此训练网络的简单推理操作只能对固定大小的图像进行。然而,如果是使用类似于训练数据准备过程的重叠滑动窗口方法,就可以很容易地将推理操作推广到任意大小的图像,进而提取任意尺寸图像上的粒子投影。如图2.7所示,方法总结如下:

图2.7 重叠滑动窗口法示意图

(1)以预定的步长在原始图像上滑动一系列滑动窗口,在滑动窗口裁剪小尺寸的图像。

(2)将小尺寸图像通过网络传递,最终将输出掩模部署到全尺寸掩模的相应位置。

(3)对于由两个或多个窗口覆盖的部分,将通过取所有覆盖窗口的平均值来确定掩码。

为了解决这一问题,可以通过稍微修改上述过程来提供替代策略。该策略反复使用侵蚀洪水填充来分离连接的颗粒不同的接触尺寸。该方法可归纳为三个步骤:(1)利用一定的分割半径r进行侵蚀过程;(2)利用洪水填充算法重建分离的粒子并恢复被消除的部分; (3)线性地增加分割半径,并在从前一周期获得的对象中重复执行步骤(1)和(2)。

在步骤(3)中,重叠部分的大小由

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[443998],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。