变分推理的研究进展外文翻译资料

 2023-05-16 03:05

英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料


附录C 译文

变分推理的研究进展

摘要——许多现代无监督或半监督机器学习算法依赖于贝叶斯概率模型。这些模型通常难以处理,因此需要近似推断。变分推理(变分推理)让我们通过解决优化问题来逼近具有更简单变分分布的高维贝叶斯后验。这种方法已成功应用于各种模型和大规模应用。在这篇综述中,我们概述了变分推理的最新趋势。我们首先介绍标准平均场变分推理,然后回顾最近的进展,重点关注以下方面:(a)可扩展变分推理,包括随机近似,(b)通用变分推理,将变分推理的适用性扩展到一大类原本难以处理的模型,例如非共轭模型,(c)精确变分推理,包括超出平均场近似或具有非典型散度的变分模型,以及(d)摊销变分推理,它使用推理网络实现对局部潜在变量的推理。最后,我们总结了有前景的未来研究方向

关键词:变分推理、近似贝叶斯推断、重新参数化梯度、结构化变分逼近、可伸缩推理、推理网络

1引言

贝叶斯推理已成为机器学习的重要组成部分。它使我们能够系统地推理参数不确定性。贝叶斯推理的核心对象是给定观察值的模型参数的后验分布。本综述侧重于变分推理(变分推理):一种使贝叶斯推理在计算上高效且可扩展到大型数据集的方法。

贝叶斯机器学习经常依赖于概率潜变量模型,例如高斯混合模型、隐马尔可夫模型、潜在狄利克雷分配、随机块模型和贝叶斯深度学习架构。计算准确的贝叶斯后验需要对所有潜在变量求和或积分,对于复杂模型和大规模应用,这些潜在变量可能有数百万或数十亿。因此,在这些模型中,精确推断通常是难以处理的,因此需要近似值。

变分推理的中心思想是通过更简单的分布来近似模型后验。为此,一个最小化后验分布和近似分布之间的散度。这种方法规避了计算难以处理的归一化常数。它只需要了解观测值和潜在变量的联合分布。本文将回顾这种方法及其最近的改进。

在近似贝叶斯推理领域,变分推理属于基于优化的方法[14]、[62]。该类还包含诸如循环信念传播[131]和期望传播(EP)[127]等方法。相反,马尔可夫链蒙特卡罗(MCMC)方法依赖于采样[22]、[61]、[151]。通过构造,MCMC通常是无偏的,因此在极限内收敛到真正的后验,但收敛速度可能很慢。另一方面,基于优化的方法通常更快,但可能会受到过于简化的后验近似[14],[205]的影响。近年来,在这两个领域[7]、[15],特别是在弥合这些方法[1]、[90]、[113]、[154]、[169]之间的差距方面,都取得了相当大的进展。事实上,可扩展变分推理的最新进展部分依赖于融合基于优化和基于采样的方法。虽然这篇评论侧重于变分推理,但参考了对EP和MCMC感兴趣的读者,例如[7]和[174]。

变分推理的起源可以追溯到1980年代。例如,平均场方法起源于统计物理学,在自旋玻璃的统计力学中发挥了重要作用[120]、[147]。变分方法的早期应用还包括神经网络的研究[144]、[149]。后一项工作启发了1990年代的计算机科学界在概率图形模型[73]、[79]、[143]、[172]的背景下采用变分方法。

近年来,有几个因素重新激发了人们对变分方法的兴趣。变分推理的现代版本与早期的表述有很大不同。首先,大型数据集的可用性引发了人们对可扩展方法的兴趣,例如,基于随机梯度下降[18]、[67]。其次,经典变分推理仅限于条件共轭指数族模型,这是[67]、[205]中描述的一类受限模型。相比之下,黑盒变分推理算法[74]、[79]、[154]和概率程序促进了通用变分推理,使其适用于一系列复杂模型。第三,这种概括激发了对更准确变分近似的研究,例如替代散度测量[103]、[128]、[221]和结构化变分族[156]。最后,摊销推理使用复杂的函数(例如神经网络)来预测以数据点为条件的变分分布,从而使变分推理成为现代贝叶斯深度学习架构(例如变分自动编码器)的重要组成部分。在这项工作中,我们讨论了与这四个方面有关的重要论文。

虽然存在一些对变分推理的优秀评论,但我们相信我们对可扩展、通用、准确和摊销变分推理的最新发展的关注超出了这些努力。[79]和[143]都可以追溯到2000年代初期,并未涵盖近年来的发展。同样,[205]是一个很好的资源,特别是关于结构化近似和变分推理的信息几何方面。但是,它是在变分推理中广泛使用随机方法之前发布的。在最近的介绍中,[15]包含许多示例、经验比较和显式模型计算,但较少关注最近的发展,而[7]主要关注可扩展的MCMC。我们的回顾集中在本文发表之前过去10年的进展。作为对先前评论的补充,我们跳过示例计算,专注于对近期文献进行更详尽的调查。对于该领域的新手,我们建议阅读[14]中关于近似推理的第10章作为准备。

我们以独立的方式调查变分推理的趋势和发展。第2节涵盖基本概念,例如变分分布和证据下限。在接下来的部分中,我们专注于最近的进展并确定了四个主要研究方向:可扩展变分推理(第3节)、通用变分推理(第4节)、精确变分推理(第5节)和摊销变分推理(第6节)。我们通过讨论(第7节)和结束语(第8节)来完成审查。

2变分推理

我们从一个关于变分推理的简短教程开始这篇评论,介绍了这个过程的数学基础并解释了基本的平均场近似。

由于证据下界是非凸目标,变分推理受益于先进的优化算法,有助于摆脱糟糕的局部最优。变分回火[115]使确定性退火[136]、[164]适应变分推理,使冷却计划具有自适应性和数据依赖性。可以全局或局部定义温度,其中局部温度特定于各个数据点。模型下具有相关小可能性的数据点(例如异常值)被自动分配为高温。这减少了它们对全局变分参数的影响,使推理算法对局部最优更鲁棒。变分回火也可以解释为数据重新加权[212],权重是反温度。在这种情况下,较低的权重被分配给异常值。使变分推理更健壮的其他方法包括信任区域方法[189],它使用KL散度来调整学习进度并避免不良的局部最优,以及总体变分推理[92],它对自举数据样本的变分后验进行平均更强大的建模性能。

2.1推理优化

贝叶斯统计中感兴趣的中心对象是给定观察值的潜在变量的后验分布:

对于大多数模型,这个积分是高维的,因此计算归一化项是困难的。

变分推理的基本思想不是计算后验归一化,而是用更简单的分布逼近后验。这涉及变分分布,其特征在于一组变分参数。调整这些参数以获得最佳匹配。最后,将优化的变分分布作为后验的代理。通过这种方式,变分推理将贝叶斯推理转化为变分参数的优化问题。

2.2变分目标

经典变分推理旨在确定变分分布;使其尽可能接近后验,根据KL散度测量。将KL散度最小化为零将保证变分分布与精确的后验相匹配。然而,在实践中这是不可能的:变分分布通常参数化不足,因此不够灵活,无法捕捉真实后验的全部复杂性。

在经典变分推理中,证据下界首先是解析推导,然后进行优化。此过程通常仅限于ZHANG等人:条件共轭指数族[67]中变分推理的进展2013模型。对于许多模型,包括贝叶斯深度学习架构或复杂的分层模型,证据下界包含难以处理的期望,没有已知或简单的分析解决方案。即使有可用的解析解,证据下界的解析推导通常也需要时间和数学专业知识。相比之下,BBVI提出了一种通用推理算法,只需指定数据的生成过程。主要思想是将梯度表示为一个期望值,并使用蒙特卡罗技术来估计这个期望值

在传统变分推理中,计算证据下界相当于解析求解对q的期望。这将易处理模型的类别限制为所谓的条件共轭指数族(参见附录A.2和[205])。有关为高斯混合分析推导证据下界的示例计算,我们参考[15]。第4节介绍了计算这些期望的现代替代方法。

2.3平均场变分推断

选择q(z;lambda;)有一个权衡;足够表达以近似后,并且足够简单以导致易于处理的近似[14]。一个常见的选择是完全分解的分布,也称为平均场分布。平均场近似假设所有潜在变量都是独立的,这简化了推导。然而,这种独立性假设也会导致结果不太准确,尤其是当真正的后验变量高度相关时。第5节讨论了一类更具表现力的变分分布。

平均场变分推断(MFVI)起源于物理学的平均场理论[143]。在这个近似值中,变分分布因式分解,每个因子都由其自己的变分参数控制:

为了符号简单,我们省略了本节其余部分的变分参数。我们现在回顾如何最大化在方程式中定义的证据下界L。(3),在平均场假设下。

注意对数联合分布的梯度进入期望值。这与REINFORCE梯度形成对比,其中采用变分分布的梯度(方程(14))。采用对数联合梯度的优点是该术语更了解最大后验模式的方向。重新参数化梯度的较低方差可能归因于此属性。

虽然这个估计器的方差(等式(16))通常低于评分函数梯度的方差(等式(14)),但理论分析表明这并不能保证,请参见[48]中的第3章。[162]表明重新参数化梯度可以分为路径导数和得分函数。在最优值附近省略得分函数会导致方差较小的无偏梯度估计。重新参数化梯度也是变分自动编码器[85]、[160]的关键,我们将在6.2节中详细讨论。

重新参数化技巧并不容易扩展到许多分布,尤其是离散分布。即使存在重新参数化函数,它也可能不可微。为了将重新参数化技巧应用于离散分布,变分分布需要进一步近似。几个小组已经解决了这个问题。在[75]、[111]中,分类分布是在Gumbel-Max技巧的帮助下通过用softmax算子替换argmax操作来近似的。温度参数控制softmax可以近似分类分布的程度。它越接近分类分布,梯度的方差就越高。作者提出了提高收敛性的退火策略。类似地,[134]中使用了一个断棒过程来近似Beta分布与Kumaraswamy分布。

由于这些方法中有许多依赖于个体分布的近似值,因此人们对无需专门近似值即可适用的更通用方法越来越感兴趣。广义的重新参数化梯度[166]通过找到噪声和感兴趣的潜在变量之间的可逆变换来实现这一点。作者推导出了证据下界的梯度,它将预期似然分解为标准的重新参数化梯度和一个校正项。仅当变换弱依赖于变分参数时才需要校正项。[132]推导出了一个类似的划分,它提出了一种用于重新参数化梯度的接受-拒绝采样算法,该算法允许从富有表现力的后验中进行采样。虽然重新参数化梯度通常表现出比得分函数更低的方差,但使用蒙特卡罗估计仍然会受到注入噪声的影响。可以通过控制变量[123]、[162]或准蒙特卡洛方法[23]进一步降低方差。

尽管目前正在努力使从业者更容易使用变分推理,但对于非专家来说,它的使用仍然不简单。例如,手动识别后验对称性并打破这些对称性对于使用Infer.Net是必要的。此外,控制变量等方差减少方法可以极大地加速收敛,但需要控制变量的特定模型设计才能获得最佳性能。在撰写本文时,这些问题尚未在当前的概率编程工具箱中得到解决。我们相信这些和其他方向对于推进概率建模在科学和技术中的影响非常重要。

通过使用该方程式,变分分布可以迭代更新每个潜在变量,直到收敛。类似的更新也构成了变分消息传递算法的基础[216](详见附录A.3)。深度潜在高斯模型是高度灵活的密度估计器。存在许多特定于其他类型数据的修改版本。例如,对于二进制数据,高斯似然可以用伯努利似然代替。接下来,我们回顾一下如何将摊销推理应用于这个模型类。变分自动编码器。最常见的是,VAE是指使用推理网络训练的深度潜在高斯模型。

有关平均场近似及其几何解释的更多详细信息,请参阅[14]和[205]。

2.4超越普通变分推理

经典的平均场变分推理在历史上一直发挥着重要作用,但是,在现代应用中,它在多个方面受到限制。挑战之一是将变分推理扩展到大数据集。这将在第3节中讨论,我们将在其中展示变分推理可以与随机优化和分布式计算相结合来实现这一目标。大数据集和快速算法允许更复杂的模型。为了使变分推理易于处理这类现代模型(特别是所谓的非共轭模型),第4节描述了使变分推理更易于使用和更通用的方法。此外,某些模型和应用程序需要更准确的推理技术,例如改进的变分近似和更严格的界限。一个流行的研究流与KL散度之外的替代散度测量有关,并将在第5节中进行回顾,在那里我们还将回顾非均值场变分近似。最后,我们在第6节中描述了如何使用神经网络来摊销某些局部潜在变量的估计。这导致许多模型的显着加速,并弥合了贝叶斯推理和现代表示学习之间的差距。

3可扩展的变分推理

在本节中,我们调查可扩展变分推理。大数据集对贝叶斯算法的计算可行性提出了新的挑战,使得可扩展的推理技术变得必不可少。我们首先回顾第3.1节中的随机变分推理(随机变分推理),它使用随机梯度下降(SGD)将变分推理扩展到大型数据集。3.2节讨论了随机变分推理的实际方面,例如自适应学习率和方差减少。第3.3节讨论了进一步提高变分推理可扩展性的方法;这些包括稀疏推理、折叠推理和分布式推理。

3.1随机变分推理

我们展示了变分推理将贝叶斯推理视为优化问题。对于许多感兴趣的模型,变分目标具有特殊的结构,即它是来自所有单独数据点的贡献的总和。这种类型的问题可以使用随机优化[18]、[161]有效地解决。随机变分推理相当于将随机优化应用于变分推理[65]、[67]、[71]、[209]中遇到的目标函数,从而将变分推理扩展到非常大的数据集。在[67]、[71]、[171]中提出了在变分推理的上下文中使用随机优化。我们遵循[67]的约定,该约定为条件共轭指数族类的模型提供了S变分推理。

KL散度之外的新散度度量不仅在变分推理中起作用,而且在相关的近似推理方法中也起作用,例如EP。EP[101]、[125]、[204]、[228]的一些最新扩展可以被视为具有替代发散度量的经典EP[128]。虽然这些方法很复杂,但由于复杂的推导和有限的可扩展性,从业者会发现它们难以使用。变分推理的最新发展主

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[591391],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。