英语原文共 20 页，剩余内容已隐藏，支付完成后下载完整资料

金融深度学习

JB希顿（JB Heaton）^* NG波森（^dagger; NG Polson）^dagger; JH维特（JH Witte）^Dagger;

摘要

我们探讨了深度学习层次模型在金融预测和分类中的应用。金融预测问题——例如在证券设计和定价、构建投资组合和风险管理中出现的问题——通常涉及具有复杂数据交互的大数据集，目前在一个完整的经济模型中很难或不可能指定这些数据集。将深度学习方法应用于这些问题比金融中的标准方法能产生更有用的结果。特别是，深度学习可以检测和利用数据中的交互作用，至少目前，任何现有的金融经济理论都未出现这些现象。

关键词：机器学习，深度学习，LSTM模型，财务，资产定价，波动性。

1、引言

金融预测问题具有很强的理论和实践价值。它们也常常让人们苦恼。理论表明，许多与金融预测问题相关的信息可能会传播到可用的经济和其他数据中，这一观点也得到了来自不同的市场参与者在寻找未来价格走势的线索时使用的许多不同的数据来源。处理这种类型的数据源是困难的。收集可能相关的数据非常大，同时数据的重要性和潜在的复杂非线性的相互作用，这些数据在金融经济理论中并没有得到很好的说明。在实践中，过量的数据导致了模型预测方面的不精确，许多模型缺乏理论依据，容易过度拟合，而且效果不佳预测样本外的性能。我们需要的是一种方法，能够了解数据输入的那些复杂特征，从而对目标输出变量(如资产或投资组合收益)进行良好的预测。本文将深度学习的层次决策模型引入到财务预测分类问题中。与传统的预测器相比，深度学习预测器有很多优势，其中包括

bull;输入数据可以扩展到包括所有可能与预测问题相关的项目，

bull;考虑了输入数据之间的非线性和复杂的交互作用，这可能会有所帮助与传统模型相比，增加样本内拟合度，

bull;更容易避免过拟合。本篇论文结构如下。第二节介绍了深度学习框架。第三节介绍了深度学习框架的三个金融应用。第四节给出了一个例子。第五节总结道。贯穿我们论文的一个指导原则是其输入的预测模型的构建高维。见Breiman(2001)关于对比预测算法的讨论用传统统计方法建模。

深度学习

我们首先介绍一般的理论深度学习框架以及一些规范。

结构

深度学习是机器学习的一种形式。机器学习使用数据来训练模型，然后使用训练后的模型根据新数据进行预测。基本的机器学习问题是在给定输入X的情况下找到输出Y的预测变量。学习机定义为输入输出映射Y = F（X），其中输入空间是高维的，我们写

Y = F（X）其中X =（X ₁，...，X _p），

预测变量用Y（X）：= F（X）表示。输出T可以是连续的，也可以是离散的，也可以是混合的。例如，在分类问题，我们需要学习的映射˚F：X → Y ^，其中yuml; isin;{1 ，...，K }指标类别。

作为机器学习的一种形式，深度学习在数据上训练模型以进行预测，但通过将学习到的数据特征传递给不同的抽象层来加以区别。原始数据在最低级别输入，而期望的输出在最高级别生成，这是从许多级别的转换数据中学习的结果。深度学习是分层的，从某种意义上说，该算法在每一层中都将特征提取到因素中，而更深层次的因素则成为下一层次的特征。

具体地，可以如下描述深度学习架构。令f ₁，...，f _L为L个层中的每一个都具有单变量激活函数。激活函数是加权数据的非线性转换。然后通过以下方式定义半仿射激活规则：

这就隐式地需要指定隐藏单元的数量N _l。在给定层数L的情况下，我们的深度预测变量变为合成图

。

简而言之，我们通过单变量半仿射函数的叠加来建模高维映射F。（类似于经典的基础分解，深度方法使用单变量激活函数分解高维X。）

我们让Z ^（l）表示第l层，因此X = Z ^（0）。最终输出是响应Y，它可以是数字或分类的。然后，深度预测规则的显式结构为

，

在此，W ^（l）是权重矩阵，b ^（l）是阈值或激活级别。设计一个好的预测器至关重要地取决于单变量激活函数f ^（l）。所述Z^（l）是隐藏的功能（或因子）的算法提取物。一个特别的特征是，权重矩阵是矩阵估值。这给预测器提供了很大的灵活性，可以发现数据的非线性特征，尤其是在财务数据中，因为估计的隐藏特征Z ^（l）可以表示支出的投资组合。然而，尺寸N _l的选择是关键，因为如果在层1处放置了隐藏单位（W _l列），，则它消除了分层层次结构中位于其上方的所有术语。

换句话说，深度方法采用了分层预测器，该预测器由应用于X的一系列L非线性变换组成。L个变换中的每个变换都称为一个层，其中原始输入为X，第一个变换的输出为第一层，依此类推，而输出为第（L 1）层。我们使用Lisin;{1 ，...，L }以指数从1层到L层，这是所谓的隐藏层。层数L代表我们架构的深度。

常用的激活函数有S形（例如1 /（1 exp（-x）），cosh（x）或tanh（x）），重侧门函数（例如I （xgt; 0））或线性整流最大（ReLU）单位{ x， 0}。已发现ReLU特别适合快速缩小尺寸。深度学习预测器是一种数据缩减方案，可通过使用单变量激活函数来避免维数的诅咒。参见Kolmorogov（1957），Lorenz（1976），Gallant and White（1988），Hornik等人。（1989），以及Poggio和Girosi（1990）进行进一步讨论。

训练深度架构

构造一个深度学习者需要许多步骤。通常将数据集分为三个子集，即训练，验证和测试。训练集用于调整网络的权重。验证集用于最大程度地减少过度拟合，并与体系结构设计（即模型选择）相关。最后，测试用于确认学习者的实际预测能力。

一旦激活功能，尺寸和学习程序的深度已被选定，我们需要找到解决的训练问题，其中

表示我们在训练期间计算的学习参数。为此，我们需要一个输入输出对的训练数据集和一个损失函数L（Y，Y circ;）输出信号。以最简单的形式，我们解决如下问题

通常将传统最小二乘问题的L _2-范数选择为误差度量，然后如果使损失函数最小化

，

我们的目标函数（1）变为在训练数据集的均方误差（MSE）d =。为了避免过度拟合并稳定我们的预测规则，通常添加一个以phi;（W，b）表示的正则化罚则。我们通过参数lambda;gt; 0将其与损失函数结合起来，该参数可衡量正则化的总体水平。然后我们需要解决

正则化量lambda;的选择是关键参数。这衡量了任何统计模型中存在的权衡，即过少的正则化将导致过度拟合和较差的样本外性能。

在许多情况下，我们将采取可分离的惩罚，phi;（W，b）= phi;（W） phi;（b）。最有用的惩罚是ridge或L ^2-范数，可以将其视为默认选择，即

其他规范包括套索，它对应于L ¹规范，可用于引起权重和/或偏移的稀疏性。当要学习正则化量lambda;时，岭范数特别有用。这是由于存在这样的事实，即岭型预测变量有许多良好的预测泛化结果。当权重的稀疏性至高无上时，通常使用套索L ^1-范数惩罚。

概率解释

在传统的概率设置，我们可以查看输出yuml;如由概率模型产生的随机变量p（Y | Y ^W，B（X）），其中所述调节是在所述预测yuml;（X）。相应的损失函数为

即负对数似然率。例如，当预测违约概率时，我们有一个多项式逻辑回归模型，该模型会导致交叉熵损失函数。特别是对于多元正态模型（包括许多财务时间序列），L ₂范数成为合适的误差度量。

概率上，正则化项lambda;phi;（W，b）可以看作是参数上的负对数先验分布，即

其中C是合适的归一化常数。然后，该框架提供了与贝叶斯学习的对应关系。我们的深层预测器只是一个正规化的最大后验（MAP）估计器。我们可以使用贝叶斯规则将其显示为

，

深度学习预测器满足和是给定训练数据的参数的对数后验分布。

交叉验证

交叉验证是一种技术，通过该技术我们可以将训练数据分成互补的子集，然后对不同的集合进行分析和验证，旨在减少过度拟合并提高样本外性能。

特别是，在按时间序列进行训练时，我们可能会将训练数据划分为相同长度的不相交的时间段，这在金融应用中尤为理想，因为金融应用中很难获得可靠的时间一致性预测变量，因此必须进行广泛的训练和测试。

交叉验证还提供了一种工具，用于确定哪些正规化级别可导致良好的通用性（即预测），这是经典的方差-偏置折衷方案。交叉验证（相对于传统统计指标，例如t -ratios和p -values ）的主要优势在于，它还允许我们评估隐藏层的大小和深度，即解决选择L和ntilde;_升1le;升le; 大号。实用且无缝地解决模型选择和估计问题的能力是当前广泛使用机器学习方法的原因之一。

反向传播

解决（2）的常见数值方法是一种随机梯度下降形式，它适合于深度学习设置，通常称为反向传播。在这种情况下，反向传播的一个警告是要解决的系统的多模式性（以及随之而来的缓慢收敛特性），这是深度学习方法严重依赖大量计算能力的主要原因。使用深度网络的优点之一是一阶导数信息是直接可用的。有张量库可直接计算在整个训练数据集上使用链式规则。对于超大型数据集，我们使用小批量和随机梯度下降（SGD）来执行此优化，请参见LeCun等。（2012）。一个活跃的研究领域是在Langevin MCMC算法中使用此信息，该算法允许从体系结构的全部后验分布中进行采样。深度学习模型的设计本身就是高度多模式的，并且参数是高维的，并且在许多情况下是传统意义上无法识别的。遍历目标函数是一个需要解决的问题，可以通过近端算法（如乘法器的交替方法（ADMM））缓解传统体面方法的多模态和缓慢收敛问题，如Polson等人所述。（2015 a，b）。

预测性能

使用架构的预测性能可以解决两个关键的培训问题。

为损失函数增加多少正则化。如前所述，一种方法是使用交叉验证并教导算法将自身校准为训练数据。独立保存一个独立的保持数据集，以在第二步中对训练成功进行样本外测量。当我们改变正则化的数量时，我们获得正则化路径并选择正则化的水平以优化样本外预测损失。另一种方法是使用Stein的风险无偏估计器（SURE）。
更具挑战性的问题是训练体系结构每一层的大小和深度，即确定L和N =（N ₁，...，N _L）。这称为模型选择问题。在下一个小节中，我们将介绍一种称为辍学的技术，该技术可以解决此问题。

Stein的风险无偏估计器（SURE）进行如下。对于稳定的预测变量Y ，我们可以通过df定义预测变量的自由度。然后，在给定我们算法的可扩展性的情况下，可以使用链规则将导数part;Y/part;Ycirc;用于L层的组成。

现在，让在样本MSE由下式给出犯错，并为未来的观测yuml; 样本外预测MSE为

期望中，我们有后一项可以用df表示

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[262277]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

金融深度学习外文翻译资料

摘要

1、引言

深度学习

结构

训练深度架构

概率解释

交叉验证

反向传播

预测性能

您可能感兴趣的文章

登录

注册

找回密码

摘要

1、引言

深度学习

结构

训练深度架构

概率解释

交叉验证

反向传播

预测性能

您可能感兴趣的文章