随机森林在股票市场价格预测中的应用外文翻译资料

 2022-04-05 09:04

英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料


随机森林在股票市场价格预测中的应用

摘要

预测股票市场价格的趋势一直是研究人员感兴趣的领域,多年来由于其复杂和动态的性质。股票市场的内在波动全球使得预测的任务具有挑战性。预测和扩散建模,尽管有效不能成为短期内遇到的多种问题的万能药或者其他。与预测错误密切相关的市场风险需要最小化确保投资风险最小化。作者建议通过处理来最小化预测误差预测问题作为分类问题,这是机器中流行的一套算法学习。在本文中,我们提出了一种新颖的方法来最大限度地减少股票投资的风险市场通过使用一类强大的机器学习算法预测股票的回报被称为集成学习。一些技术指标如相对强弱指数(RSI),随机振荡器等作为输入来训练我们的模型。使用的学习模型是多个决策树的集合。该算法显示优于现有算法在文献中发现。 Out Bag(OOB)误差估计被认为令人鼓舞的。

关键词:随机森林分类器,股票价格预测,指数平滑,特征提取,OOB错误和收敛。

1. 绪论

由于存在诸多不确定因素,预测股票市场价格趋势是一项非常具有挑战性的任务涉及许多影响特定日子市场价值的变量,如经济条件,投资者对特定公司的看法,政治事件等等这一点,股市容易发生快速变化,导致股价随机波动。股票市场系列一般是动态的,非参数的,混沌的和嘈杂的性质,因此,股票市场价格变动被认为是随机过程,波动更大发短信时间窗口。但是,一些股票往往倾向于发展线性趋势长期的时间窗口。由于股票行为的混乱和高度不稳定性,投资在股市有高风险。为了尽量减少涉及的风险,先进的知识的股票价格运动在未来是必需的。交易者更有可能购买一只股票预计未来价值会增加。另一方面,交易员可能会避免购买价值预计在未来下跌的股票。所以,需要准确的预测股票市场价格的趋势,以最大限度地获得资本收益并将损失降至最低。在用于预测股票价格行为的主要方法中,尤其如下

值得注意的是:

  1. 技术分析,
  2. 时间序列预测
  3. 机器学习和数据采矿(Hellstrom and Holmstromm(1998))
  4. 建模和预测股票的波动性使用微分方程(Saha,Routh和Goswami(2014))。

本文主要着重于因为与股票市场预测问题相关的数据集太大而不可能使用非数据挖掘方法进行处理。 (Widom(1995))机器学习模型在股市行为中的应用是相当新近的现象。该方法与传统的预测和扩散类型方法不同。早期的模型用于股票预测涉及统计方法,如时间序列模型和多变量分析(Gencay(1999),Timmermann和Granger(2004),Bao和Yang(2008))。股票价格运动被视为时间序列的函数,并被解决为回归问题。然而,由于其混乱的性质和高度,预测股票价格的确切值是非常困难的挥发性。当股票预测被视为分类问题而不是股票预测时,股票预测表现更好回归问题。目标是设计一个从市场数据中学习的智能模型使用机器学习技术并预测股票价格走势的未来趋势。该我们模型的预测输出可用于支持投资人的决策

股市。研究人员已经使用了各种算法,如SVM,神经网络,朴素贝叶斯分类器等。我们将在下一节讨论其他作者所做的工作。

2.相关工作

使用预测算法来确定股票市场价格的未来趋势与基本面相矛盾在金融中被称为有效市场假说(Fama and Malkiel(1970))。它指出目前的股价全面反映了所有相关信息。这意味着如果有人获得了通过分析历史股票数据的优势,整个市场将会意识到这一点因此,股份的价格将得到纠正。这是一个非常有争议的问题并经常提出有争议的理论。虽然它被普遍接受,但也有许多研究人员通过使用能够模拟更复杂的金融动态的算法来拒绝这一理论系统(Malkiel(2003))。几种算法已经用于股票预测,如SVM,神经网络,线性判别分析,线性回归,KNN和朴素贝叶斯分类器。文献调查显示SVM在股票预测研究中大部分时间被使用。李,李和杨(2014)已经考虑过股票价格对外部条件的敏感性。外部条件考虑到包括黄金,原油,自然等商品价格的每日报价天然气,玉米和棉花两种外币(欧元,日元)。除此之外,他们每天都收集美国纽约证券交易所(NYSE)或纳斯达克证券交易所(NYSE)或纳斯达克证券交易所(NASDAQ)从2000-01-01交易2666美国股票的交易数据到2014-11-10。此数据集包括每日开盘价格,收盘价格,最高价格,最低价格和每只股票的交易量。功能是使用历史信息得出的股票数据以及本节前面提到的外部变量。它被找到了逻辑回归结果是最好的模型,成功率为55.65%。在戴和张(2013),他们研究中使用的培训数据是3M股票数据。数据包含每日数据股票信息从1/9/2008到11/8/2013(1471数据点)。多种算法被选中来训练预测系统。这些算法是Logistic回归,二次方判别分析和SVM。这些算法被应用于预测的第二天模型第二天股票价格和长期模型的结果,预测结果的未来n天的股价。第二天的预测模型产生了准确的结果从44.52%到58.2%不等。戴和张(2013)通过陈述证明他们的结果是合理的美国股市是半强有力的,这意味着既不是基本的也不是技术分析可以用来实现卓越的收益。但是,长期预测模型产生的更好结果在时间窗口为44时达到峰值。支持向量机报告的最高准确率为79.3%。在新街(2014),作者使用了3只有时间跨度的股票(AAPL,MSFT,AMZN)

可从2010年1月4日至2014年12月10日。各种技术指标,如RSI,余额卷,威廉姆斯%R等作为功能。在84个功能中,一个非常随机的树算法按照Geurts和Louppe(2011)所述的方法进行实现,以供选择最相关的功能。然后将这些特征提供给rbf核化SVM进行训练。德维,Bhaskaran和Kumar(2015)提出了一个使用混合布谷鸟搜索和支持的模型

矢量机(用高斯内核)。杜鹃搜索方法是一种优化技术优化支持向量机的参数。所提出的模型使用了技术指标。如RSI,资金流向指数,EMA,随机震荡指标和MACD。数据中使用的数据提议的系统由BSE-Sensex和雅虎财经的CNX - Nifty每日收盘价组成从2013年1月到2014年7月.Giacomel,Galante和Pareira(2015)提出了一个贸易代理商基于神经网络集合,预测一只股票是否会上涨或下跌。他们评估他们的模型在两个数据库中:北美和巴西股市。 Boonpeng和Jeatrakul(2016)实施了一对一,一对一的神经网络对Buy进行分类或销售数据并比较其性能与传统的神经网络。 选取泰国股票交易所(SET)7年(日期为2007年1月3日至2014年8月29日)的历史数据,发现OAA-NN的表现优于OAO-NN和传统的NN模型, 为72.50%。文献调查帮助我们得出结论:集合学习算法在股票市场预测问题上一直未被发现。 我们将使用称为Random Forest的集合学习方法来构建我们的预测模型。 随机森林是一个众多的决定2016年5月3日应用数学金融主力其输出是来自单个树木输出模式的树。在本文的其余部分安排如下。第3节讨论数据和操作实施的数据包括清洁,预处理,特征提取,测试线性可分性和通过随机森林集成学习数据。第4节追踪算法,通过使用图形描述语言并计算OOB错误。第5节包含一个简要概述对OOB误差和收敛估计。下一部分记录所获得的结果,然后进行比较研究,确定所提算法的优越性。

3.方法和分析

数据采集

指数平滑

特征提取

合奏学习

股市预测

图1:建议的方法

本文使用的学习算法是随机森林。时间序列数据被获取,平滑并提取技术指标。技术指标是提供的参数对未来股价预期行为的见解。然后使用这些技术指标训练随机森林。每一步的细节将在本节中讨论。

3.1数据预处理

时间序列历史股票数据首先按指数平滑。指数平滑适用近期观察的权重更大,过去观察的权重呈指数下降。Y系列的指数平滑统计量可以递归计算为:

S0 = Y0(1)

对于tgt; 0,St =alpha;* Yt (1-alpha;)* St-1(2)

其中alpha;是平滑因子并且0 lt;alpha;lt;1。alpha;的较大值降低了平滑的水平。

当alpha;= 1时,平滑后的统计量等于实际观察值。平滑统计只要有两个观测值可用,就可以计算St值。这种平滑消除了随机性来自历史数据的变化或噪音,使模型能够轻松识别长期价格股价行为的趋势。然后从指数上计算技术指标平滑的时间序列数据,稍后组织成特征矩阵。要预测的目标在我第一天的计算如下:

targeti = Sign(closei d - closei)(3)

其中d是进行预测的天数。当目标的价值是 1,

表示在d天后价格出现正向变化,

-1表示存在在d天后出现负转变。

目标值被分配为i的标签功能中的第一行矩阵。

3.2特征提取

技术指标是根据时间序列库存数据计算的重要参数旨在预测金融市场方向。它们是投资者广泛使用的工具检查看跌或看涨信号。我们使用的技术指标如下所示相对强度指数

计算RSI的公式是:

RSI = 100 -

100

1 RS(4)

RS =

平均收益过去14天

平均亏损14天过去了(5)

RSI是一个流行的动量指标,它决定了股票是否超买或超卖。据说当需求不合理地推动时,股票被超买价格向上。这种情况通常被解释为股票的迹象估值过高,价格可能下跌。据称股价在价格超卖时大幅下降至低于真实值的水平。这是恐慌造成的结果抛售。 RSI范围从0到100,一般来说,当RSI高于70时,它可能表示该股票被超买,当RSI低于30时,可能表明该股票处于超卖状态。

随机振荡器

计算随机振荡器的公式是:

%K = 100 *

(C-L14)

(H14-L14)(6)

哪里,

C =当前收盘价格

L14 =在过去14天内最低

H14 =过去14天的最高点

随机振荡器遵循价格的速度或动量。一般来说,

价格变动之前的动力变化。它衡量收盘价的水平

相对于一段时间内的低高范围。

威廉姆斯%R

威廉姆斯%R计算如下:

%R =

(H14-C)

(H14-L14)* -100,

当C =当前收盘价格

L14 =在过去14天内最低

H14 =过去14天的最高点

威廉姆斯%R的范围从-100到0.当其值大于-20时,表示卖出信号

当它的值低于-80时,表示买入信号。

移动平均收敛发散

计算MACD的公式是:

MACD = EMA12(C) - EMA26(C)(8)

SignalLine = EMA9(MACD)(9)

当MACD =移动平均收敛差异

C =收盘价系列

EMAn = n天指数移动平均线

EMA代表指数移动平均线。当MACD低于SingalLine时,

它表示一个卖出信号。当它超出SignalLine时,它表示买入信号。

价格变化率

它计算如下:

P(t)= C(t)-C(t-n)

C(t - n)(10)

当PROC(t)=时间t的价格变化率

C(t)=时间t的收盘价

它衡量n日前价格相对于价格的最近变化。

平衡量

此技术指标用于查找股票的买入和卖出趋势。该

计算余额的公式为:

OBV(t)=

如果C(t)gt; C(t-1),则OBV(t-1) V ol(t)

如果C(t)lt;C(t-1),则OBV(t-1)-V ol(t)

如果C(t)= C(t-1),则OBV(t-1)(11)

当OBV(t)=时间t时的平衡量

Vol(t)= t时刻的交易量

C(t)=时间t的收盘价

3.3线性分离性测试

图2:线性可分性测试

在将训练数据馈送到随机森林分类器之前,对这两类数据进行测试通过寻找它们的凸包来进行线性分离。线性可分性是两组的属性如果存在这样的超平面,那么两个集合被认为是线性可分的数据点一组中的所有点都位于超平面的一侧,而其他组中的所有点都位于该平面上超平面的另一面。数学上,n维欧几里得空间中的两组点X0和X1被认为是如果存在超平面的n维法向量W和标量,则线性可分k,使得每个点xisin;X0给出WT xgt; k,并且每个点xisin;X1给出WT x lt;k。两套可以通过构造它们的凸包检查线性可分性。一组点X的凸包是其子集,它形成了最小的凸多边形包含X中的所有点。如果连接任意两点的线,则称多边形为凸

多边形也位于多边形上。为了检查线性可分性,凸包的外形这两个类是构建的。如果凸包彼此相交,则说这些类线性不可分割。执行主成分分析以降低维度的提取的特征分成两个维度。这样做可以使凸包容易在二维中可视化。凸包测试显示类不是线性可分的因为凸包几乎重叠。这一观察得出的结论是线性判别分析不能用于分类我们的数据,因此,为什么随机提供更强的理由使用森林分类器。另一个重要的原因是,因为每个决策树都在森林里在特征空间的随机子空间上运行,导致最多的自动选择相关的功能子集。在讨论RF算法之前,我们将看一些关键下一节中的定义。

3.4关键定义

假设有n个数据点D = {(xi,yi)}

ntilde;

i = 1和特征向量{xi}

ntilde; 全文共17299字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14479],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。