利用博彩赔率预测足球 比赛的最终结果外文翻译资料

 2022-12-29 11:29:42

利用博彩赔率预测足球

比赛的最终结果

原文作者 Karol Odachowski and Jacek Grekow[1]

单位 Faculty of Computer Science, Bialystok University of Technology,

Wiejska 45A, Bialystok 15-351, Poland

摘要:在互联网上有很多的庄家, 他们几乎在每一个运动领域设置投注赌局,从足球到象棋。绝大多数的在线博彩公司运作的基础都是基于基本原则运行的,为各项体育赛事的结果设置合适的赔率系统。由于赌徒下注的变化,这些赔率也常常不断变化。本文的目的是在基于庄家给出赔率的变化的情况下,来预测即将进行的足球比赛的结果的可能性。提出了如果多种不同的可预测比赛最终结果的分类器,那么就能证实我们的研究结论:以庄家给出的足球比赛赔率的形式来体现的一群人关于足球比赛的看法,可以成功用于赛事最终结果的预测。

关键词:庄家赔率;特征提取;分类;预测;体育博彩。

  1. 介绍

本文的目的是探讨如何在给出庄家赔率变化的条件下,预测即将进行的体育赛事的结果的可能性。我们选择足球作为庄家赔率变化实验的观察运动。假设一个赌徒用自己的钱冒险,他就需要在充分准备后下注。所以对赛事背景的掌握就十分重要。比如:比赛的队伍,队员的状态,双方球队的战绩,等等。我们的决策结果应当基于这样的信息类型。为了取得有效的预测,我们应当试图建立一个决策系统,可以根据观测到的赔率波动的预测最终结果。

  1. 回顾之前的工作

之前已有许多我们已经处理过类似于体育赛事成绩预测的分析与预测问题的论文。它们基于各种类型的数据,如专家知识、先前比赛结果、球队排名或博彩赔率。一面的一系列研究是与本文相关的,即利用数据挖掘技术预测运动比赛结果的问题。全国篮球协会(NBA)赛季数据分析用于开发预测运动员获胜的专家系统。等等。由于篇幅问题,详细看原文。

  1. 经典的1-X-2型足球投注

本次研究,我们主要讨论的是经典的1-x-2型足球投注模式。一场比赛的结果有三种可能:主队获胜、客队获胜或平局。对应三种可能,我们用1-x-2的方式来标记下注对象。其中“1”表示下注主队,“X”表示平局,“2” 表示下注客队。当然,主队是主场比赛,客队是客场团队。如果选择的结果正确,投注被视为获胜。

以足球比赛,托特纳姆热刺VS切尔西为例:

--我们下注托特纳姆热刺(1型),如果热刺赢了,我们就视作预测成功。如果切尔西赢了,或者平局,我们视作预测失败。

--对于一个平局的赌注(X型),如果比赛以平局结束,我们将视为预测成功来解决。

--对切尔西下注(2型)类似。

  1. 输入数据

有关赔率变化的数据可以pinnaclesports的网站上获得,该网站向使公众提供各项体育赛事的任何信息,并保存在XML文档中清晰呈现。XML文件会放在http://www.xml.pinnaclesports.com/pinnacleFeed.asp。这是一个静态文件,每10分钟更新一次。我们会在足球比赛开始前的10个小时内,从XML文件导入数据。这样就可以跟踪足球比赛的赔率变化,并保存。由于输入数据必须配合比赛的最终结果,而由于Pinnacle Sports不提供这样的数据,我们从另一个betfair.com来获得。最终,我们共收集了六个月的输入数据,总共2615场比赛。

4.1特征提取

每一场比赛,都是决策系统中的一个包含输入数据的独立的实例。它是由一组特征描述。而这些特征既反应了庄家赔率的变化,也可能会影响比赛的最终结果。

我们接下来分析某次比赛的庄家赔率整体水平的变化,这将决定进一步研究的方向,我们可以在图中显示赔率随时间的变化情况。取样周期为比赛前的10小时内,因为在这个时期赔率的最大波动发生了。连续时间的间隔为10分钟。

图.1.某样本 1-X-2 型的赔率样本图

图.2. Racing Genk vs. Loceren (2:1)的赔率变化图

我们观察到,离比赛开始越近,赔率的变化就越多。图1的样本是托特纳姆热刺VS切尔西,比赛于2010年12月12日举行,以1-1平局结束。图中描述了主队、客队和平局赔率(Y轴)随时间(X轴)的变化。图2给出的另一个例子是Racing Genk vs. Loceren(2:1)的赔率数据变化,比赛是在2011年4月3日举行的。

我们决定把10小时的抽样周期划分为较小的几个合理的采样周期,因为赔率变化的分布是不规则,而在整个抽样周期中,不同的时间段的变化对最后的预测结果的影响也是不同的。对于每个抽样周期,我们生成相同的时间分割的特征集,获得相同的几组采样周期,这使我们能够提取到比赛的一般情况。图3显示了我们对抽样周期的分割。

图.3.某样本的抽样周期的分割

对于本次实验的赔率数据,我们有三个数据集:

1.主队获胜的赔率;

2.主队获胜的赔率;

3.平局的赔率。

忽略数据集的不同,对每个数据集的每个10小时抽样周期,我们划分为个阶段:

--比赛开始前10小时的整个抽样周期;

--抽样周期的前3小时20分钟为第一个采样周期;

--从第3小时的第21分钟开始并持续3小时20分钟的第二个采样周期;

--比赛的开始的3小时20为第三个采样周期。

对于一个数据集的一个采样周期,我们生成了一组24标准特征,包括:最小值;以百分比给出的最小值;最大值;以百分比给出的最大值;算术平均数;以百分比给出的算术平均数;与赔率的值不同的值的个数;标准差;初始值;以百分比给出的给定的初始值;最终值;作为一个百分比给出的最终值;初始值和最终值的差;以百分比给出的给定的初始值和最终值的差;水平线与初始值和最大值连线之间的夹角;水平线与初始值和最大值连线之间的夹角;导数的最小值;导数的最大值;导数的算术平均值;导数的标准差;导数的初始值;导数的终值;导数的初始值和最终值之间的差; 与导数的值不同的值的个数。

此外,一个采样周期包含8个一般特征,同时适用于所有3个数据集:最低货币限额; 最高货币限额;货币极限的算术平均值;基于算术平均值的赔率决定有利球队的名义特征;

在抽样开始时确定有利团队的名义特征;在抽样结束时确定有利组的名义特征;在抽样周期的开始和结束间赔率下落最大的球队的名义特征;连续采样周期间赔率下落最大的球队的名义变量。

对于一个采样周期,我们要确定的特征数等于80。这是一般特征(8)和数字特征的组合。其中,包含了标准特征集(24)中的特性和数据集的不同(3)。在加上四个采样周期的不同,一场比赛,总共得到320个特征。

4.2.ARFF格式数据

在决策过程中,我们使用的是之前收集的输入数据,它的所有的特征按照特定的匹配值确定后记录在ARFF文件格式。特别的是最后的属性(特性),它在这个文件中是决策类的结果,它代表了比赛的最终结果,我们用Win-home,Win-away,Win-draw来分别对应。对于以这种格式准备的输入数据,我们的分类器可以很好的满足我们的需要。 为了分析数据和得到分类器,我们使用了数据挖掘任务软件WEKA ,并用10折交叉验证(CV-10)来评估分类器的效果。

  1. 实验结果

最终我们将讨论三种情况下的分类,以便彻底测试足球比赛数据。即标准化的数据集分类,二进制下的三种分类和去掉平局的分类(篇幅问题,请留意原文5.3节)。

5.1.标准化数据集的分类

为了保证本次从PinnacleSports和Betfair网站收集的数据可供我们的挖掘研究使用,它们必须被以形式进行预处理,转化和清理收集到的信息。总体目标是为了尽量减少所谓的GIGO(garbage in - garbage out),减少“垃圾”进入模型,以便模型可以减少不正确的结果[8],提高准确性。为此,我们的研究仅包括那些在整个10小时抽样周期内有赔率,并没有被推迟的比赛场次。同时,为了减少样本类分布不均匀的现象,我们保证每个类的场次数量[9]相等。因此共有1116个样本足球比赛被选中,其中包括:372场比赛结束时主队获胜,372场比赛结束时客队获胜,372以平局结束的比赛。

选择了六种分类算法:BayesNet,SMO,LWL,EnsembleSelection,DecisionTable和SimpleCart 。使用属性评估器和搜索方法:CfsSubsetEval with Best-first,CfsSubsetEval with LinearForwardSelection和PrincipalComponentswith Ranker. 其中DecisionTable算法的最高准确率达到了46.51%, 创建模型的混淆矩阵显示见表格1。

表1. 主队获胜,客场获胜或平局的混乱矩阵

以主队获胜的比赛(Win-home型)的分类结果与其他两种情况的相比,准确度非常好。而大部分以客场球队的胜利结束的球队的分类结果就稍差了。在这种情况下,很多比赛被错误的分在主队胜利。最糟糕的是以平局结束的比赛,它们大多归类主队或客队胜利。这是因为平局是两个结果之间的中间程度。

5.2二进制(二元)分类

为了更好地检测匹配结果,对于每种类型的比赛结果:主队获胜(Win-home),赢得胜利客队(Win-away)和平局(Win-draw)我们决定构建二进制分类器。二元分类器的好处在于它比三分类要准确的多。

主队获胜的二元分类器。 在获得一个主队获胜的分类器时,就像以前一样(4.1节),我们使用了1116个足球比赛样本。以主队获胜而结束的比赛依然保持不变,但比赛结束时客队获胜和平局的结果合起来,组成一个类别。然后,我们随机丢弃372比赛以使每个类中的实例数相等。 下面是两类比赛的样本容量大小:以主队的胜利结束372场比赛(Win-home class),以客队的胜利结束或平局372场比赛(Win-no-home class)。

选择了六种分类算法:BayesNet,SMO,LWL,Bagging,DecisionTable和LadTree。使用属性评估器和搜索方法:CfsSubsetEval with Best-firs,ConsistencySubsetEval with GreedyStepwise,WrapperSubsetEval(分类器:Bagging)with BestFirst。 其中Bagging的准确率最高,它在特征选择之后获得这个结果(WrapperSubsetEval with BestFirst)和属性离散后准确率为70.56%。创建模型的混淆矩阵显示见表格2。

表2.二元分类器下,主队获胜的混淆矩阵

客队获胜的二元分类器。 预测客队获胜要比预测主队获胜要困难得多。虽然分类器本身没有取得较好的结果,但与以前研究一样,特征选择和数据离散化的积极影响。NaiveBayes算法的准确率最高为65.46%。创建模型的混淆矩阵显示见表格3。

表3. 二元分类器下,客队获胜的混淆矩阵

平局的二元分类器。 和标准化数据的分类(4.1节)的情况类似,二元分类得出的结果是非常难以预测的。在许多情况下,分类器无法执行正确的分类,导致获得的准确度不令人满意。因此可以得出结论,描述以平局结束的比赛的各项特征的值和主客队获胜的各项值是十分相近,以至于无法很好的分类。准确度最高的,是特征选择之后(without discretization)的EnsembleSelection分类器,准确度达到了56.99%的准确度。创建模型的混淆矩阵显示见表格4。

表4. 二元分类器下,平的混淆矩阵

5.4 关于1-X-2型投注分类汇总

通过我们对1-X-2型投注分类问题的研究,我们发现平局是最难预测的。这也证实我们队现实足球比赛的认知,因为描述平局的特征有太多和主客队获胜相类似的地方了。标准化数据集的分类研究中,混淆矩阵显示大多数以平局结束的比赛都被错误地归类为主队获胜。这是因为在大多数情况下,主队作战是有优势的(有最低的赔率)。

在二元分类器的情况下,预测主队胜利的准确性和客队都很不错。主队获胜的分类器

达到了70.56%的准确度。平局的分类器的结果较不理想。不过对于这类问题,我们关心的重点依然是主客队的胜负问题,分类精确度并没有随着平局的问题而恶化,所以还是令人满意的。这种分类器可以用于亚洲让球盘,在这种情况下平局的投注金额返还。

在大多数情况下,特征选择

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[280154],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版