基于网络搜索数据的未来预测通用模型:预测希腊和西班牙的选举外文翻译资料-外文翻译网

本科毕业设计（论文）

外文翻译

基于网络搜索数据的未来预测通用模型:预测希腊和西班牙的选举

作者：Spyros E. Polykalas；George N. Prezerakos；Agisilaos Konidaris

国籍：希腊

出处：ProQuest

中文译文：

摘要:虽然实时数据处理消耗了全球计算资源的很大一部分，但我们正从“实时”时代快速地向“预言”时代迈进。“预言”一词的特点是将来自具有强大计算能力的集体资源的实时数据流与预测未来的目标结合起来。换句话说，如果你能用实时数据集“足够快”地计算，那么你就能准确地预测接下来会发生什么。这一过程的核心是谷歌趋势服务，它提供关于提交给谷歌的网络搜索词的流行程度的通用统计数据。本文将预测问题在其他方法所得出的结论与谷歌趋势数据相结合，以预测希腊和西班牙这两个国家的6次全国选举的结果。该模型的结果验证了我们的假设，即网络搜索词的受欢迎程度与两国选民的决策直接相关，因此可以非常准确地预测最终结果。

关键词:谷歌搜索解析；谷歌趋势；网络搜索；预测；选举。

介绍

处理能力的丰富性，一方面由摩尔定律(Moore s Law)实现，另一方面由谷歌和亚马逊(Amazon)等大型企业支持的“云”服务实现，这使得人们能够在海量数据发生时立即进行分析。如今，这种“实时”处理在一些社会经济活动中至关重要，比如投资交易。在投资交易中，一个被称为“超高速”或“高频”交易的整个行业已经从而蓬勃发展，几乎能够即时处理股票交易所的信息。然而，最近出版的文章《忘记这次:“下次”要多得多》指出“实时”还不够好，迟早会被“预言”所取代。“下一时刻”是一个术语，它描述了将大量计算能力与历史数据或实时数据结合起来以预测未来将发生什么的能力。

也许“预言”真正含义的最好例子是谷歌公司的谷歌搜索解析服务。该服务允许网页中的任何用户查看和使用与网页上任何搜索项的流行程度相关的统计数据，只要该搜索项是通过谷歌搜索引擎搜索的。

本文试图解决以下问题:给定正确的搜索词集，是否有可能使用这种聚合的网页统计数据来预测选举结果?更具体地说，该文件着重于使用一个简单但非常有效的模型预测希腊和西班牙两个主要政党在全国选举中所占的百分比。本文的结构如下:第2节讨论了利用搜索和社交网络数据进行预测的技术现状。第3节描述了所讨论的模型。第4节涉及选择与希腊和西班牙全国选举有关的检索词。第5节审查了最近在希腊举行的四次选举和最近在西班牙举行的两次选举，并解释了如何使用该模型来预测结果。本文以第6节结束。

相关工作与创新

正如前面提到的，基于网络的预测是一个研究领域，它涉及到许多人类活动。谷歌的研究人员尝试使用从家庭、汽车、零售销售到旅游行为等多个领域的搜索词受欢迎程度来进行预测。其他研究人员也尝试过预测房屋销售，而在《使用搜索引擎检测查询数据流感流行》一文中，科学家研究在流感疫情真正出现之前就对其进行了预测，这是一项有趣的工作。对失业率的预测是另一项成功的实践，在为美国就业市场谷歌建立谷歌搜索解析之前，以及为德国建立谷歌趋势之前，都曾尝试过。

关于选举，初步方法考虑了选举预测以及体育和经济方面的预测。当那篇论文写的时候，谷歌搜索解析还没有出现，因此作者直接对来自谷歌的搜索结果进行了规范化。因此，在《使用Flickr进行预测和预言》中，Flickr（雅虎旗下图片分享网站）被用作预测美国初选和大选获胜者的数据来源。此外，推特也被认为是选举结果预测的替代数据源。

还应该指出的是，基于网络的预测作为一个相对较新的研究领域，也受到了批评，尤其是来自投票等更传统方法的支持者的批评。在《搜索量对美国大选的可预测性进行分析》一文中，作者认为谷歌趋势的可预测性有很强的限制性，因为无法确定搜索某一候选人简介的用户是否对他/她感兴趣。在《利用社交媒体数据预测选举结果》所获得的资料中，它表示预测基于推特的美国大选结果只比纯粹的随机结果好一点点;这个结论不包括基于Flickr所得数据结果。此外，在《社交多媒体的智慧:使用Flickr进行预测和预言》一文对雅虎公司(Yahoo Inc.)研究显示，就零售额而言，基于网络搜索的方法的预测能力因产品(音乐、电影、视频游戏)的不同而有很大差异。与现有的研究成果相比，本文是创新之处在于:(a)提出了一种基于网络搜索数据的选举预测的模式(b)在六个方面成功地应用所使用的模型预测两个国家希腊和西班牙的选举结果(c)它不仅准确地预测了每个国家选举的获胜党派，也预测了两方政党的选举票数比例。(d)本文通过使用与自回归方程相比计算上不那么复杂的模型，已被多数文章所引用。

预测模型

预测模型主要基于假设在选举前期间，支持某一方政党的选民会使用与其名称相关的单词或短语在谷歌上进行搜索。在选举前的期间，这个政党最终将获得的选票和人数有着密切关系。当然在现实中搜索词流行度与最终得票数之间的关系各党派的选举结果可能有所不同。例如，一个政党的潜在选民的概况可能比更方便上网的一方要多。另外，不是每个人在选举前期间，都搜索该政党将投票给该政党。

为了降低我们预测中的白噪声，我们根据上述条件，计算出一个将政党的网络搜索行为与其选举结果联系起来的因子百分比。结果显示，两党之间的选民并没有发生巨大的变化。特别是与连续选举的政党的选民的搜索行为，则可以计算前一届选举期间的这一因素并利用它来预测即将到来的选举结果。另一方面，在某些的情况下观察到与搜索有关的差别主要是对某一政党的选民行为进行比较，而在其他方的相关搜索行为，则例如离即将举行的选举日期还有几个星期的搜索行为的反馈被忽略了。

该模型操作于三个不同的观察窗口，所有窗口一共持续一个月的时间。第一个窗口停止两个星期，第二个窗口停止一个星期，第三个观察口停止到选举日期的前一天。对于每一个观察窗口，我们在谷歌趋势中搜索每个国家两个主要政党的网络搜索兴趣值。

更具体地说，初始数据集包含从2004年到2012年期间来自谷歌趋势的网络兴趣值。查询最初使用携带缩写词作为搜索项。这个数据集被进一步划分为进入选举日期前后的观察窗口。对于每个观察窗口，各自处理西班牙和希腊政治舞台的两个主要政党的网络搜索的兴趣值。在我们的数据集网络搜索兴趣值经过以下步骤:

让WI_{N,当前竞选党派x}成为党派x在当前选举竞赛在N^th天之前的网络搜索兴趣值。首先，我们计算三十天内的前N^th天的平均网络兴趣值:

AWI_{N,当前竞选党派x}=WI_{N,当前选举党派x}

我们计算了三个不同AWI的N值，选举前一天，选举前七天(1周)及选举前十四天(两星期)。对于每个AWI，我们将每一方的平均网络兴趣值标准化到100%，从而得出每一方的标准化网络兴趣值。每一方的利息(NWI)，先计算总数网络兴趣值（TWI）：

最后，我们将每一方的NWI与在当前选举中的各自百分比，也标准化为100%。这个结果被称为模拟值（MI），表示一个党派实际选举结果与网络兴趣值之间的关系。

为了预测每个党派标准化百分比（NP）我们用了一个基于各党派之间先前和将来选举的AWI值的算法。更具体的说，我们计算了各党派之间先前和将来选举的AWI值的差异。

方法A

为了预测每个党派下一次选举的标准化百分比（NP），我们运用了先前选举的MI和下一次选举的AWI。

方法B

在方法B中，我们不用历史数据来预测，因为AWI的值对未来选举的预测与之前的选举在党派投票者的搜索行为上已经发生了巨大的变化。因此，在下一次选举中，我们认为不用先前的选举的反馈数据而是用当前的WI值会更接近于我们的预测，这就意味着对于每个党派我们用与NWI相关的标准化百分比（NP）进行预测。

在两种方法里，对于每个标准化百分比的预测，我们将预测模型与相关选举竞赛的实际标准化百分比进行比较。因为我们没有能力知道或预测准确度，在选举之前，对于两个主要政党的实际百分比总和，我们限制对各方标准化百分比的预测。然而，对于每个政党在其他方面的标准化预测不同于此政党的实际值，所以在这次选举竞赛的实际结果是会是一个奇怪的指标。

搜索项的选择

首先想到的有效搜索词是政党的缩写词。在希腊，在选举中一直赢得议会多数席位的两大政党是泛希腊社会主义运动党， (PASOK)和新民主党（ND）。在西班牙，两大政党分别是西班牙社会主义工人党(SPOE)和人民党(PP)。

然后，使用谷歌趋势，我们研究了在选举日期之前的短时间内，每个政党的搜索词的网络搜索兴趣的演变。希腊于2004年3月7日、2007年9月16日、2009年10月4日、2012年5月6日和2012年6月17日举行全国大选，西班牙于2004年3月14日、2008年3月9日和2011年11月20日举行全国大选。我们将重点放在选举日前数星期的时段，以研究在这段时间内，搜寻词是否有显著的变化。如果是，则认为它是模型的有效搜索项。

对于希腊选举，由于希腊字母，搜索兴趣的每一个术语，都必须检查在拉丁和希腊字母，而在西班牙的相关术语，为每个政党只存在于拉丁字符。

图1显示了由谷歌趋势服务提供的每周与西班牙和希腊两大主要政党相关的选定搜索词(政党的缩写词)的网络搜索兴趣变化。在大选前后的这段时间里，两个主要政党的网络搜索兴趣都呈现出峰值，而在每个国家，很少有其他时段一些选定的词汇也呈现出峰值。后一个峰值与这些政党的内部程序有关，如选举新的政党领导人。

图 1 对于党派缩写的网络兴趣值

在下一阶段我们测试了每个政党更多的相关词汇和术语，包括所有与投票者想要给在即将到来的国内选举中投票的政党有联系的相关词汇与术语。为了检查一个特定的词或短语是否应该包含在相关的党派之中，我们运用以下规则：首先我们检查网络兴趣的变化是否在选举日前后呈现类似于有相关政党在网络兴趣值所表现出的峰值。其次，我们检验了是否有相关的党派缩写在某一水平上影响

网络兴趣值。如果两个标准都满足，则该单词/短语应包含在此党派单词/短语集中成为特定的选项。运行上述规则我们得出的结论是，只有希腊政党必需对初始选定集的修改单词。这里还应该注意到，总的来说在案例中，我们将网络搜索结果限制在国家一级水平。在我们的研究中网络搜索仅限于希腊和西班牙的选举。

根据前面的规则，与希腊和西班牙竞选的主要政党有关的搜索词如下：希腊的“Pasok, nd, nea dimokratia” , 和西班牙的 “Psoe, Pp”。

选举研究

A.希腊选举

在2004年的选举中，新民主主义党(ND)获胜。我们使用谷歌搜索解析数据对选举日期前后的时间段执行模型，应用第4节中解释的数学类型。表1显示了模型的输入参数。

表 1谷歌搜索解析2004希腊竞选数据

剩余内容已隐藏，支付完成后下载完整资料</t

本科毕业设计（论文）

外文翻译

学院：理学院

专业：应用统计学

班级：应统161班

学　号：2016210215030

学生姓名：纪春鹏

指导教师：吕平

二○一九年六月