欧盟关于算法决策和“解释权”的规定外文翻译资料

 2022-08-09 09:08

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


欧盟关于算法决策和“解释权”的规定

Bryce Goodman, Seth Flaxman,

摘要:我们总结了欧盟新的通用数据保护条例可能产生的影响,其中包括机器学习算法的常规使用。作为一项法律于2018年在欧盟生效,它将限制自动化的个体决策(即,基于用户等级预测器做出决策的算法),这将“严重影响”用户。这部法律同时也会有效地创造一个“解释权”,用户可以通过这一权利要求对他们所作出的算法决策进行解释。我们认为,尽管这部法律将给行业带来巨大挑战,但他突显了计算机科学家带头设计算法和评估框架的机会,这些算法和评估框架可以避免歧视并可以进行解释。

1、引言

2016年4月,这是二十年来的第一次,欧洲议会通过了一系列有关搜集、储存和使用个人信息的综合性法规,即《通用数据保护条例》(GDPR)。这部新的法规被称作数据保护法上的“哥白尼式革命”,设法将重点从纸面的、官僚的要求转移到实践中的遵守,法律上的统一和个人授权。许多法规显然针对的是欧盟当前数据保护方法中存在的差距和不一致之处。它包括,举例来说,“遗忘权”的编纂整理(第17条)以及外国企业从欧洲公民处搜集数据的法规(第44条)。

但是,尽管大多数语言都涉及数据的收集和储存的方式,但该法规包含第22条:自动化的个人决策,包括配置文件(见图1),可能会禁止目前正在使用的大量算法,推荐系统、信用和保险风险评估、计算广告以及社交网络。这引发了机器学习届特别关注的重要问题。按照目前的形式,GDPR的要求可能需要对标准的和广泛使用的算法技术进行全面检查。GDPR有关公民有权获得算法决策解释权的政策突显了人类可解释性在算法设计中的紧迫性。如果GDPR能够按照预期的方式在2018年中期生效,那么迫切需要能够在新的法律框架内运行的有效算法。

图1:《通用数据保护条例》的摘录

2、背景

《通用数据保护条例》定于2018年4月生效,并将取代欧盟1995年的数据保护指令(DPD)。从表面上看,“GDPR”条例仅仅重申了“DPD”的解释权和对自动决策的限制。但是,这一解读忽略了两项立法之间的许多关键差异。

首先,重要的是要注意指令与法规之间的区别。指令“规定了一般规则,应由每个国家酌情将其转为国内法”,但法规“类似于国内法,不同之处在于适用于所有欧盟国家”。换句话说,1995年的指令需经过国家解释,而且只有通过各成员国内部通过的法律才能间接执行。另一方面,GDPR不需要授权立法才能生效。它不指导欧盟成员国的法律,它只是成员国的法律(或将,当它生效)。

第二,在可对违反者施加的惩罚方面,DPD和GDPR是天壤之别。在DPD中,没有明确的最高罚款。相反,罚款是根据国家确定的。相比之下,GDPR对全欧盟最高罚款为2000万欧元,占全球收入的4%,以较大者为准(第83条第5款)。对于像谷歌和Facebook这样的公司来说,可能意味着数十亿的罚款。

第三,GDPR的范围是明确的全球性的(参见第3条第1款)。其要求不仅适用于总部设在欧盟的公司,也适用于任何处理欧盟居民个人数据的公司。在确定管辖权时,这些数据是在欧盟境内还是在国外处理并不重要。

在进行分析之前,我们总结了一些在第4条中定义的有关GDPR的专业术语:定义:

个人信息:可以识别一个自然人的任何信息;

数据主体:与数据相关的自然人;

处理:对个人数据过个人数据集执行的任何操作或一组操作,无论是否通过自动化方式进行;

分析:对个人数据进行自动处理的任何形式,包括使用个人数据评估与自然人有关的某些个人方面”;

因此,在两种情况下,概要分析应解释为处理的子集:处理是自动化的,并且处理是出于评估的目的。

GDPR特别关注针对“分析或预测有关自然人的工作表现,经济状况,健康状况,个人喜好、兴趣、可靠性、行为、位置或活动方面”的概况分析(第4条,第4款)。鉴于类别的广泛性,至少可以说,GDPR想要在包容性方面进行错误描述的目的是有原因的。

条款22:个体自动化决策,包括分析,第1款(见图1)禁止任何“显著影响”数据主体的“仅基于自动化处理(包括分析)的决策”第2款明确规定,“根据合同或履行合同的必要”,可以根据“联合体或成员国的法律”或“基于数据主体的明确同意”进行例外处理。但第3款指出,即使是在免责条款的情形下,数据的控制者必须“提供适当的安全保护”包括“获得人为干预的权利hellip;来表达他或她的观点并质疑该决定。”第4款明确禁止“基于特殊类别的个人数据”进行自动处理,除非“有适当的措施保护数据主体的权利,自由和合法权益”。

请注意,本节并未讨论在道德上允许访问敏感数据的条件,这是在其他地方讨论的(例如第7条)。然而,本节隐晦地假设了数据的获得是合法的。因此,即使数据处理者已经征得数据主体的同意,对于算法分析的条款也是适用的附加约束条件。

这些规定对机器学习算法的设计和部署提出了许多实际挑战。本文着重于两个方面:GDPR的歧视立场和GDPR的“解释权”所引起的问题。在整个过程中,我们强调研究人员的机会。

3.非歧视性原则

通常情况下,歧视可能被定义为个体因为在特定群体中的身份而受到的不公平的待遇,例如,种族,性别等。不歧视权已经深深根植于构成欧盟基础的规范框架中,可以在《欧盟基本权利宪章》第21条,《欧洲人权公约》第14条和《欧洲联盟运作条约》第18-25条中找到。

从某种意义上说,使用算法概要分析进行资源分配具有固有的歧视性:概要分析是在将数据主体根据各种变量进行分类时进行的,并且根据属于此类组中的主体进行决策。因此,对歧视的担忧已开始在关于大数据伦理的讨论中扎根就不足为奇了。Barocas和Selbst简洁地总结了这个问题:“大数据声称是中立的,但实际上不是。”正如作者指出的,机器学习取决于从社会收集的数据,并且在一定程度上,社会包含不平等,排斥或其他歧视的痕迹,因此,数据也将如此。因此,“对数据挖掘的依赖会拒绝弱势群体的成员充分参与社会。”的确,机器学习可以纠正现有的歧视模式——如果在训练数据集中找到它们,则通过设计一个准确的分类器将重现它们。通过这种方式,有偏见的决策将作为“目标”算法的结果出现。

该叙述性条款的第71段(GDPR的序言,解释了其背后的原理,但本身不是法律)明确要求数据控制者在处理敏感数据时“采取适当的技术和组织措施”,来“阻止,尤其是歧视性影响”。根据条款第9条:处理特殊类别的个人数据,敏感数据包括:

揭示种族或族裔血统,政治见解,宗教或哲学信仰或工会会员身份的个人数据,以及为独特地识别自然人的目的而进行的遗传数据,生物特征数据的处理,与健康有关的数据或与自然人有关的数据性生活或性取向hellip;hellip;

必须指出的是,第71段和第22条第4款专门针对使用敏感数据进行的外观设计歧视。要解开这项任务,我们必须区分两种可能的解释。第一个最小解释是,该指令仅适用于算法直接使用显示敏感数据的情况。例如,这将包括为种族,财务状况或第9条中提到的敏感信息的任何其他类别编码的变量。但是,众所周知的是仅从模型中删除某些变量并不能确保做出预测,实际上,和这些变量无关(例如[24,17])。举例来说,如果某个地理区域具有大量的低收入或少数族裔居民,则使用地理数据确定贷款资格的算法很可能,实际上是由种族和收入决定的结果。

因此,第二种最大解释是对“敏感数据”的更广泛理解,不仅包括那些明确命名的变量,还包括与之相关的任何变量。这将使数据处理器承担责任,以确保不为包含与第9条中的“个人数据的特殊类别”相关的变量的数据集提供算法。

然而,这种解释在实践中也有许多复杂性。使用相对较小的数据集,可以识别并考虑敏感变量和“非敏感”变量之间的相关性。但是,删除所有与敏感变量相关的数据可能会使所得的预测变量实际上无用。正如Calders和Verwer所指出的那样,“邮政编码可以揭示种族信息,但同时仍可以提供有用的,无歧视性的违约信息”。

此外,随着数据集变得越来越大,相关性可能变得越来越复杂且难以检测。地理和收入之间的联系可能很明显,但是在足够大的数据集中可能存在不那么明显的相关性(例如IP地址和种族之间的相关性),并且可能导致歧视性影响。例如,在一次精算师年会上,来自德勤的顾问解释说,他们现在可以“使用成千上万的lsquo;非传统rsquo;第三方数据源,例如消费者的购买历史,用来预测人寿保险购买者的健康状况,其结果的准确性可以和体检相媲美。”在足够大的数据集下,先验地确定并排除和“敏感类别”有关的数据特征的任务几乎是不可能的。公司也不愿意排除某些协变量——网络浏览模式是各种推荐系统的很好的预测指标,但它们也和敏感类别有关。

最后一个挑战,即从数据集中清除变量还无法解决,我们称之为不确定性偏差。当两个条件同时满足时,就会产生这种偏见:

  • 在样本中有一组是未被充分代表的,与该组的预测相关的不确定性更高;
  • 算法是风险规避的,因此,根据实际情况,paribus会倾向于根据自己更自信的预测做出决策(即,置信区间较小的决策)

在实践中,这可能意味着预测性的算法(例如用于贷款批准)更喜欢那些在训练数据中更具代表性的组,因为与这些预测相关的不确定性会降低。不确定性偏差如图2所示。人口分为两组,白种人和非白种人。基于个人是否将偿还贷款的预测概率,使用一种算法来决定是否延长贷款。我们反复生成大小为500的合成数据集,以此来改变人口中非白人的真实比例。在每种情况下,我们都将真实的还款概率设置为与团体成员的身份无关;不论种族,所有个体都有95%的还款概率。使用逻辑回归分类器,我们考虑通过以下决策规则以风险规避的方式做出贷款决定的情况:检查个人95%置信区间的下限是否高于固定的“批准阈值”的90%。在所有情况下,所有的白人都会获得信用,因为真实概率为95%,样本量足够大,因此置信区间较小。但是,如果非白人人口少于总人口的30%,由于小样本内在的不确定性,他们将不会获得信贷。

请注意,在实践中,分类器将考虑更复杂的类别组合(职业、位置、消费模式等),而罕见的组合则很少有观察结果。在主动学习设置中,这个问题更加复杂:考虑相同的设置,其中非白人和白人同样有可能违约。随着时间的流逝,对表现更好的群体应有的较小的初始偏见会变得更加复杂当积极学习需要更多的代表更好的群体的例子和他们的过度代表人数的增加。

图2:对不确定性偏见的例证:假设的算法被用来预测在特定环境下非白人和白人同样有可能还款的情况下偿还贷款的可能性。该算法是规避风险的,因此当其预测的95%置信区间的下端高于90%的固定批准阈值(虚线)时,它会提出要约。当非白人的数量低于总人口的30%时,同时假设一个简单的随机样本,该算法就会显示出我们所说的“不确定性偏差”——非白人代表的不足意味着对非白人的预测缺乏确定性,因此不向他们提供贷款。当非白人的比例接近50%时,不确定性接近白人,每个人都可以得到贷款。

因此,GDPR给我们带来了一个进退两难的困境:在最小解释下,非歧视性要求无效;在最大的解释下,这是不可行的。但是,断定非歧视措施没有价值还为时过早。相反,算法歧视的复杂性和多面性表明,合适的解决方案需要了解它在实践中是如何产生的。这突出了对人性化的算法决策进行解释的需要。

  1. 解释权

条例的第13-15条中概述的规定明确规定,数据主体有权访问所收集的有关于他们的信息,并且要求数据处理者确保将所收集的数据告知数据主体。但是,区分这些权利(可以称之为访问权和通知权)以及进行剖析时根据第22条所要求的的“保障数据主体的权利和自由”很重要。尽管该条没有详细说明这些保障措施超出了“获得人为干预的权利”,第13条和第14条规定,进行概要分析时,数据主体有权获得“有关所涉及逻辑的有意义的信息”。这项要求引发了一个问题:解释一个算法决策的含义是什么?需要什么?

用于监督机器学习算法的回归或分类的标准本质上是基于揭示可靠的关联/相关性来帮助进行准确的样本外预测,无需担心因果关系推理或“解释”超出了统计意义,在统计学意义上可以测量预测变量解释的方差量。正如米尔德布兰特(Mildebrandt)写到:“相互关系代表着将来可能会出现的相同的可能性。他们没有显现的是为什么应该是这样”。在越来越广泛的应用中使用算法决策已经导致一些人(例如[27])警惕“黑匣子”社会的兴起,并要求提高算法决策的透明度。但是,这一要求的性质并不总是很清楚。

Burrell从透明度的三个障碍进行了区分:

  • 公司或其他机构的蓄意隐瞒,以防止决策程序远离公众审查
  • 技术素养的差距意味着,对于大多数人而言,仅访问底层代码是不够的
  • 一种“机器学习的高纬度特征的数学优化与人类尺度推理和解释风格的需求之间的不匹配”

在GDPR内,第13条:向数据主体提供的信息在一定程度上朝着第一个障碍,规定数据处理者应该通知数据主体何时以及为什么收集,处理数据等。第12条:行使数据主体权利的交流和方式试图通过解决与数据主体之间的交流以“简洁、易懂且易于访问的形式”来解决第二种问题。正如里斯本(Lisboa)所指出的那样,“机器学习方法由于缺乏可解释性而在整个领域独树一帜”。

撇开技术流利性产生的任何障碍,并且也忽略了训练模型的重要性,有理由认为,只有受过训练的模型可以由人表达和理解,才能解释算法。可以合理地假设,任何适当的解释都至少可以说明输入要素与预测的关系,从而使人们能够

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239805],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。