数据管理原理研究方向外文翻译资料

 2021-12-22 10:12

英语原文共 30 页

数据管理原理研究方向

作者:

摘要:

数据管理原理(PDM)领域为理解和管理数据和知识的正式框架的开发做出了重要贡献。 这项工作涉及PDM与数学和计算机科学中的其他学科之间的丰富交叉,包括逻辑,复杂性理论和知识表示。 随着涉及数据管理的技术和应用不断发展和发展,我们将参与PDM研究的持续扩展。 特别是,大数据分析的生命周期提出了PDM可以提供帮助的众多挑战领域。

在本报告中,我们确定了PDM社区有可 能做出重大贡献的一些最重要的研究方向。 这可以从三个方面来完成:潜在的实际相关性,已经获得的结果,以及在短期和中期看来都可以克服的研究问题。

透视研讨会 2016年4月10日至15日 - http://www.dagstuhl.de/16151

2012年ACM学科分类 计算理论→数据库理论

关键词和短语 数据库理论,数据管理原理,查询语言,

高效的查询处理,查询优化,异构数据,不确定性,知识丰富的数据管理,机器学习,工作流程,人类相关数据,伦理

数字对象标识符 10.4230/DagMan.7.1.1

执行摘要

2016年4月,在数据管理原理(PDM)领域工作的研究人员社区参加了德国Dagstuhl城堡举办的研讨会,该研讨会由ACM数据库系统原理(PODS)研讨会执行委员会联合举办。国际数据库理论会议(ICDT)理事会。本次研讨会的任务是确定和探索与社会和计算机科学高度相关的一些最重要的研究方向,以及PDM社区有可能做出重大贡献的地方。本报告描述了研讨会从三个方面着重研究的研究方向:潜在的实际相关性,已经获得的结果,以及在短期和中期都可以克服的研究问题。本报告围绕七个核心主题组织了已确定的PDM研究挑战,即规模查询处理,多模型数据,不确定信息,知识丰富数据,数据管理和机器学习,流程和数据以及道德和数据管理。由于PDM中的新挑战一直存在,我们注意到这个主题列表并非详尽无遗。

本报告面向不同的受众。它适用于政府和行业资助机构,因为它包含了PDM社区已经为我们这个时代的关键数据管理挑战做出贡献的重要领域的清晰度,并且有可能做出更多贡献。它适用于世界各地的大学和学院,因为它阐明了继续研究和教育在基础方面的重要性数据管理的要素,它突出了计算机科学和信息科学管理研究的增长领域。它适用于研究人员和学生,因为它确定了PDM领域中新出现的,令人兴奋的研究挑战,所有这些都是如此具有非常及时的实际意义。它也适用于决策者,社会学家和哲学家,因为它重申了在数据创建,访问和使用的许多方面考虑伦理的重要性,并建议研究如何帮助找到最大化利益的新方法。大量数据,同时保护公民和社会的隐私和完整性。

1 简介

2016年4月,在数据管理原理(PDM)领域工作的研究人员社区参加了德国Dagstuhl城堡举办的研讨会,该研讨会由ACM数据库系统原理(PODS)研讨会执行委员会联合举办。国际数据库理论会议(ICDT)理事会。本次研讨会的任务是确定和探索与社会和计算机科学高度相关的一些最重要的研究方向,以及PDM社区有可能做出重大贡献的地方。本报告描述了研讨会从三个方面着重研究的研究方向:潜在的实际相关性,已经获得的结果,以及在短期和中期都可以克服的研究问题。本报告围绕七个核心主题组织了已确定的PDM研究挑战,即规模查询处理,多模型数据,不确定信息,知识丰富数据,数据管理和机器学习,流程和数据以及道德和数据管理。由于PDM中的新挑战一直存在,我们注意到这个主题列表并非详尽无遗。

本报告面向不同的受众。它适用于政府和行业资助机构,因为它包含了PDM社区已经为我们这个时代的关键数据管理挑战做出贡献的重要领域的清晰度,并且有可能做出更多贡献。它适用于世界各地的大学和学院,因为它阐明了继续研究和教育在基础方面的重要性数据管理的要素,它突出了计算机科学和信息科学管理研究的增长领域。它适用于研究人员和学生,因为它确定了PDM领域中新出现的,令人兴奋的研究挑战,所有这些都是如此具有非常及时的实际意义。它也适用于决策者,社会学家和哲学家,因为它重申了在数据创建,访问和使用的许多方面考虑伦理的重要性,并建议研究如何帮助找到最大化利益的新方法。大量数据,同时保护公民和社会的隐私和完整性。

PDM领域很广泛。 它包括用于理解和管理数据和知识(包括数据模型,查询语言,本体和事务模型)的正式框架的开发,数据结构和算法(包括查询优化,数据交换机制和隐私保护操作)。。 数据管理是当今大多数IT应用程序的核心,并且在可预见的未来将成为个人生活,社交生活,行业和研究的推动力。 我们期待随着涉及数据管理的技术和应用不断发展和发展,PDM研究正在不断扩展。

PDM在关系数据库模型中发挥了基础性作用,基于代数和基于微积分的查询语言之间的连接,完整性约束和数据库设计之间的联系,查询优化领域的关键见解,以及一致并发事务的基础知识。 这项早期工作包括PDM与数学和计算机科学中的其他学科之间的丰富交叉,包括逻辑,复杂性理论和知识表示。 自20世纪90年代以来,我们看到数据生产和存储和访问此类数据的能力都大幅增加。 这导致我们管理和使用数据的方式发生了惊人的变形。 在此期间,我们已经(1)从独立的基于磁盘的数据库转移到Web上传播和链接的数据,(2)从严格结构化到松散结构化的数据,(3)从关系数据到许多不同的数据模型(分层,图形结构,数据点,NoSQL,文本数据,图像数据等)。 PDM的研究在此期间也得到了发展,跟随,伴随并影响了这一过程。 它有加强对关系模型(数据交换,不完整数据,概率数据,......)的扩展研究,对其他数据模型(层次,半结构,图形,文本,...)以及各种其他数据的研究 管理领域,包括知识表示和语义Web,数据隐私和安全以及数据感知(业务)流程。 在此过程中,PDM社区扩大了与相关领域的交叉,包括自动机理论,Web服务,并行计算,文档处理,数据结构,科学工作流,业务流程管理,以数据为中心的动态系统,数据挖掘,机器 学习,信息提取等。

展望未来,数据管理的三大领域脱颖而出,原则性的数学思维可以带来新的方法和急需的清晰度。 第一个涉及所谓的“大数据分析”的整个生命周期,即统计和应用机器学习技术可以从大量数据中获取意义并从中获取价值。 第二种情况源于新形式的数据创建和处理,尤其是在基于Web的商务,社交媒体应用程序以及数据感知工作流和业务流程管理等应用程序中出现的情况。 第三个刚刚开始出现的是开发支持道德数据管理的新原则和方法。 我们简要说明了本报告中探讨的七个PDM研究主题可以支持这三个领域的一些主要方法。

大数据分析的整个生命周期提出了PDM可以提供帮助的众多挑战领域。正如众多消息来源所记载的那样,所谓的“数据争论”可能会占分析调查中人工成本的50%到80%。数据争论的挑战可以用“4 V”来描述 - 体积,速度,多样性和准确性 - 所有这些都已经使用原则性方法得到解决,并将继续得到解决。正如我们稍后将讨论的那样,PDM正在为管理卷和管理做出新的贡献速度。作为一个例子,规模查询处理(第2节)讨论了高度并行化系统中有效的n路连接处理的最新进展,其优于基于一系列二进制连接的传统方法[18,37]。本节还介绍了用于近似查询处理的不同范例,有时在在线或流媒体设置中,只要满足答案的质量,用户就可以终止.PDM有助于管理多样性:知识丰富的数据(第5节)提供了使用工业大小的本体管理和有效推理的工具[33],多模型数据(第3节)提供了有效访问各种数据样式的方法,从表格到树,图形到非结构化。真实性是特别重要的鉴于数据不一致和不完整的必然性,在对大量数据执行分析时会遇到挑战。不确定信息的PDM领域(第4节)提供了大约四十年前面对不确定性时如何回答查询的正式解释[79],但其计算复杂性使主流采用变得难以捉摸 - 这是PDM社区应该面临的挑战加倍努力解决。由于特征工程和机器学习算法访问和操作大型数据集的非常规方式,在数据管理和机器学习(第6节)领域提出了挑衅性的新机会。我们还看到了将机器学习技术融入数据库管理系统的新方法,例如,能够更有效地提取和管理来自文本的信息[12]。

已经出现的新形式的数据创建和处理通常导致新形式的数据更新,事务和数据管理。基于Web的商务已经彻底改变了业务如何与供应链,财务,制造和其他类型的数据协同工作,以及企业如何与客户(包括消费者和其他企业)进行互动。社会应用使我们的个人和社会生活发生了革命性的变化现在正以类似的方式影响工作场所。交易越来越分散,定制,个性化,提供更加即时性,并通过丰富的数据集和高级分析提供信息。随着物联网变得越来越真实和利用以提高个人便利性和业务效率,这些趋势变得更加复杂。广泛的挑战是使所有这些数据以及数据处理方式变得容易理解。多模型数据(第3节)和知识丰富数据(第5节)都提供了应对这一挑战的方法。来自Web的许多形式的数据,包括来自社交媒体,来自众包的查询应答和非结构化数据通常会创建不确定信息(第4节)。基于网络的通信还推动了电子支持流程的革命,从现在正在部分自动化的传统业务流程到面向消费者的电子商务系统,再到日益简化的商业和供应链应用。已经出现了以整体方式理解和管理过程和数据(第7节)的方法,从而实现了一系列新的自动化验证技术[35];随着流程自动化的加速,这些将变得越来越重要。

虽然数据的道德使用始终是一个问题,但新一代以数据和信息为中心的应用程序,包括大数据分析,社交应用程序,以及商业中数据的日益增加的使用(包括企业对消费者和企业 - 对商业而言,道德考虑更重要,也更具挑战性。 目前,正在收集大量关于个人的数据,并在许多方面解释通过增加众多具有广泛不同议程的不同组织的不同方式进行解释。新的研究表明,在道德和数据管理研究中使用数学原理(第8节)可以产生新的方法来确保数据隐私。个人,以及在公司层面遵守政府和社会法规。仅作为一个例子,当应用分析技术时,正在出现机制以确保基础数据的准确和“公平”表示[50]

本报告的调查结果在两个主要方面与2016年贝克曼报告[1]的调查结果不同,并对其进行了补充。 两份报告都强调了“大数据”作为当前数据管理使用和研究的最大推动力的重要性。 本报告主要侧重于以数学为基础的观点已经并将继续产生重大影响的研究挑战。 这包括例如用于大规模并行查询处理和机器学习的新算法,以及异构和不确定信息的模型和语言。 本报告还考虑了其他领域,即对数据管理原理的研究可以在未来几年中做出越来越多的贡献,包括将根据不同模型构建的数据结合起来的方法,与数据一起采用的过程以及数据管理中的道德规范。

本报告的其余部分包括上述七个技术部分,以及一个结论部分,其中包含有关PDM研究前进道路的评论。

2 按比例查询处理

量仍然是大数据最突出的特征。 PDM社区以及一般理论计算机科学界已经为大规模有效的查询处理做出了重大贡献(涉及体积和速度)。 从并行算法,外部存储器算法,流式算法等的巨大成功以及它们在大规模数据库系统中的应用中可以看出这一点。 有时,理论基础的贡献可能不会立竿见影,例如,MapReduce系统需要十多年的时间才能在系统社区推广Valiant的理论批量同步并行(BSP)模型[109]。 但这恰恰意味着人们永远不应低估理论的价值。

接下来,我们将回顾我们今天面临的两个关于大规模查询处理的最重要的实际挑战:

开发多路连接处理的新范例。At-serias,Grohe和Marx [18]的一个着名结果引发了一系列研究工作,重新研究应如何计算多路连接。在所有当前的关系数据库系统中,都是一种多路的join使用二叉树(plan)在成对框架中处理,二叉树由查询优化器选择。然而,最近的理论研究发现,对于许多查询和数据实例,即使最好的二元计划也不是最大的多项式因子。同时,在RAM模型[86],外部存储器模型[65]和BSP模型[23,5]中设计了最坏情况的最优算法。这些新算法都放弃了二叉树范式,同时采用更全面的方法来实现最优化。令人鼓舞的是,有一些实证研究[37]证明了这些新算法的实用性。特别是,在一个成熟的数据库系统中实现了跳跃连接[111],这是一种最坏情况的最优算法。因此,我们认为理论社区中新开发的算法有可能改变目前在数据库系统中进行多路连接处理的方式。当然,这只能通过大量的工程工作来实现,特别是在新范例下设计和实现新的查询优化器和成本估算时。

近似查询处理。大数据上的大多数分析查询返回的汇总答案不必100%准确。在线聚合[63]的工作研究新算法,允许查询处理器在处理的早期阶段返回近似结果(带有统计保证),以便用户可以终止一旦准确度可以接受。这既改善了交互性又减少了不必要的资源消耗。最近的研究已经显示出一些令人鼓舞的结果[62,76],但仍有很大的改进空间:(1)现有的算法只使用简单的随机抽样或样本随机游走来从完整的查询结果中抽样。更复杂基于马尔可夫链蒙特卡罗的技术可能更有效。 (2)流算法社区开发了许多技术,将大数据集汇总成紧凑的数据结构,同时保留了数据的重要属性。这些数据汇总技术也可用于近似查询处理。 (3)实际上将这些技术集成到现代数据处理引擎中仍然是一个重大的实际挑战。

这些实际挑战引发了以下理论挑战:

各种大数据计算模型的关系。理论计算机科学界开发了许多漂亮的计算模型,旨在处理对于传统随机访问机器(RAM)模型来说太大的数据集,最突出的包括并行RAM(PRAM),外部存储器(EM)模型,流模型,BSP模型及其最近对现代分布式架构建模的改进。 一些研究似乎表明,在流式计算,并行处理和外部存储器之间存在着非常不相关的大数据计算模型之间的深层联系,尤其是对于PDM社区感兴趣的一类问题(例如,关系代数)[54,72]]。 调查这种关系将揭示这些问题在可扩展计算方面的固有性质,并且还可以让我们利用理论界几十年来开发的丰富的思想和工具。

并行查询处理的通信复杂性。新的大规模数据分析系统使用大规模并行性来支持大型数据集上的复杂查询。这些

资料编号:[3913]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。