一种新的数据管理挑战：如何处理大数据

Zeljko Panian

摘要：人类和机器制造数据的速度令人难以置信。因此，科学家们创造了一个专用名词一大数据，来传达从公共和私人组织和在Web上收集的超常规模数据。大数据一直在某些领域受到关注，如物理科学（气象学，物理学），生命科学（基因组学，生物医学研究），政府（国防，资金），财务和银行（事务处理，贸易分析），通信（呼叫记录，网络流量数据）以及在互联网（搜索引擎指数化，社交网络）。一些研究组织可以靠超级计算机，以满足他们的大数据需求，而我们提出了一个可以像软件即服务（SaaS）的提供与访问各种规模和类型企业的工具。

关键词：大数据，商业智能，数据管理，服务软件。

1、介绍

得益于互联网的普及、计算能力的提升、传感器和仪表的普遍使用、令人上瘾的电子产品消费、价格低廉的存储和（最新）高弹性的网络容量，人类和我们使用的机器产生无法统计的数字信息。科学家们创造了一个专用名词“大数据”——数据的收集包含了仍在积累的公共、私人组织和网络。[1]

大数据提供了对数据的访问，这是始终可用的，但不是消耗品。大数据扩展到商业智能（BI）平台，使BI专业人员利用扩展的视野分析和创建全面的观点。让我们举例可以从BI和大数据分析中受益的几个样本区域。

对于客户关系管理系统，可以从活动创建功能强大的客户群、愿望清单和实际客户响应数据的可视化来衡量真正的活动效果。你可以模拟和跨整合呼叫中心、博客、论坛和社交媒体平台上的数据，做到更深层次的分析预测客户的行为。这样就可以更好地部署呼叫中心度量客户管理，甚至建立一个有效的微观目标和微观细分模型对新客户的获取与接受更好的响应率。

如果企业涉及的产品或服务与大数据分析有关，您可以创建功能强大的模型趋势、行为和市场，你可以从你的工作利用“众包”模式和嵌入分析结果解决的研究和观念的问题[2]。如果您在公用事业行业工作，你可以通过部署技术创造了消费市场的预测模型，如智能电网。这将为创造顾问的收入服务，并提供更好的模型管理功能。

目前，正在使用大数据分析的另一个热门的领域是医疗保健。例如，服务供应商可以利用大数据部署人体区域网络，有助于降低门诊费用，同时提供“以病人为中心”的服务。降低成本和实现效率是医院、疗养院和护理人员的关键目标。大数据的另一个应用是优化临床试验，以防止错误，降低成本，并确保合规性以及确保您满足监管要求保持一致。虽然这些分析是今天部分兑现，他们的扩张将是主动的方法，而不是被动的。

有相当多的重点放在当前的新技术，这也许是调查显示、社交媒体的反馈并参与信息集成到传统的平台。这些数据点可以在分析和报表的可视化表示，帮助医院和保健提供者（例如），以提高自己的服务质量[3]。

2、大数据的特性

A.到底什么是大数据

大数据更多的是一种概念，而不是一个精确的术语。有些应用“大数据”的标签只PB级数据收集（gt;百万GB）[4]。另外，一个大数据集可容纳的量“只有”几十TB的数据[5]。然而更多的时候，大数据是根据情况来定义，而不是按大小。具体来说，数据收集被认为是“大数据”，当它是如此庞大大，一个组织就无法有效地或经济地管理使用传统的数据管理工具来分析利用。

B.受大数据影响的领域

大数据在某些领域一直受到关注，如物理科学工作（气象学，物理学），生命科学（基因组学，生物医学研究），政府（国防，资金），财务和银行（交易处理，贸易分析），通信（呼叫记录，网络流量数据），当然还有互联网（搜索引擎指数化，社交网络）。

然而，由于我们制造的数据增长迅速，对于各种类型的组织，大数据都成为一个问题。事实上，在2008年的数据量已经在平均100TB或更多。大数据甚至被个体所关注，因为意识增长的深度和个人信息的广度成为大数据的积累（相反，有些像LifeLoggers，播出他们的一天到一天生活在一个大数据流的自己制作）[6]。

C.将所有组件组合在一起

对于一些人来说，大数据只是意味着大烦恼，带来的是提高系统成本，扩展和性能，以及数据的安全性，保密性和所有权等棘手问题。但是，大数据也携带了突破性的见解和创新的商业、科学、医药和政府的潜力——如果我们可以把人类，机器和数据结合用来揭示深藏在大数据中的自然信息智能。

3、大数据的机遇

创新的公共和私人组织已经表明将原始的大数据集转化为可操作的智慧是可能的。它们被表示在特别是巨大的价值可从“灰色”的数据，构成了散装大数据被提取，即数据是未使用的（或者未充分利用的），因为它在历史上一直：[7]

第一：过于冗长，非结构化和/或原材料（即最小的结构）由传统的信息系统，或系统，或者被利用

第二：在高度结构化的数据，太昂贵或复杂的整合和利用的情况下（例如，试图收集和几十个数据库在全世界对齐数据）。

这些组织也打开使用结构化数据的边界（如数据库的内容）的操作和探索性分析、半结构化数据（如日志文件或XML文件）和非结构化内容（如文本文档或网页）的新领域。

4、数据库的丰富

一旦你能收集、分析和整理非结构化的大数据，你可以用它来加强现有脉络结构化数据资源，如数据库和数据仓库。例如，你可以使用如电子邮件，聊天，网站日志和社交网络的来源大批量提取信息，在客户关系管理（CRM）系统里丰富客户的档案。

或者，你可以扩展数码产品目录与Web内容（比如，产品说明，照片，规格，和供应商信息）。你甚至可以使用这样的内容，用来提高组织的主数据管理的质量，使用Web核实细节或填写缺少的属性。

5、大数据采集的难点

采集大数据的速度比传统企业预期的要慢。有几个方面的原因，最终的原因是，目前的商业模式和目标不要求大数据集成。此外，用大数据没有为组织领域带来附加的商业价值——没有明确的商业案例阐明，因此没有计算商业价值。

还有其他的压制的因素。管理者缺乏大数据，这使得IT团队的创建过程更复杂（在维护方面）和业务团队的复杂性（从而赞助和）（在采纳和使用方面）的理解。在预算紧张时期，IT团队根本不具备必要的带宽来实现的又一新的系统或技术。

6、对大数据采集改进的建议

为了实现大数据项目，在这里提出建议。

首先，建立一个强大的团队平台，探讨大数据将非常有帮助。这个团队将负责业务和数据分析工作，以进一步的执行创建路线图。关键成功因素包括：[8]

① 可用性IT资源，构建和配置所选择的大数据平台；

② 可用性的企业与中小企业的数据和领域的专业知识；

③ 可用性BI专业知识和深厚的统计知识资源；

④ 提供卓越大数据基础设施支持的技术中心；

⑤ 扩展其他BI最佳实践内容，包括数据管理，主数据管理，元数据管理，分析清晰度和可视化，包括大数据

⑥ 为用户提供完整的培训，使他们了解新的数据，并将其融入积分的分析和报表平台；

当涉及到人，组织创建一个团队，可以利用对方的技能，并建立一个统一的愿景，探索大数据的个体的组合。

虽然一些研究机构可以依靠超级计算机，而我们提出了一个可以像软件即服务（SaaS）的提供与访问各种规模和类型企业的工具，这些工具包括[9]：

数据采集预处理；

ETL（提取，转换和加载）工具；

API（应用程序编程接口）/连接器；

爬虫；

消息系统；

数据处理互动；

NoSQL系统；

NewSQL系统；

搜索引擎；

辅助工具；

云服务；

可视化工具；

每个工具都有不同的作用，在捕捉，处理，访问和分析大数据发挥。让我们先来看看数据采集和预处理的工具。

数据采集和预处理

ETL（提取，转换和加载）工具，用于映射并从一个系统转移大量数据到另一个。它们最经常使用的数据集成助剂。更具体地，它们通常用于从多个数据库中的数据合并到通过批量数据传输的中央数据仓库。 ETL的平台通常包括用于“正常化”源数据的机制传输之前，即，用于执行至少到与目标系统数据模型和规格对齐的输入数据所需要的最低限度的处理，并除去重复或异常数据[10] 。

在大数据环境中，提取过程有时放在源系统无法接受的负担，而且变换的阶段可能是一个瓶颈，如果数据是最小结构还是非常原始的（最ETL平台需要一个外部或附加模块来处理非结构化数据）。加载过程也可以说是相当缓慢的，即使代码被用于大量优化。这就是为什么ETL传输，其被广泛用于喂数据仓库，倾向于在非高峰时间将要执行——通常通宵——导致在某些情况下不能接受的数据的延迟。应当指出，然而，许多ETL供应商正在开发——或已开发的——他们的软件来解决这些限制的特殊版本。

应用程序编程接口（API）是软件到软件接口用于交换几乎所有类型的服务或数据可以设想，虽然我们在这里集中使用的API作为数据交换或合并的工具。在这种情况下，一个API可以使主机系统接收（摄取）来自其他系统的数据（“推”的API），或使他人从中提取数据（出版或“拉”的API）。

APIs通常采用标准编程语言和协议，以促进交流（例如，HTTP/ REST，Java，XML）。系统上的包装的API的特定实例通常称为“连接器”，并且可以是一般性的，用于连接到最常见的RDBMS特定像Java数据库连接（JDBC）API或供应商/平台，如用于连接器IBM的Lotus Notes。

随着大数据负载，APIs可能会由于设计不良或计算和网络资源不足的瓶颈，但他们一般都被证明是交换大容量数据和服务的灵活性和能力的工具。事实上。人们可以说公共和私人的API的扩散起到造就了今天的大数据世界的一个重要的角色。

尽管如此，你仍然可以达到，有时带有嵌入式ETL工具，而不是一个API，或者在流数据的情况下更好的性能与消息架构（见下文消息系统）。

此外，API是一般不从Web收集数据的最佳选择。一个爬虫是该任务的更好的工具。API在Wed方面有三个主要的缺点：

尽管还在增长，但目前通过API访问在线数据源只是一个很小的比例；
APIs通常提供访问的网站的数据只是有限的一部分。
格式和访问的方法是所有者的自由裁量权，并可以随时更改。由于这种可变性，它可以采取显著的时间来建立和维护单独的API环节，一种成就能成使大数据环境中完全失控。

爬虫是连接到数据源的软件程序，有条不紊地提取元数据和内容包含，并发送提取的内容背到主机系统的指数[11]。

一种类型的履带是文件系统的履带。这种履带式工程的递归的方式，通过计算机目录，子目录和文件，收集文件内容和元数据（如文件路径，名称，大小，和最后修改日期）。文件系统爬虫被用来收集诸如文本文档，像日志半结构化内容，和类似的XML文件的结构化内容非结构化内容。

另一种类型的履带的是Web（HTTP/ HTTPS）履带。这种类型使用履带式访问一个网站，捕捉并传送网页内容包含与可用的元数据（网页标题，内容标签等），然后沿着链接（或一组探视列表）前进到下一个站点。

通常一个搜索引擎被用来处理，存储和访问由爬虫所捕获的内容，但爬虫可以与其他类型的数据管理系统（DMS）中使用。

与其它数据收集工具，需要配置抓取，以便不放置在源系统——或履带不适当的负载。履带的质量决定的负载，可以适当的管理来的程度。还应该记住的是，抓取工具识别的文件格式（例如，HTML，XML，文本，PDF等），仅有限数量的，如果你想使用一个履带收集不支持的文件格式，数据需要被转换成使用类似API接口（标准与大多数商业搜索引擎），源系统导出工具，ETL工具可摄取的格式平台或消息系统。

（消息中间件）系统提供了一个有利的骨干，为企业应用集成。通过被称为消息总线的桥梁经常部署面向服务的架构（SOA），MOM解决方案松散耦合的系统和应用程序中。消息（数据包）由总线管理的可被配置为点至点传送（消息队列的消息）或者广播到多个用户（发布 - 订阅消息传送）。他们在不同的消息安全性，完整性和耐用性的支持水平。

不同系统之间的交流是可能的，因为所有连接系统（“同龄人”），都有一个共同的信息模式，设置命令消息和基础设施（通常专用）的。从源系统中的数据变换为必要的，使其他系统来使用它，例如，程度，二进制值可能需要被转化为它们的文本（ASCII）当量，或会话ID和IP地址可以从日志文件和编码萃取作为XML记录。APIs，用于管理该数据处理可以被嵌入在连接到总线的单个系统，或者它们可被嵌入在MOM平台。

消息系统是专为满足像金融，银行和电信行业的高容量，高速数据的需求。大数据量可以仍然过载有的MOM系统，特别是如果在MOM是在消息总线级执行大量的数据处理，过滤，聚集，转化等——在这种情况下，性能可以通过卸载处理任务来源或目的地系统加以改进。

数据处理与互动

如今，经典的关系数据库管理系统（DBMS）是由一组丰富的替代的DMS（数据库管理系统）的补充，专门用来处理大数据集的数量，种类，速度和可变性（即所谓的“4Vs”大了数据）。这些包括DMS的NoSQL，NewSQL和搜索的系统。所有可以摄取任何在最后一节（的ETL，APIs，爬虫或消息系统）中讨论的捕捉和预处理工具提供的数据。

NoSQL系统是分布式的，设计用于大规模数据存储的非关系数据库以及用于大规模并行数据运算横跨、跨大量商用服务器[12]。它们可以支持多种活动，包括探索和预测分析，ETL式的数据转换和非关键任务的OLTP（联机事务处理）一样，例如，管理持续时间长或组织间的交易。其主要缺

剩余内容已隐藏，支付完成后下载完整资料

外文原文

A New Data Management Challenge: How to Handle Big Data

Zeljko Panian

Abstract-Humans and their machines are cranking out digital information at a mind-boggling rate. Therefore, scientists coined a special term——lsquo;Big Datarsquo;——to convey the extraordinary scale of the data collections now being amassed inside public and private organizations and out on the Web. Big Data has been of concern to organizations working in select fields for some time, such as the physical sciences (meteorology, physics), life sciences (genomics, biomedical research), government (defense, treasury), finance and banking (transaction processing, trade analytics), communications (call records, network traffic data), and, of course, the Internet (search engine indexation, social networks). While some research organizations may rely on supercomputers to meet their Big Data needs, we propose a toolbox to be offered like Software-as-a-Service

(SaaS) with tools accessible to organizations of all sizes and types.

Keywords一Big Data, Business Intelligence, Data Management, Software-as-a-Service.

I. INTRODUCTION

FUELED by the pervasiveness of the Internet, unprecedented computing power, ubiquitous sensors and meters, addictive consumer gadgets, inexpensive storage and (to-date) highly elastic network capacity, we humans and our machines are cranking out digital information at a mind- boggling rate. No wonder then scientists coined a special term -“Big Data” - to convey the extraordinary scale of the data collections now being amassed inside public and private organizations and out on the Web [ 1 ].

Big Data provides access to data that was always available but not consumable. The expansion of Big Data into Business Intelligence (BI) platforms enables BI professionals to leverage expanded analytics and create 360° perspectives. Let us provide a few sample areas that can benefit from BI and Big Data analytics. For customer relationship management systems, you can create powerful visualizations of customer sentiments, wish lists, and actual customer response data from campaigns to measure true campaign effectiveness.

Another popular area where Big Data analytics is being used is health care. For example, service providers can leverage Big Data to deploy Body Area Networks, helping lower patient costs while providing 'patient-centric' services. Lowering costs and enabling efficiencies are critical goals for hospitals, nursing homes, and caregivers. Another application of Big Data is to optimize clinical trials to prevent errors, reduce costs, and ensure compliance and ensure youre meeting regulatory requirements consistently. Although these analytics are partially fulfilled today, their expansion will enable proactive approaches rather than reactive ones.

There is considerable focus these days on new technology - and ifs possible to integrate survey, social media feedback, and participation information into traditional platforms. These data points can be represented in analytic and reporting visualizations, helping hospitals and care providers (for example) to improve their quality of service [3].

II. BIG FATA CHARACTERISTICS

A. What Exactly Is Big Data

Big Data is more a concept than a precise term. Some apply the rsquo;rsquo;Big Data” label only to petabyte-scale data collections (gt; one million GB) [4]. For others, a Big Data collection may house 4Only* a few dozen terabytes of data [5]. More often, however, Big Data is defined depending on situation rather than by size. Specifically, a data collection is considered ttBig Data” when it is so large an organization cannot effectively or affordably manage or exploit it using conventional data management tools.

B. Who Is Affected By Big Data?

Big Data has been of concern to organizations working in select fields for some time, such as the physical sciences (meteorology，physics), life sciences (genomics, biomedical research), government (defense, treasury), finance and banking (transaction processing, trade analytics), communications (call records, network traffic data), and, of course, the Internet (search engine indexation, social networks).

Now, however, due to our digital fecundity, Big Data is becoming an issue for organizations of all sizes and types. In fact, in 2008 businesses were already managing on average 100TB or more of digital content. Big Data has even become a concern of individuals as awareness grows of the depth and breadth of personal information being amassed in Big Data collections (in contrast, some, like LifeLoggers, broadcast their day-to-day lives in a Big Data stream of their own making) [6].

C. Bringing All Components Together

For some, Big Data simply means Big Headaches, raising difficult issues of information system cost, scaling and performance, as well as data security, privacy and ownership. But Big Data also carries the potential for breakthrough insights and innovation in business, science, medicine and government—if we can bring humans, machines and data together to reveal the natural information intelligence locked inside our mountains of Big Data.

III. BIG DATA OPPORTUNITIES

Innovative public and private organizations are already demonstrating that transforming raw Big Data collections into actionable wisdom is possible. They are showing in particular that tremendous value can be extracted from the rsquo;rsquo;grey” data that makes up the bulk of Big Data, that is to say data that is unused (or under-used) because it has historically been [7]:

bull; Too voluminous, unstructured and/or raw (i.e., minimally structured) to be exploited by conventional information systems, or

bull; In the case of highly structured data, too costly or complex to integrate and exploit (e.g., trying to

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[287336]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

一种新的数据管理挑战：如何处理大数据外文翻译资料

一种新的数据管理挑战：如何处理大数据

您可能感兴趣的文章

登录

注册

找回密码

一种新的数据管理挑战：如何处理大数据

您可能感兴趣的文章