交互式在线学习系统设计外文翻译资料

 2022-08-09 10:08

英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料


摘 要

近年来,在线学习系统面临着巨大的挑战,特别是由于技术的快速变化,要存储和处理的数据量巨大,学习者数量众多以及教育资源的多样性。因此,在线学习平台必须改变其数据处理和存储机制,使之更加智能化。在这种背景下,大数据是通过数千个群集对大型数据集进行分布式并行处理的相关范例。它还提供了丰富的工具集,以改善数据的收集,存储,分析,处理,优化和可视化。本文介绍了大数据的概念、特点,尤其着重介绍了将其集成到专门用于在线学习系统的人类学习的计算环境中,以及大数据的新方法、新技术和新工具如何去促进在线学习的发展。同时,它提出了一种方法,可以使传统的在线学习系统平稳地适应于云计算中的大数据生态系统。此外,它还提供了一种将在线学习存储和计算合并到Hadoop软件库中的方法学和体系结构。最后讨论了在未来的在线学习系统中实现大数据的优势。

关键词:人类学习计算环境(CEHL);大数据;云计算;在线学习;电子学习

1 介绍

CEHL是一套通过使用新的信息和通信技术进行学习的工具,系统和平台。事实上,它使学习者摆脱了时间和地点的限制。学习者可以根据其可用性随时随地从任何设备学习课程。此外,教师并不在场,学习过程通常是异步进行的(Fortino等,2012)。这里有几个术语被用来描述CEHL,包括在线学习、远程学习、基于Web的学习、虚拟学习环境和MOOC(大规模开放在线课程)。但是这些平台经常面临许多挑战,例如大量的学习者,大量的教育资源,课程多样化等。

大数据技术可以以前所未有的速度处理,分析,组织,过滤和可视化来自各种信息源的大量数据。大数据的主要目的是通过消除噪声并仅提取有用信息从大量数据中获取正确的信息,以便做出更好,更快和更明智的决策。因此,利用大数据来提高在线学习(电子学习)系统的质量是非常重要的。

大数据正在融入几乎所有领域,包括电信,社交网络,电子商务,旅游和教育。我们相互联系的程度从未如此重要。每个用户的聊天,评论,电话,文档,网络搜索或任何互联网活动都会留下数据的痕迹。据估计,自人类诞生以来收集的数据有90%是在最近两年内产生的。大数据技术允许对这些海量数据进行分析和组织,以便利用这些数据。在这种情况下,有必要使用这一新一代技术来提高在线学习和教育的总体水平(Scott 2017)。

就在线学习而言,大数据是指学习者在学习过程中产生的数据,包括他们参加在线课程或培训模块时产生的数据。还有学习者的个人资料,注册,偏好,评论,聊天等。事实上,当学习者在在线学习期间与培训模块互动时,他的课程活动,学生的进度,评估结果,社交分享,论坛消息,学习者反馈,教学干预,学习者与朋友的协作以及所有用户系统交互所生成的任何其他数据都是大数据。

这项工作是专用于在线学习的人类学习计算环境(CEHL)的一部分。它旨在提出一种基于云计算大数据技术的在线学习系统的新方法,并作为在在线学习环境中采用新的信息和通信技术而不断改进的一部分。探讨云计算的模式,大数据的概念以及将其与在线学习系统集成的问题,对我们来说似乎是非常有趣的。此外,本文提出了一种使用在线学习平台产生的大量资源的方法。并且,它还旨在为在线学习系统提供一种新的大数据架构。最后探讨了将大数据与在线学习相结合的好处。

2 相关工作

随着互联网和通信技术的兴起,许多教育机构正朝着使用网络技术来促进和改善覆盖大量学习者的学习的方向发展。只要学习者的数量增加,生成的数据量也会增加。这促使在线学习专业人员寻找分析此类大型数据集的方法。我们无法使用传统的数据库管理工具或信息管理系统来处理,这就是为什么使用大数据技术来响应实时处理大量数据的需要,以便做出正确决策的重要性所在。在这种情况下,人们已经进行了很多研究,以将大数据维度纳入在线学习领域。

Muhammad Anshari等(2016)探索了大数据时代的在线学习趋势和挑战。根据他们的研究,在线学习的多个平台生成的大数据主要面临三个挑战。首先是从非结构化数据源中提取数据,以将其包含在在线学习系统中。其次,大数据与用于在线学习的多个平台的集成存在问题。最后,大数据分析需要在数学、统计学等方面具有高技能的数据科学家角色,以便解释分析结果,以帮助决策者等用户更快,更好地做出决策。此外,在教育环境中使用大数据有助于更好地提供教学,从而提高服务质量。

Birjalietal(2018)专注于大数据如何通过实现学习目标帮助解决教育问题。文章介绍了许多大数据分析在提高学生学习效率和有效性方面的机会,它们可以提高学生的学习效率和有效性,并最大限度地提高他们的知识水平。并且介绍了大数据如何预测学生未来的学习绩效,并为教育机构制定战略决策提供了帮助。

Ashraf等(2015)提出了一种在在线学习系统中处理大数据的新模型。该模型可以通过使用Hadoop和NoSQL数据库处理教育数据来确定在线学习系统中学习者的行为。文章阐述了提高教育系统中数据处理性能的必要性,有效处理大数据对于服务教育系统和学习者至关重要。

我们注意到,在该领域进行的研究并未提供清晰的模型来适应和整合在线学习系统中的大数据范例。这就是在这项工作中,作者有兴趣提出一种基于新一代大数据技术和作为服务提供的云计算基础架构的在线学习系统的新模型,以提高在线学习系统的性能、可伸缩性和可用性的原因。

3 大数据

3.1大数据的定义

在文献中,大数据有很多定义。从根本上说,大数据不仅意味着大量数据,而且还具有将其与“大规模数据”和“非常大量的数据”的概念区分开的其他特征。从本质上讲,大数据指的是非常大的数据集,我们无法使用关系数据库管理工具或信息系统对其进行处理。根据美国国家标准与技术研究院(NIST 2015)的说法,大数据是指传统数据架构无法有效处理的新数据集。它由大量的数据集(主要是体积,品种,速度和/或可变性的特征)组成,这些数据集需要一个可扩展的体系结构才能有效地进行存储,处理和分析。事实上,我们每天创建约2.5万亿字节的数据。这些信息无处不在:我们发送的消息或发布的视频,天气信息,GPS信号,网上购物的交易记录,应用程序日志文件,我们在互联网上的活动等等。这些数据被称为大数据或海量数据。网络巨头中,雅虎(还有Facebook和Google)是第一个部署这类技术的公司。

“大数据”一词不仅适用于数据量本身,还适用于正在收集的所有数据片段。人们可以对这些数据片段进行分析,以便组织或在线学习专业人员有机会确定学习者如何以什么速率获取信息的,并确定在线学习策略本身可能存在的任何问题(“Pappas”2014)。

3.2 大数据的特征

大数据非常重要,因为它使组织能够以适当的速度收集,存储,管理和处理大量数据,并实时从现有数据源中找到正确的见解。此外,大数据生成器必须在可控生成速率(Velocity)下创建不同类型(Variety)的可扩展数据(Volume),同时保持原始数据的重要特性(Veracity),收集到的数据可以用于预期过程、活动或预测分析/假设。实际上,“大数据”有很多种定义。它也已经根据其某些特征进行了定义。因此,这五个特征已用于定义大数据,也称为5 V(Volume,Variety、Velocity、Veracity和Value)。

3.3 大数据的类型

由在线学习平台或大多数计算系统生成的数据可以分为三类,即结构化,半结构化和非结构化。其中,后两项是新的大数据。图1说明了远程学习系统产生的不同类型的数据。

首先,结构化数据已经重新被格式化,其元素被组织成一个数据结构,以便可以以各种的组合方式对元素进行寻址,组织和访问,从而更好地利用信息。结构化数据通常存储在关系数据库管理系统中,并使用SQL(结构化查询语言)或PL-SQL(过程化SQL语言)进行管理。其次,非结构化数据基本上与结构化数据相反。它尚未被组织成一种易于访问和处理的格式。来自文本文档,图像,音频文件,视频和社交媒体帖子等各种来源的数据被称为非结构化数据。非结构化数据既复杂又庞大,传统数据库无法处理或高效查询。除了结构化和非结构化数据之外,还有第三类,即半结构化数据。半结构化数据是指不存储在结构化数据集中,但具有一些组织属性的信息,这些属性使其更易于处理和分析。半结构化数据的示例可能包括XML(可扩展标记语言),电子邮件,日志文件和JSON文档。

3.4 大数据技术及其组件

在大数据时代,人们引入了许多用于数据存储和处理的新技术。Hadoop,MapReduce,Spark,NoSQL数据库,内存计算,分布式文件存储,预测分析只是可用于开发大数据系统的众多技术中的一小部分。我们只介绍了在我们的模型中使用的一些技术,这些技术将在线学习系统集成到大数据生态系统中。

Apache Hadoop是一个支持大数据存储和处理的开放源代码平台。它是一个允许并行处理和分布式存储大量数据的框架,被部署在商品硬件上。它支持三种不同的模式,包括独立模式、伪分布模式和完全分布模式。实际上,Hadoop软件库由几个相关项目组成,这些项目提供存储、查询(Pig)、传输(Flume或Sqoop)和流式传输等服务(Calheiros 2016)。它由两个主要组件组成,包括存储数据的Hadoop分布式文件系统(HDFS)和用于处理跨机器集群分布的大量数据的MapReduce(Hadoop 2018)。

Apache Hadoop YARN(YARN2018,另一个资源协商器)是一个用于作业调度和集群资源管理系统的框架。它是为支持Spark、Storm等不同的数据计算框架而设计的。它具有基于主/副原理的简单灵活的体系结构,该主结构称为ResourceManager(RM),而副结构称为NodeMangeners(NM)。RM负责在跟踪和仲裁机器集群之间的资源。另一方面,NM负责运行任务并监视每个工作程序节点的资源使用情况(Buyya等,2016)。

Hadoop分布式文件系统(“HDFS” 2018)是一个数据存储和管理文件系统。它被设计用来部署在商品硬件上。此外,它是容错的,并提供高吞吐量的数据访问。同样,它也适用于具有大型数据集的应用程序。HDFS主要由两个组件组成,其中一个是名称节点,用于保留用于存储、读取、复制和删除分布节点中的数据块的文件或目录和数据节点的命名系统(块位置)。

Apache Spark(Spark 2018)是一个用于大规模数据处理的快速通用引擎。它是一个分布式计算的框架,可为批处理和交互式处理提供高性能。Spark允许Hadoop集群中的应用程序运行速度比Hadoop MapReduce快100倍,因为它在内存中执行数据处理,即减少了实际的读写操作次数。因此,无需花费时间将数据移入和移出磁盘。它为Java,Scala,Python和R提供了高级应用程序接口。它还支持丰富的高级工具集,包括Spark SQL,Spark Streaming,MLlib和GraphX。Spark支持不同的环境,例如Hadoop,Mesos,独立和云计算。它可以访问各种数据源,包括HDFS,MongoDB,HBase等。

Apache Hive(Hive 2018)是一个数据仓库,它用于高效查询和管理驻留在分布式存储中的大量数据。它为数据操作提供了一种类似SQL的查询语言,称为HiveQL。此外还提供了一个命令行工具和JDBC驱动程序将用户连接到Hive,因此它可以执行许多操作,例如ETL(提取/转换/加载)任务。此外,它还允许快速访问存储在不同数据存储系统(例如HDFS和HBase)中的文件。

Apache Sqoop(Sqoop 2018)是一个在结构化、半结构化和非结构化数据源之间高效传输数据的框架。它能够从结构化数据源(包括关系数据库系统(MySQL、Oracle、PostgreSQL等))向HDFS或HBase、Cassandra等其他数据存储系统导入和导出数据(图2)。

Apache Flume(Flume 2018)是一个分布式的,可靠的,可用的系统,它可以从多个不同的来源收集、聚合和移动大量的日志数据到一个集中的数据存储区。此外,它使用了一个简单的可用于在线分析应用程序可扩展数据模型。Flume具有一个简单的体系结构。它由三个组件组成:源,通道和接收器,所有这些部分都由一个Flume代理托管。实际上,Flume源从外部数据源(日志文件)捕获数据流的单元(称为事件)。然后,它将接收到的事件存储在Flume通道中。最后,Flume接收器将事件从通道移动到Hadoop分布式文件系统或其他系统存储中。单跳数据流的Flume体系结构如图3所示。

3.5 大数据和云计算

云计算是对通过网络作为服务交付的计算资源(硬件和软件)的使用。云计算可以定义为硬件,网络,存储,服务和接口的组合,它们组合在一起,将计算的各个方面作为一项服务来交付。云服务包括通过互联网来交付软件,基础架构和存储(Adhikari等,2017)。

因此,我们不能在不考虑云计算的情况下讨论大数据和在线学习系统,因为它提供了部署大数据技术和在线学习系统所需的基础设施和资源(Dahdouh等,2017)。因此,云提供了一个预先配置的环境,并确保定期更新,使我们免于安装和维护任务。实际上,并非所有的大学或教育机构都具备管理海量数据和实时执行计算所需的基础设施。出于这个原因,必须使用云计算服务来提高电子学习系统的性能和可用性。

3.6 大数据与关系数据库的比较

关系数据库管理系统(RDBMS)是管理和组织由关系链接在一起的表中的结构化数据的程序。RDBMS具有处理千兆字节数据的能力,但是当数据量变得非常庞大且种类繁多时,RDBMS将无法满足这种海量数据的处理和分析需求。在这种情况下,我们可以使用大数据,它在存储,电源处理,实时分析方面提供了多种技术和工具。表1总结了RDBMS和大数据之间的不同。

4 在线学习概述

在线学习的定义和本质是以“在线”作为

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239698],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。