利用眼球跟踪实时检测杂波对视觉搜索的影响外文翻译资料

 2022-05-11 08:05

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


利用眼球跟踪实时检测杂波对视觉搜索的影响

摘要

显示杂波会导致视觉搜索性能下降,并且可能会对复杂,数据丰富的域中的安全和效率构成威胁。解决这个问题需要通过某种方式来实时检测杂波的存在,预测其影响,然后在发生故障之前想好方法。眼动追踪是实现这些问题最有前景的技术;然而,到目前为止,它几乎只被用于离线评估。本次研究的目的主要是用来开发和评估一种模型:结合眼睛跟踪指标来检测杂波在搜索过程中的影响。参与者的眼睛都被要求在这种模拟图形程序中进行定位。通过3秒的时间窗,计算出3个眼球跟踪指标—扫描路径长度,平均扫视幅度和平均注视持续时间。然后将这些指标作为一组逻辑回归模型的输入,进而预测用户的响应时间相对较长还是较短。模型的准确率平均为75%,真阳性率(敏感度)超过90%,预测响应时间比视觉搜索提前3.6s。这项研究的结果证明,眼动跟踪指标可以用来实时预测显示杂波的影响。它们增加了注意力和眼球追踪的知识基础,最终有助于设计自适应显示,从而提高操作员的性能。

索引—杂波显示,眼动,视觉搜索/扫描。

Ⅰ介绍

在视觉搜索过程中,显示杂波会导致响应时间(RT)和丢失率增加[1], [2],这些性能下降极有可能会产生很大影响,从航空[3]再到网站设计[4]等领域的运营效率和安全性都将会受到波及。

为了防止或克服这些性能影响,到目前为止,多数研究集中于发展最优属性,包含信息既不太多也不太少[5]。然而,对于不同的使用者与其所在位置不同,构成“最佳”属性可能不同,但是基于用户的经验和工作量等因素在确定感知水平和杂波效应方面可能起着重要作用[4]。有时候,使用者可能会感到压力或疲劳[5],此时他们的需求和能力可能发生很大变化。例如,正常情况下,操作者可能会一次性打开很多图像或程序来处理几个低紧急任务。此时,用户的性能不会被屏幕上大量的信息影响。换句话说,当操作员正在使用这些信息时,显示器上的内容不会被认为是杂乱的。然而,一旦发生紧急情况,用户必须很快从显示器上找到关键信息。用户突然想尽力的找到搜索内容。 这个时候,大量信息反而成为用户的障碍,很可能导致搜索延迟或未找到。正是由于显示器里的内容与用户输入信息需要相互捕获,一旦用户期望与显示器属性(即自上而下或基于用户的因素与自下而上或基于显示器的因素)不匹配,就将导致显示器的混乱。因此,任何显示都很难从一开始就提供正确的信息数量,因为用户的认知状态和环境随时都可能发生变化。

解决这个问题的一种方法是开发一款基于该背景下敏感的显示器,使得信息性质和数量可以被实时调整以满足用户的需求。显示器可以自动调整(即自适应显示),而不是操作员在负担过重,尤其是在已经有压力和高负荷的时候手动调整显示器。反过来,这种方法将需要实时跟踪杂波来查看其对用户注意力分配的影响。眼动追踪是一种很有前景的方法[6],因为它可以在性能显著下降之前支持早期检测杂波带来的影响。眼动追踪也是无创的,与其他技术相比,如脑电图[7]。然而,距现在已经出现的与杂波有关的眼睛跟踪指标是在相当于整个任务时间或RT [1]、[2]、[8]的一段时间内计算出来的。对于这些支持实时显示适应的指标,需要采用更短的时间窗口,并且必须使用指标来开发模型,以在视觉搜索过程中尽早发现杂波对眼球运动的影响。

因此,本研究的目的是确定以下两个问题:1)在短时间窗口内计算的眼动跟踪指标是否可用于检测杂波对眼球运动的影响,并反过来预测性能下降(尤其是长RT);2)是否可以预测在重要性能衰减之前,在搜索过程中促使显示器进行调整。

Ⅱ环境

尽管人们普遍关注杂波,但对这一现象还没有给出统一的定义。最近对杂波文献的综述将其定义为“高数据密度,不良展示组织和大量无关信息之间相互作用导致的性能和注意成本的存在”[9]。 杂波的定义突出了杂乱的两个主要方面,显示密度和显示组织之间的相互作用。显示密度是一个被广泛讨论、比较突出的一面,显示器上的数量比较杂乱 ,例如:网页上的文字[10],地图上的符号[11],飞机显示器上的图标[12] 等等。另一方面,强调这些对象在展示中的布局方式,包括缺乏概念分组[13]和缺乏对称性[14]。上面提到的杂波定义也强调了显示因素(密度和组织)与性能衰减和注意力分配变化之间的联系。 检测这些变化或上下波动是显示早了的证据,正是这些变化使得我们可以杂波进行实时评估。

然而,大多数评估杂波的技术并不适合于此(参见[9]的评论)。 图像处理算法根据像素的显示特性计算杂波。 例如,边缘密度[15]是基于一种杂波与显示中的边数有关猜想。在这种情况下,一个过滤器计算边缘像素的密度作为总像素的百分比来给出一个度量。这种方法不支持检测性能下降或用户的因素。换句话说,无论用户处于什么状态,是疲惫还是压力,图像处理算法总是会显示相同的结果。通过用性能指标可以识别这些不同的差异,如RT和错误率[ 16 ]–[ 18 ],但这些不能实时地计算。最后,显示器[19] - [21]中感知到的杂波数量的主观评级或排名也很难实时更新。而且他们依赖于人们的判断的说法在多数情况下被证明是错误的[22]。

一种追踪注意力分配的技术是面向过程的,可以通过眼动追踪实时实现(参见[23]的详细评论),这是本研究中使用的方法。 眼动追踪数据通常表示为注视点(空间稳定注视点)和扫视(快速眼球运动之间),整个序列称为扫描路径[24] - [26]。 眼动追踪已成功用于追踪各种情况下的杂波效应。 例如,用于分析医疗记录[6],飞机驾驶舱显示器[27],网站[10]以及真实世界图像[28]中的杂波。除了这些早期的研究,在性能显著下降之前,本研究将使用实时眼动跟踪来检测杂波效应。实时眼球追踪也成功地应用其他领域,如检测驾驶员注意力分散程度[29]和评估用户学习[30]等,不仅仅只用于杂波评估。考虑到这种方法的新颖性,我们决定在一个相对简单和高度受控的应用环境中进行测试;即图标的图形显示,类似于[31]中所做的。

被用来分析杂波的眼动跟踪指标通常涉及一些基本指标,如注视总数[10]和平均注视持续时间[1]。 一些研究还涉及了更多复杂指标,例如扫描路径比率,达到目标所需的扫视的总和除以到目标的最短距离[2]。在之前的实验中,我们测试了大量的眼动跟踪指标,以利于分析杂波[6],[8]。这些度量标准分为三类:传播,方向和持续时间。 他们分别用来评估注意力的分布,顺序和长度。对于杂波来说,从中有一些好的指标,三个指标将被用于以下三个方面:每秒扫描路径长度,平均眼跳幅度和平均注视持续时间。

Ⅲ方法

  1. 参与者

这项研究的参与者是来自密歇根大学的十名工程学学生(五名男性和五名女性)。他们的平均年龄为23.0岁[标准差(SD)= 3.9]。参与者表示同意,为他们的时间补偿25美元。 在实验之前,不管是正常的还是经过矫正的,参与者只需说出自己目前的视力情况即可; 由于眼动仪的限制,隐形眼镜被允许使用,但眼镜不能使用。本研究经密歇根大学机构审查委员会批准(ID:#HUM00078246)。

B.模拟图形程序

我们创建了一个模拟图形程序,它由广泛使用的图形包中的图标组成。来自几个Adobe图形套件的图标安放在不同配置显示器上(参见图1)。所有图标都使用灰度版本,以便在搜索期间颜色不作为根本因素对本次研究造成影响。 这些图标都被分配给一个基于特定功能的唯一组(例如,写入、对齐和颜色)。 所有参与者都证实他们之前使用过Adobe Photoshop。

C.实验设施

模拟图形程序显示在,分辨率为1280times;1024像素,19英寸显示器上。使用应用科学实验室D6台式眼动仪(采样率:60 Hz;精度:小于1度视角;精度:0.5度视角;头部运动范围:1立方英尺)。 这个眼动仪被放置在电脑显示器的前面,使得光圈距屏幕大约5厘米。 参与者坐在离眼动仪约70厘米的距离处,使每个水平方向的视觉屏幕角度为约25度,并且每个垂直方向的视角为20度。 。实验开始前使用九点网格进行校正,大约需要5分钟。

位于参与者旁边的实验者使用第二个监视器实时追踪眼动仪的信息输出。 所有的代码连接到眼动仪,收集眼动数据,并在MATLAB R2011b中创建计算眼动追踪指标。

D.实验设计

数据密度(低,高)和显示组织(好,差)是代表杂波的两个主要方面,由于参与者不同,选择A2times;2全因子设计。在每个实验试验中,参与者必须执行搜索任务。每个试验中的变量如下操纵。

  1. 数据密度(低,高):通过改变显示器内图标的数量来控制数据密度的高低。高数据显示器[见图1(c)和(d)]包含119个全部图标,而低数据显示器[见图1(a)和(b)]包含在38和45之间图标。低数据显示中的这个范围反映了不是所有图标组都包含相同数量的元素。这些组包含3,4,6或8个图标,主要取决于Adobe套件中可用的图标。
  2. 组织(好,差):好的组织展示图标被放置在各自的组中,并被一个大框包围如[见图1(a)和(c)], 这些组内的图标序列总是相同的,并且组名在每个组的顶部。相反,在差的组织显示中图标随机分布在显示屏上如[见图1(b)和(d)]。

该研究涉及两个阶段:1)训练阶段,收集眼动追踪数据并用于创建可视搜索RT模型;2)测试阶段,该模型用于实时预测RT。训练和测试阶段使用同一组显示器,唯一的区别是目标的位置。在每个阶段,参与者都有六个实例。1.显示屏部分屏幕截图:低数据显示带有(a)良好的组织和(b)不良的组织,以及具有良好组织(c)和不良组织(d)的高数据显示。值得注意的是在良好的组织结构中,图标按逻辑分组,而在不良组织中,它们是随机分布的。

图1显示器各部分的屏幕截图:(a)组织良好,(b)组织不良,以及组织良好的高数据显示(c)和组织差(d)的低数据显示。 在良好的组织结构中,图标按逻辑分组,而在不良组织中,它们是随机分布的。

在四种实验条件下,一共进行了24项实验试验和24项相应的独特显示。在实验测试中,总共有6个容易辨认的图标作为目标图标。参与者在实验前接受了训练,以确保他们熟悉所有的目标图标和及其分组。不管在什么情况下,要确保选择的准确性。

图2 三秒时间窗中2秒被重叠。眼动追踪指标是针对每个窗口计算的。

根据之前的一项实验[6]研究表明,同时搜索多个目标比单独搜索一个更容易混乱,参与者被要求搜索整个显示器,以确定目标是否出现多次。在一个更实际的场景中,可以认为这类似于一个用户有几条信息同时作为任务的一部分,例如,医生可能要找到所有与前皮肤科医生预约的病人,或者是所有心血管问题。在24个实验测试中(在训练和测试阶段),始终只有一个目标实例。此外,每一阶段有16个“假”试验,目标要么不在,要么显示在显示的中间部分,或重复(即:,目标有两到三个实例)。这些试验确保了参与者总是在整个显示器上搜索多个目标;但是在分析时并没有参考这些数据。实验时将参与者平均分成两组来,每组都以固定的顺序进行实验,第二组的顺序与第一组相反。

因变量是RT和错失率,眼动追踪数据以及模拟绩效预测的时间等性能指标。 RT被定义为从每次试验开始到参与者表示他们已经找到目标的时间。 眼动追

全文共18392字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[12515],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。