与公民科学家一起构建鸟类识别应用程序和大规模数据集: 细粒度数据集集合中的要点外文翻译资料

 2022-02-24 08:02

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


与公民科学家一起构建鸟类识别应用程序和大规模数据集:

细粒度数据集集合中的要点

Grant Van Horn1 Steve Branson1 Ryan Farrell2 Scott Haber3

Jessie Barry3 Panos Ipeirotis4 Pietro Perona1 Serge Belongie5

1Caltech 2BYU 3Cornell Lab of Ornithology 4NYU 5Cornell Tech

摘要

我们介绍使用了收集高质量,大规模细粒度计算机视觉数据集的工具和方法,它们源自于公民科学家——例如对鸟类或飞机等特定领域充满热情和渊博的注释者。我们与公民科学家和领域专家合作收集了NABirds,一个新的高质量数据集,包含了555个类别,部分注释和边界框的48,562张北美鸟类图像。我们发现公民科学家比零成本的Mechanical Turkers更准确。我们与鸟类专家一起测量了CUB-200-2011和ImageNet等流行数据集的质量,并且发现类标签错误率至少为4%。但是,我们发现学习算法对于注释错误惊人的可靠,并且如果训练集具有足够的大小,则这种级别的训练数据损坏可导致测试错误在可接受范围内的小幅增加。与此同时,我们发现像NABirds这样的专家策划的高质量测试集对于精确测量细粒度计算机视觉系统的性能是很必要的。我们使用NABirds去训练一个公开鸟类识别服务,它部署在康奈尔鸟类学实验室网站上。

引言

计算机视觉系统——被像ImageNet等新的更大规模数据集催化[6]——最近取得了显著的成绩在物体识别方面[17,32] 和检测方面[10]. 计算机视觉已经进入了一个大数据时代,拥有收集更大数据集的能力——就类的数量,每个类的图像数量以及每个图像的注释水平方面而言更大——似乎对持续的性能改进和扩展可解决的应用程序集至关重要。

不幸的是,以这种方式扩展数据集引入了新的挑战,而不仅仅是增加了人工需求的数量。随着我们增加感兴趣的类的数量,类变得更细粒度化并且难以区分普通人(和平均注释器),也更加模糊同时不太可能服从互斥的假设。注释过程变得更具挑战性,需要越来越多的技能和知识。数据集质量似乎与数据集大小直接相关。

在本文中,我们介绍了用于构建大型高质量计算机视觉数据集的工具和方法,这些工具和方法基于利用人群注释器的另一组——公民科学家。公民科学家是非专业科学家或特定领域的爱好者,如鸟类,昆虫,植物,飞机,鞋子或建筑。公民科学家用他们在感兴趣的领域的专业知识和热情可以帮助构建为同行社区服务的工具的理解提供注释。与Mechanical Turk的工人不同, 公民科学家没有报酬。尽管如此,由于他们更多的专业知识和没有垃圾邮件发送者,他们产生了更高质量的注释。此外,公民科学家可以帮助定义和有机地增加一组类及其分类结构来匹配感兴趣的领域中的真实用户的利益。

图 1: Merlin Photo ID: 在公民科学家的帮助下建立的公开可用的鸟类分类工具。用户上传了一张鸟的照片,服务器端计算机视觉算法将其识别为不成熟的 Cooperrsquo;s Hawk.

像ImageNet[6]和CUB-200-2011[35]这样的数据集在促进计算机视觉算法的发展方面具有重要意义,而被选择的特定类别集合在某种程度上是任意的,并且对实际应用的使用有限。使用公民科学家而不是Mechanical Turkers的缺点是收集注释的吞吐量可能较低,计算机视觉研究人员必须花时间弄清楚如何与每个领域的不同社区合作。

我们使用公民科学家,专家和Mechanical Turkers的组合,收集了555种鸟类的48,562张图像的大型数据集,每张图像都有部分注释和边界框。 我们使用此数据集构建了一个公开可用的鸟类分类应用程序。在本文中,我们提供了相关经验的详细信息和分析,并且希望它们对于计算机视觉的其他研究人员在收集更大的细粒度图像数据集时将是有用的有益的。我们解决以下问题:不同类型的注释(细粒度类别和部分)的不同类型的注释器(MTurkers,公民科学家和专家)的相对技能水平是多少?在注释质量,注释成本,人工注释时间以及请求者完成数据集所花费的时间方面产生的影响是什么?哪种类型的注释适用于不同的注释器池?哪些类型的注释GUI最适合每个相应的注释器池?注释质量对学习计算机视觉算法的准确性有多重要?现有数据集如CUB-200-2011和ImageNet的质量问题有多重要,以及它对计算机视觉性能有何影响?

我们的贡献总结如下:

    1. 使用新型人群注释器收集高质量,细粒度计算机视觉数据集的方法:公民科学家。
    2. NABirds:由专家策划的555个类别的大型高质量数据集。
    3. Merlin Photo ID:一种公开可用的鸟类分类工具。
    4. 详细分析了MTurkers,公民科学家和专家对细粒度类别和部分注释的注释质量,时间,成本和吞吐量。
    5. 分析流行数据集CUB-200和ImageNet的注释质量。
    6. 对训练最先进的计算机视觉算法进行分类时注释质量影响的实证分析。

我们发现的高度总结是:a)公民科学家在细粒度鸟类注释中的错误率比MTurkers低2-4倍,同时更快地注释图像并且零成本。超过500名公民科学家在我们的数据集中注释了图像——如果我们可以扩展到鸟类的范围之外,那么可能的公民科学家注释者的数量巨大。b)用于可视化和操作完整数据集的基于屏即使将10个MTurkers 的答案平均在一起, MTurkers 在37种鸟类分类中的错误率也超过30%。d)Flickr搜索结果的一般高质量(搜索特定物种时准确度为84%)极大地减轻了MTurkers在收集细粒度数据集时的错误。e)在收集部分位置注释时,MTurkers与公民科学家一样准确和快速。f)与公民科学家相比,MTurkers收集注释的吞吐量更快;然而,使用公民科学家,在大约1周内在像鸟类这样的领域中注释大约10万个图像的数据集仍然是现实的。 g)CUB-200-2011和ImageNet中至少有4%的图像具有不正确的类标签,以及许多其他问题,包括分类结构的不一致性,选择图像的偏差以及是否存在重复图像。h)尽管存在这些问题,但这些数据集对于计算机视觉研究仍然有效;当训练具有损坏标签的基于CNN的计算机视觉算法时,由此导致的测试错误的增加惊人地低并且显著低于损坏水平。i)结果(a),(d)和(h)的结果是,在未经过滤的Flickr搜索结果(没有注释)上训练计算机视觉算法通常可以胜过在通过MTurker多数投票过滤时训练的算法。

相关工作

使用Mechanical Turk进行众包:亚马逊的Mechanical Turk(AMT)一直是一个非常宝贵的工具,它使研究人员能够收集比以前更大尺寸和范围的数据集[31, 6, 20]。AMT可以轻松地将简单的注释任务外包给大量工作人员。虽然这些工作人员通常都是非专家,但对于许多任务,已经证明多个非专业工作人员重复标记示例可以生成高质量的标签[30, 37, 14]。细粒度类别的注释是一个可能的反例,其中平均注释器可能几乎没有以往的经验来对细粒度标签进行合理的猜测。 例如,普通工人对“Semipalmated Plover”的鸟类类型几乎没有经验,并且她提供有用猜测的能力在很大程度上取决于数据集收集器提供有用指令或说明性示例。由于我们的目标是收集数千个类的数据集,因此为每个类别生成高质量的指令是很困难或不可行的。

具有专业知识估算的众包:一个可能的解决方案是尝试自动识别那些对细粒度分类分类有足够专业知识的人的子集 [36,38,28,22]。尽管这些模型很有前途,但似乎具有特定细粒度领域专业知识的Mechanical Turkers 的子集可能足够小,使得这些方法不切实际或具有挑战性。

有目的的游戏:具有目的的游戏目标是通过构建注释任务而激励的工人群,这些注释任务也提供一些娱乐价值。著名的例子包括 ESP Game [33], reCAPTCHA [34], and BubbleBank [7]。对我们工作的部分启发是Quizz [13], 一个利用Google AdWords帮助查找和招聘具有适用专业知识的员工的新的,更大的未付费注释人群的系统。2 有目的的游戏限制是他们需要一些艺术性。

公民科学:维基百科的成功是我们工作的另一个主要灵感,公民科学家已经合作创建了一个大型,高质量的基于网络的百科全书。研究表明,公民科学家受到利他主义,社区意识和互惠的激励[18, 26, 39],这种激励措施可以带来比金钱激励更高质量的工作[11]。

数据集:数据集构建加速了对象识别的进展。这些进步既得益于每个数据集的发布和可用性,也受到后续竞争的推动。对象识别中的关键数据集/竞争包括Caltech-101 [9], Caltech-256 [12], Pascal VOC [8]和 ImageNet/ILSVRC [6,29]。

细粒度物体识别也不例外。各个领域已经引入了数据集,包括Birds(CUB-200 [35]并且最近

宣布了Birdsnap [2]数据集),鲜花[25, 1], 小狗和猫[15, 27, 21],石蝇[24],蝴蝶[19]和鱼[4]以及飞机等人造领域[23], 汽车 [16]和鞋子[3]。

3.与公民科学家共享众包

分类群的爱好者群体是未开发的劳动力和视力研究人员的合作伙伴。构成这些社区的个人往往对分类群非常了解。即使那些新手也会以激情和奉献精神弥补他们缺乏知识。这些特征使这些社区成为与典型的付费群体工作者截然不同的劳动力。在构建大型,细粒度的数据集时,可以利用这些数据集来精确准备图像,这对于付费人群工作人员来说是非常昂贵的,请参阅章节5. 由于分类群社区对数据集的构建有直接影响,因此可以获得共同利益。他们知道他们的分类和他们的社区,比视觉研究人员更好,因此他们可以确保最终的数据集用于解决现实世界的问题。

必须先与这些社区建立连接才能使用它们。我们与康奈尔鸟类学实验室的鸟类学家一起建立了NABirds。鸟类学实验室提供了一个完美的渠道,可以进入围绕鸟类的大型公民科学家社区。我们在鸟类学实验室的合作伙伴描述了观鸟社区,或者许多其他的分类群落,可以分成几个不同的群体,每个群体都有自己的特殊利益。我们构建了自定义工具以利用每个细分市场。

3.1.专家

专家是社区的专业人士,我们在鸟类学实验室的合作伙伴担任这一角色。图片4 是一个专家管理工具的例子(Vibe3)旨在让专家用户快速有效地策划图像并操纵大

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[439585],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。