一种评估公民科学志愿者地理信息质量的语言决策方法外文翻译资料

 2022-05-16 09:05

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


一种评估公民科学志愿者地理信息质量的语言决策方法

本文分析了在公民科学中使用自愿地理信息(VGI)所带来的挑战和问题,并提出了一个基于语言决策方法评估VGI质量的建议,以便将其用于科学目的。
VGI质量由不同粒度级别的指标表示,这些指标考虑了VGI项目的不同组成部分。质量指标既代表外在质量,又取决于信息来源的特点和声誉;内在质量取决于信息的准确性和准确性;最后但并非最不重要的是,务实的质量,取决于用户的需求和预期的目的。为了评估VGI项目的语用质量,定义了一种语言决策制定方法,允许用户根据满足使用两种语言术语表达的不同标准对VGI项目进行排序和最终过滤,从而定义软约束不同的质量指标和语言聚合器,定义模糊运算符,将不同层级的软约束满意度结合起来,得到VGI项目的最终满意度。最后,讨论冰川公民科学项目质量评估的一个例子。

“公众科学”已被创造出来,表明项目的活动不能仅由科学团队完成,但需要大量志愿公民的帮助才能完成一些任务[23]。
在大多数公民科学项目中,志愿者被要求提供各种形式和各种性质的信息,例如文字笔记,图片,关于感兴趣对象的措施。信息的一个共同维度是地理图形,也称为志愿者地理信息(VGI)[19]:VGI项目是描述感兴趣的实体的信息单元,该实体或者具有地球上的位置,或者具有在给定的位置观察到。例如,在旅游应用中,感兴趣的实体可能是博物馆,餐馆,酒店,并且VGI项目被称为兴趣点(POI)。在本文中讨论的冰川监测应用中,VGI项目是一个信息单位,由志愿者创建的图片组成,可以让冰川学家监测冰川范围的时间变化[11]。
志愿者对科学的贡献并不新鲜。在博物馆里有数以亿计的植物和动物,这些植物和动物多年来一直是由志愿者收集的。公众科学的改变表现在VGI数据质量以及实时性的急剧增加,这也使得用VGI监督处理成为可能,因而也对科学有着性的挑战。

尽管如此,许多研究人员对VGI的可用性至关重要,因为它具有不同的质量。为了将VGI用于科学研究,有必要分析其质量退化的可能原因,并制定或采用相关政策来规范和限制志愿者输入的数据,以尽量减少可能产生的弱VGI项目特征化通过错误,模糊性,不完整性和不准确性以及确定允许用户根据其研究活动的目的评估VGI项目的期望质量的机制。
实际上,VGI质量评估意味着考虑几个因素,这两个因素都与VGI项目的内容有关,取决于信息来源的特征和声誉,即志愿者的难以精确量化的特征和声誉;内在因素,取决于VGI的内容,它们对于文本笔记,图像,测量等可能具有不同的准确度和精确度;最后但并非最不重要的是,取决于VGI在项目中的主要目的的实用因素,因此可以根据用户需求和期望在项目之间以及同一项目中变化。
例如,eBird项目(http://ebird.org/content/ebird/)强烈强调需要北美志愿者观察到的鸟类物种分类的高准确性,并声明“仅有数据库与其最弱的记录一样好“。因此,如果发现一个单一的VGI项目不够准确,那么由同一个志愿者创建的所有VGI项目都被认为是有问题的。
在冰川学项目[11]中,目标仅仅是保留提供靠近历史观测站的冰川清晰图像的VGI项目。
根据项目目标的不同,对VGI项目进行过滤的标准通常用语言表达,例如非常整齐,紧密,其意义是主观的。然后,需要应用一个能够处理选择标准的主观性的决策过程,决策者在语言上表达决定,首先对备选方案即VGI项目进行排序,然后过滤满足标准达到最低接受程度。
这就是激励我们提出的建议,即定义一个语言多标准决策过程,以允许项目协调员(更一般地称为用户)在语言表达的多个不同标准的基础上灵活地过滤VGI项目。这是用模糊集理论模拟的,它通过调用模糊决策中定义的方法和模糊数据库来评估灵活的查询[6,9,18,40]。
为此,VGI质量首先由具有不同粒度的指标以及考虑VGI项目的不同组成部分来表示。然后每个VGI项目与包含质量指标的元数据相关联。最后,元数据可供用户灵活地查询。
在本文中,我们首先回顾了公民科学项目的不同类型以及他们处理的信息质量的期望;在第2节中,我们总结了在公民科学项目中处理VGI质量的主要方法;在第3节中,我们为VGI组件提出了不同的质量指标,并在第4节中将质量评估定义为语言决策过程,该过程通过对数据库使用语言术语的灵活查询进行评估。最后,我们在冰川公民科学项目的背景下讨论一个应用实例[11]。
随着多媒体Web和Web 2的推广以及在因特网上获取和发布地理参考自由文本和数据,图像和视频的便利性,依靠志愿者公民进行科学研究已经变得可行,同时也通过众包应用程序如谷歌地球,Flickr,亚马逊土耳其机器人等。对于这种主题的兴趣可以通过越来越多的科学计划来证明,这些科学计划旨在收集和组织志愿者的经验,这些志愿者渴望帮助科学项目。
为了理解志愿者信息质量的特点和科学家对贡献质量的期望,我们从不同的角度分析了公民科学项目[5]。
除了决定数据格式重大选择的应用领域(涉及标准和词汇)之外,影响信息质量和科学家期望的第一个关键方面与VGI的需求有关。
严格地说,VGI的目的是作为地理信息的相关信息,比如在开放街道地图(http://www.openstreetmap.org/),开放地理数据(OGD)和开放地址(OA)项目中收集的信息[ 32],其目的是由志愿者在中央数据库中收集地理编码地址,以及旨在提供人群源地理地名索引的Wikimapia项目(http://wikima-pia.org/),其中所有数据都可以免费获得。这些地理公民科学项目需要地理上均匀分布的VGI,具有高度的地理图像准确性。
尽管如此,广义上的VGI还包括其中感兴趣的对象不是地理对象的项目,但是它们的地理参考(地理足迹)是诸如关于对象识别(鸟类,昆虫,植物等)的大多数项目中的相关信息, 。这些项目并不需要他们看到目标区域的精确VGI,但要求准确地解释每个观测的含义,如eBird项目(http://ebird.org/content/ebird/),其中准确度高需要关于观察鸟类的物种。

最后,还有对VGI需求低的公民科学项目:如果提供,它可以给志愿者所要求的信息增加价值,但地理信息的质量不是问题。
影响创建信息质量的另一个方面是志愿者所需的任务以及执行此任务的方式,无论是隐式还是显式,手动还是自动执行[5]。当志愿者提供计算机的计算机时间来执行需要巨大计算成本的过程时,项目负责人需要提供软件来执行和收集详尽的结果,例如许多项目,包括全球变暖研究,行星发现使用BOINC开源软件(http://boinc.berke-ley.edu/)。这些项目需要志愿者的最低限度参与,结果的质量由所使用的软件和硬件来控制。
其他项目需要特定的人类能力,例如在银河动物园项目(http://www.galaxyzoo.org/)中利用vol-unteers对星系形状进行分类的能力以及Phylo项目(http://phylo.cs。 mcgill.ca)通过让志愿者玩游戏来排列由彩色瓷砖代表的核苷酸来解决多个DNA,RNA的比对问题。在这些项目中,信息的质量主要取决于志愿者玩游戏的能力,可以由主持人评估。当志愿者知道他/她的手工贡献的任务和目标时,可以向志愿者询问他/她的能力的自动评估以表示所创建信息的质量,如在Galaxy Zoo项目中。
这些项目要求志愿者通过使用传感器进行一些测量(污染浓度,交通密度等),这些项目大多需要表示所创建信息的质量,以使科学家了解使用测量时所发生的错误。用户可能会被要求根据他们的看法进行简单的定量测量,例如项目:您感觉到了吗?(http://earthquake.usgs.gov/earthquakes/dyfi/),专门收集公民的体验地震或定性推理,就像在Snowwetets(http://snowcore.uwaterloo.ca/snowtweets/)项目中一样,用户只需使用简单的标尺即可简单测量积雪,甚至需要精确的测量需要复杂的传感器,技巧和特定的能力,比如通过简单的智能手机在伦敦进行噪声污染调查的“变更映射”项目(http://www.suscit.org.uk/resources/)以及Safecast项目(http ://blog.safecast.org/),收集了许多先进设备提供的辐射测量,包括各种Geiger,计数器和光谱仪。在这些项目中,测量的质量取决于传感器的准确性,观察条件和志愿者的能力。

只需要评估已加载信息的评估项目,例如要求志愿者对历史考古文化网站进行评估的旅游项目,需要照顾恶意志愿者为了诋毁网站而有意发送的垃圾信息。
最后,这些项目要求志愿者提供补充或情景信息,以丰富或填补馆藏空白,例如邀请公民参与的“丹麦1001故事”项目(http://www.kulturarv.dk/1001fortaellinger/en_GB)通过将故事与时间和地点联系起来,他们自己的关于丹麦历史的故事[29],主要根据其可理解性和完整性来评估贡献的质量。
总而言之,志愿者的特征在确定信息质量方面也很有影响力[22]。一般公民,非常愿意参与以用户为中心的需求,而业余爱好者受到希望为科学作出贡献的动机,都可以提供高质量的信息;专家机构具有最高的可信度,不仅可以向项目负责人提供重要的内容和反馈,还可以通过他们的判断来降低项目和个人贡献者的声誉。因此需要贡献者可靠性的控制机制[25]。
正如前一节所述,公民科学项目处理异构数据。关于异构数据质量的文献很广泛,一项调查见[2,4]。就地理数据质量而言,ISO 19113:2002和ISO 19114:2003标准定义为地理数据质量的合意维度,数据的位置,时间和专题准确性,逻辑一致性,完整性和沿袭。此外,在不考虑网络特征的情况下,不能分析公民科学项目中的信息质量,因为这些项目实质上是利用网络作为将数据从贡献者转移到档案的手段。在这种情况下,由于网络不受控制的特点,值得关注的进一步的质量维度是那些表征可信度的特征[3,24]。
虽然关于空间数据质量的文献是巨大的[16,27],但VGI质量评估的文献最近[20,30]。影响VGI质量的关键点是用户的专业知识和承诺的异质性,导致各种数据结构的各种社交媒体平台的媒体格式,缺乏对用户输入的语法控制数据以及用户生成内容的冗余性和稀疏性。应用了两种主要类型的方法。
事前方法的目标是防止产生低质量的VGI。通过向志愿者提供易于访问资源以便正确创建信息和自动控制数据输入的机制来构成潜在价值:这些资源可以是用于互操作性的元数据标准,受控词汇表,地理地名词典和特定于本体的特定科学领域,甚至具有自动错误检查功能的能力使得更容易采用更好的数据创建实践;。还有在线培训课程,清单配置工具可以提供帮助[10]。通过将注释和图形标题中隐式的地理图形信息转化为明确的坐标,可以应用来自可信来源信息的VGI丰富化[30]。还鼓励使用传感器自动采集数据,以保证标准质量。 GPS坐标采集就是这种情况,它可以确保手动创建的粒度更高。
还要求志愿者在执行任务时对他们的信心(技能,动机和承诺)进行自我评估,这对评估创建信息的可靠性和贡献者的声誉很有用。对具有特殊技能的志愿者进行认证可以为志愿者提供成就,同时也表明他们对项目的长期承诺,提高志愿者的留存率。
事后处理方法的目标是在VGI质量创建完成后进行清理和改进。在这些方法中,自动学习技术和数据挖掘的应用被认为是有用的,通过识别异常值并去除它们来执行数据验证[25]。此外,冗余VGI的识别和融合可以用来消除重复以及确认VGI项目的质量[13]。这是公民科学项目使用的方法,其目标是管理紧急情况。使用一致的语义信息查找许多VGI项目,即向相同位置或相近位置的相同事件报告注释,可增加这些VGI项目的语义真实性[26]。
另一种方法是基于VGI与来自行政和商业数据集的其他权威信息(如土地覆盖,土地利用)的交叉参考,DEM可用于确认VGI [1]。尽管如此,由于VGI可能比现有最好的权威数据更准确[20],因此基于与参考数据的比较现在很难应用。
另一种方法是前两种方法的混合。它们基于动态评估志愿者的拒绝情况,依赖于他们的数据与其他已存储数据的比较。如果他/她的数据与大部分提交内容相差太多,则参与者的代表会减少。这可以识别恶意志愿者创建垃圾邮件[25]。最后,在参与者人数众多的情况下,VGI质量评估可以采用wiki方法,制作人共同识别和删除不准确的信息。尽管如此,在VGI的情况下,这种方法并不能很好地工作,正如在OpenStreetMap数据研究中报告的那样,发现用户反复对标签进行不同标记[28]。这种方法失败的一个原因是,具有足够本地地理知识的“眼睛”的数量非常小,以致可以进行修正[20]。同时比较VGI和地理数据的理论特征,例如空间位置的几何分布,海岸线的分形维数以及为元数据提供VGI可以提高其质量。
此外,公民科学中VGI质量的一个关键方面是志愿者的参与程度较低,同时产生不完整和稀疏的信息。正如在对三百个公民科学项目进行的分析[36]中,只有少数贡献者输入了许多VGI项目,而大多数贡献者只输入一个或几个项目[20]。通过统计观察可以跟踪每个志愿者的贡献,然后评估他/她的承诺水平和可靠性,这可以提供自动设置他/她输入的VGI项目的信任的方式。
最后,为了对VGI项目的异质性进行建模,已经创造了“拼凑”模式,其中每个拼凑件的准确性以及更新的频率可以由当地需求决定[19,21 ]。假设这种相对范式,VGI质量评估标准可以不同于不同的项目,这取决于所收集信息的类型,向志愿者询问的任务以及信息的创建方式,但也可以随着项目本身而变化空间,志愿者和用户。
这是我们提出的VGI质量评估相对于其实际用途的建议的动机[15],作为决策者决策者是公民科学信息使用者根据他们的需求评估VGI项目质量的用户和期望。用户需求通过对VGI项

全文共19322字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[12296],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。