人工智能(AI)完全取决于数据集用于训练其基础机器学习(ML)模型。
开发人员根据收集和注释建立ML模型培训数据套。培训数据告知ML模型以对世界进行预测。所以,越好注释数据,预测越好。
但是,当注释数据错误或扭曲时会出现问题:结果不会如预期的那样预测模型将失败。
扭曲的数据可以归因于许多事情。通常,这意味着数据已被标记不正确,包含错误和/或质量差。但是人造的分类决策也会导致失真。它是 ”垃圾进垃圾出“ 情况。
这种条件(数据与最准确的表示形式的差异)称为数据偏差;它可能会对ML模型及其基于AI系统产生灾难性的后果。爱游戏网页入口(另请阅读:AI可以有偏见吗?)
在这里,我们将看看数据偏差的来源,现实世界中的示例以及我们可以采取的措施来消除AI中的偏见。
AI和机器学习中的偏见
如前所述,机器学习(ML)是人工智能(AI)可以帮助系统从经验中学习和改爱游戏网页入口进而无需连续的传统编程。
当将不良数据插入ML系统中时,它将不正确的“事实”输入到有用的信息中。爱游戏网页入口因此,AI中的偏见表示基于机器学习数据的情况分析系统爱游戏网页入口区分特定的人群。这种歧视通常是遵循建立的社会政治偏见的界限,例如(不限于)种族,性别,分配的性别,国籍和年龄。
当一个算法由于ML过程的假设中的错误显示错误的结果。所以,机器学习偏见通常来自负责设计和训练机器学习系统的个人 - 数据偏见来自人类偏见。爱游戏网页入口(另请阅读:AI有一些解释要做)
数据如何损坏机器学习
错误的数据可能会对ML系统产生灾难性影响。爱游戏网页入口数据偏差不正确或缺少数据,数据偏差是可能破坏机器学习系统的关键因素。爱游戏网页入口(另请阅读:机器学习的承诺和陷阱)
现实生活中的例子
很长一段时间以来,机器学习偏见一直是已知风险。实际上,在现实世界中已经发现了机器学习偏见,导致负面后果。这里有三个这样的例子:
1. Compas(用于替代制裁的惩教罪犯管理分析)。
Compas使用机器学习来预测被告将来犯下另一种犯罪的可能性。这是法官用来帮助确定美国几个州和司法管辖区的适当句子的算法。
然而,后来的研究发现,Compas预测基于黑色或白色肤色的暴力犯罪累犯非常不准确,这是拥有Compas的公司提出争议的。这项研究提出了有关使用机器学习算法以及人类缺陷(例如种族歧视)如何导致机器学习缺陷的问题。
2. IBM Watson。
许多批评已经对IBM Watson超级计算机- 特别是关于它对医学的尝试。(另请阅读:前20个AI用例:医疗保健中的人工智能)
“危险” - 持有超级计算机分析数十万医学研究,向医生提供基于研究的建议。但是,确定哪些研究更加积极地偏爱 - 即有利于有缺陷或偏见的研究,这不是该算法的强项之一。这导致了不可靠的数据。
此外,一些抱怨的沃森对美国的诊断和治疗方法有偏见,沃森遇到了理解医生手写处方的问题。
3.声音AI。
在过去的几年中,声音AI无疑变得很受欢迎。人们更喜欢在搜索Google上的任何信息时使用语音搜索功能,而不是传统的文本搜索。
但是,语音AI模型有一个显着的对妇女的偏见。语音识别通常对女性运作不佳。而且这种偏见可能会对用户产生重大影响。例如,一位英语和受过良好教育的女性未能通过使用语音AI的口头技能测试来进行澳大利亚移民。(另请阅读:AI中的女性:通过技术加强性别歧视和刻板印象)
不同的方言还会影响数据集以进行适当的语音识别。这些故障可能会因为数据集和数据分析等错误而发生。但是,有些人推测数据库本身主要包括男性数据,并且缺乏女性和方言声音。
机器学习偏见类型
几个因素会影响机器学习偏见。
以下是一些在机器学习模型中造成偏见的主要情况:
样品偏见
当用来训练算法的数据不能完美地表示模型运行的问题空间时,样本偏差就会发生。换句话说,当数据集未显示模型将在其中运行的环境的现实时,就会发生这种偏差。
一些简单偏见的例子可能是:
算法偏差
当算法偏差发生时发生进行计算的算法启用机器学习计算。
这种偏见与数据无关,并提醒我们“偏见”是超载。
偏见
偏见的偏见,也称为种族偏见,倾向于主导与AI失败有关的头条新闻,因为这通常会影响文化和政治问题。
当培训数据受到人类教练的基本偏见和/或偏见的影响时,就会发生这种偏见。数据科学家必须要求公司确保该算法不会产生常规或偏见输出。(另请阅读:为什么多样性对于质量数据培训AI至关重要)
测量偏差
当观爱游戏网页入口察和/或测量设备发现问题时,就会发生系统的变形。
这种偏见会在特定方向上改变数据。错误的测量结果导致数据畸形。例如,这种偏见发生在图像识别数据集通过一种类型的相机收集训练数据,但是从其他相机收集生产数据。
由于不完美的测量偏差也可能发生注解在项目的数据标签阶段。
排除偏见
当缺少重要的数据点或从所使用的数据中忽略一个重要的数据点时,就会发生排除偏差。这在数据中也很常见预处理阶段。大多数情况下,这是由于删除有价值的数据被错误地认为不重要的原因而发生的。
观察者偏见
当观察者有目的地找到他们期望看到的结果时,观察者也被称为“确认偏差”,就会发生观察者偏见。
当研究人员根据先前研究的主观知识加入一个预先提出的想法的项目时,观察者的偏见可能会发生。当标签者使用其主观知识来控制其标签工作并导致数据不完善时,这也会发生这种情况。(另请阅读:关于机器学习的一些道德问题是什么?)
回想偏见
这是一种测量偏差,在数据标记阶段也很常见。
当不一致的标签标记类似类型的数据时,会发生回忆偏差。这会影响最终结果的准确性。
所有这些类型的偏见意味着AI系统爱游戏网页入口始终包含一些人为错误。
机器学习中的公平性
机器学习中的公平性是指在不受任何外部偏见影响的机器系统中设计或创建算法,并且可以准确地产生预期的结果。爱游戏网页入口
机器学习模型中使用的培训数据集起着关键作用,可以帮助系统正确,完美地运行。爱游戏网页入口(另请阅读:您应该知道的基本机器学习术语)
如何消除机器学习中的偏见
消除机器学习中的数据偏差是一个连续的过程。需要几乎不断清除数据和机器学习偏见,以建立准确,仔细的数据收集过程。
意识和良好的管理可以帮助防止机器学习偏见。那是因为解决数据偏差需要首先决定偏差的发生地点。一旦找到,就可以从系统中删除偏差。爱游戏网页入口(另请阅读:自动化:数据科学和机器学习的未来?)
但是,通常很难理解数据或模型何时偏差。尽管如此,仍可以采取许多步骤来控制这种情况。这些包括:
- 测试和验证以确保机器学习系统结果不会因算法或数据集而产生偏差。爱游戏网页入口
- 确保群体数据科学家和数据标签者是各种各样的。
- 建立严格的准则数据标签期望使数据标记者在注释时有明确的步骤可以遵循。
- 将多个源输入汇总以确保数据多样性。
- 定期分析数据并记录错误,以便您可以尽快解决。
- 从任何领域专家那里获得帮助,以审查收集的数据和注释数据。团队外的某人可能会注意到未经检查的偏见。
- 使用外部资源,例如Google假设什么工具或IBMAI公平360开源工具包,检查和检查ML模型。
- 对数据完美可能趋于偏见的任何项目实施多通注释。
最后的想法
机器需要大量的数据才能学习;准确的注释培训数据与学习算法本身一样重要。
ML模型无法完美运行的一个常见原因是,它们是基于不完美的偏见训练数据而创建的。那么我们如何解决这个问题?
这里有一些建议:
- 培训数据必须是准确且高质量的,以消除偏见。
- 组织必须雇用具有不同成员的技术团队 - 建立模型和创建培训数据。(另请阅读:聪明的人力资源:AI如何改变人才的获取)
- 如果内部系统产生培训数据,则爱游戏网页入口需要找到最全面的数据并使用不同的数据集和指标进行实验。
- 如果外部合作伙伴收集培训数据,则必须招募分布式人群资源以进行数据注释。
- 一旦创建培训数据,必须验证培训数据是否具有任何隐式偏差。