加州大学圣巴巴拉分校电气与计算机工程系助理教授Haewon Jeong在哈佛大学担任博士后研究员期间,经历了学术生涯中的关键时刻。她正在研究机器学习 (ML) 模型如何在教育相关应用中歧视学生。
郑海元。
当用于训练算法的模型做出错误预测,从而系统性地使一群人处于不利地位时,就会发生歧视或偏见。机器学习模型中的偏见可能导致不准确或不公平的预测,这可能会在医疗保健、金融和刑事司法等领域造成严重后果。
例如,一个依赖于反映系统性社会和经济不平等的历史数据的不公平模型可能会导致女性的抵押贷款申请被拒绝的次数比男性多,或者白人患者被检测到患有皮肤癌的次数比黑人患者多,而黑人患者可能会被拒绝治疗。
“我正在处理我的合作伙伴收集的与教育相关的数据集,我意识到有很多数据缺失,”Jeong 回忆道。
由于担心数据偏差的增加,她搜索了有关如何在用新值替换缺失条目时避免增加更多偏差的研究论文(这一过程称为 插补)。就在那时,她有了惊人的发现。
“之前没有人研究过归因的公平性,这令人惊讶,因为缺失数据是现实世界中普遍存在的问题,”她说。“当时几乎所有的研究都围绕着开发更好的训练算法来消除偏见,但很少有人考虑解决数据收集过程中出现的偏见。”
这一认识为 Jeong 的新方法提供了框架,该方法用于识别和缓解人工智能系统所带来的不断变化的道德挑战,并启动了她的研究,即数据准备流程中的各个步骤如何引入偏见或公平性。
“我们这个领域的人们会说,‘输入坏数据,输出坏算法。输入有偏差的数据,输出有偏差的算法’,”Jeong 说道,“但我提出,如果我们专注于清理坏数据,我们就可以从一开始就减少偏差。”
为了证明她所提议的研究具有潜在影响力,美国国家科学基金会 (NSF) 授予郑教授“早期职业奖”,这是该联邦机构授予初级教师的最高荣誉。她表示,这笔为期五年、金额为 55.8 万美元的资助为她的研究小组和她本人提供了巨大的推动力。
“我很荣幸也很激动,”郑说。“这个奖项让我更加确信我的研究方向是有意义的,并得到了 NSF 的支持。”
她的项目“从肮脏数据到公平预测:端到端公平机器学习的数据准备框架”旨在将数据准备流程作为消除不必要偏见和支持理想道德目标的战略机会。Jeong 说,通常情况下,数据是“肮脏的”——缺少值和条目,包括需要标准化的不同格式。准备或清理数据需要许多步骤,而潜在的差异可能会在此过程中编码出严重的不准确性。为了在流程早期减轻偏见,Jeong 提出了一个三步流程来插入公平性,即解决缺失值、编码数据和平衡数据。
“目前,人工智能算法从示例中学习,算法干预只能在给定数据的情况下发挥有限作用,”在卡内基梅隆大学获得电子与计算机工程博士学位的 Jeong 说道。“我认为,为算法提供更好的示例和数据将带来更公平、更符合道德的学习。”
数据集中经常会存在缺失值。例如,在进行调查时,有些问题没有得到完整回答或留空。在将任何数据集输入 ML 算法之前,研究人员有两种处理缺失数据的主要方法:他们可以排除包含缺失数据的条目,或者他们可以根据其他可用信息用估计值填充缺失数据。Jeong 之前的研究表明,这两种方法都显著增加了偏差。她是第一位发表论文 呼吁 关注这一问题的研究人员。
“在那篇论文中,我们提出了一种简单的算法来处理通过归纳法产生的偏差,但效率不高,”她说。“在这个项目中,我想更深入地研究这个问题,以调查是否有更有效的方法来进行数据归纳,同时考虑公平性。”
她将讨论的第二个主题是数据 编码, 即将原始数据转换为算法可以读取和解释的数字格式的过程。回到调查示例,一些答案的范围可能是 0 到 5,而其他答案则包括文本字段。数据编码涉及将单词转换为数字。编码还使计算机能够处理和传输非数字信息,例如文本、音频和视频。
“我们已经知道文本编码过程会导致性别偏见并延续社会刻板印象,但尚不清楚这些偏见如何通过后续步骤传播,”Jeong 解释说,她将依靠她在信息理论方面的培训来解决数据编码问题。“通过从信息论的角度来看待它,我们希望开发一种更公平的算法来保留有用的信息并抑制与偏见相关的信息。”
第三步涉及在 平衡 数据时提高公平性,即确保 ML 数据集代表其来源的真实世界人群的过程。不同组之间的观察值数量不均会严重影响 ML 模型的预测性能和公平性。这一特定重点是由 Jeong 担任博士后研究员时进行的一项教育数据实验推动的。
在项目中,她将学生分为黑人/西班牙裔/美洲原住民 (BHN) 和白人/亚裔 (WA)。数据不平衡,大多数学生属于 WA 组。为了寻找平衡数据和减轻偏见的最佳方法,Jeong 改变了训练集中各组的比例,同时保持集合的大小不变。通过将训练集中 BHN 学生数据的百分比从零到百分之百不等,她有了惊人的发现。
“人们可能直觉地认为,五五开或符合国家人口统计数据的组合会产生最公平的模型,但事实并非如此,”她解释道。“我们发现,当我们在集合中包含更多来自多数群体的数据点,而较少来自少数群体的数据点时,公平性会提高最多。”
作为 NSF 项目的一部分,Jeong 希望探索导致违反直觉的结果的原因,并为数据科学家制定最佳人口统计组合的指导方针。她认为,数据中的噪声量对如何平衡数据起着重要作用。这里的噪声是指数据中的不准确性,例如人们没有如实回答调查问卷、给出错误答案或语言障碍造成的问题。Jeong 假设,最公平、偏差最小的混合包含更多来自噪声水平最低的群体的数据。
Jeong 希望通过新颖的三管齐下的方法来解决现实世界的数据集问题,为公平公正的机器学习制定数据准备指南和最佳实践。鉴于机器学习和人工智能在社会几乎每个领域的应用都在激增,她相信她的工作具有重大的现实意义。
“数据和计算机科学家希望人工智能能够体现和促进公平和多样性等基本社会价值观,而不是刻板印象,”Jeong 说道。“消除不必要的偏见并在数据准备流程中插入道德目标可以实现这一点。”
Jeong 项目的最终目标是开发一个软件库,任何数据科学家或 AI 开发人员都可以使用它来准备公平性数据。该库将包括她团队的公平归因方法、偏差流测量工具包和算法。
Jeong 还提出了一项教育议程,优先吸引和留住有才华的女学生研究人工智能。研究表明,只有 12% 的人工智能研究人员和 6% 的人工智能专业软件开发人员是女性。Jeong 计划设计和主持“女孩人工智能训练营”,该训练营将专门为吸引女高中生而量身定制,并向她们介绍计算机科学和人工智能领域令人兴奋的可能性。
“我亲身体验过作为该领域少数群体所面临的挑战,我个人致力于缩小性别差距,”郑说。“我不仅想激起女高中生的兴趣,还想让她们充满自信,相信她们可以成为人工智能和计算机科学领域的领先创新者。”