组织越来越多地利用机器学习模型来分配稀缺资源或机会。例如,此类模型可以帮助公司筛选简历以选择面试候选人,或帮助医院根据肾移植患者的存活可能性对其进行排名。
在部署模型时,用户通常会努力通过减少偏差来确保其预测的公平性。这通常涉及一些技术,例如调整模型用于做出决策的特征或校准其生成的分数。
然而,麻省理工学院和东北大学的研究人员认为,这些公平方法不足以解决结构性不公正和固有的不确定性。在一篇发布到arXiv预印本服务器的新论文中,他们展示了如何以结构化的方式随机化模型的决策可以在某些情况下提高公平性。
例如,如果多家公司使用相同的机器学习模型来确定性地对面试候选人进行排名(不进行任何随机化),那么一个值得的人可能会成为每份工作排名垫底的候选人,这可能是由于该模型如何权衡在线表格中提供的答案。在模型的决策中引入随机化可以防止一个值得的人或群体总是被剥夺稀缺资源,比如面试机会。
通过分析,研究人员发现,当模型的决策涉及不确定性或同一组人持续收到负面决策时,随机化尤其有益。
他们提出了一个框架,可以通过加权抽签分配资源,将一定程度的随机性引入模型决策中。这种方法可以根据个人情况进行调整,既能提高公平性,又不会损害模型的效率或准确性。
“即使你能做出公平的预测,你是否应该严格根据分数或排名来决定这些稀缺资源或机会的社会分配?随着事物规模的扩大,我们看到越来越多的机会由这些算法决定,这些分数中固有的不确定性可能会被放大。我们表明,公平可能需要某种随机化,”数据、系统和社会研究所 (IDSS) 的研究生、论文的主要作者 Shomik Jain 说。
与 Jain 共同撰写这篇论文的还有东北大学哲学与计算机科学助理教授 Kathleen Creel;以及资深作者 Ashia Wilson,电气工程与计算机科学系 Lister Brothers 职业发展教授,信息与决策系统实验室 (LIDS) 首席研究员。这项研究将于7 月 21 日至 27 日在奥地利维也纳举行的国际机器学习会议 ( ICML 2024 ) 上发表。
考虑索赔
这项研究以之前的一篇论文为基础,该论文中研究人员探讨了大规模使用确定性系统可能产生的危害。他们发现,使用机器学习模型来确定性地分配资源可能会放大训练数据中存在的不平等,从而加剧偏见和系统性不平等。
“随机化是统计学中一个非常有用的概念,令我们高兴的是,它满足了从系统和个体角度出发的公平性要求,”威尔逊说。
在本文中,他们探讨了随机化何时可以提高公平性的问题。他们的分析以哲学家约翰·布鲁姆 (John Broome) 的思想为框架,后者曾写过一篇关于使用彩票以尊重个人所有要求的方式奖励稀缺资源的价值的文章。
一个人对稀缺资源(如肾脏移植)的索取可能源于功绩、应得或需要。例如,每个人都有生存的权利,而他们对肾脏移植的索取可能源于这一权利,威尔逊解释道。
“当你承认人们对这些稀缺资源有不同的要求时,公平就要求我们尊重每个人的要求。如果我们总是把资源给予要求更强的人,这公平吗?”贾恩说。
这种确定性分配可能会导致系统性排斥或加剧模式化不平等,当获得一次分配会增加个人获得未来分配的可能性时,就会发生这种情况。此外,机器学习模型可能会出错,而确定性方法可能会导致同样的错误重复发生。
随机化可以克服这些问题,但这并不意味着模型做出的所有决策都应该同等随机化。
结构化随机化
研究人员使用加权抽签来根据模型决策中涉及的不确定性程度调整随机化程度。不确定性较低的决策应该包含更多的随机性。
“在肾脏分配方面,通常计划是根据预期寿命进行的,而这具有很大的不确定性。如果两个病人的年龄只相差 5 岁,那么衡量起来就困难得多。我们希望利用这种不确定性来定制随机化,”威尔逊说。
研究人员使用统计不确定性量化方法来确定不同情况下需要多少随机化。他们表明,经过校准的随机化可以为个人带来更公平的结果,而不会显著影响模型的效用或有效性。
威尔逊说:“总体效用和尊重获得稀缺资源的个人的权利之间需要取得平衡,但很多时候这种权衡相对较小。”
然而,研究人员强调,在某些情况下,随机决策并不会提高公平性,而且可能会伤害个人,例如在刑事司法环境中。
但随机化可能在其他领域也能提高公平性,比如大学录取,研究人员计划在未来的工作中研究其他用例。他们还想探索随机化如何影响竞争或价格等其他因素,以及如何使用它来提高机器学习模型的稳健性。
“我们希望我们的论文能够成为说明随机化可能带来好处的第一步。我们提供随机化作为一种工具。你想在多大程度上做到这一点将由分配中的所有利益相关者决定。当然,他们如何决定是另一个研究问题,”威尔逊说。