法院使用算法来帮助确定刑罚,但随机的人也会得到相同的结果

法院使用算法来帮助确定刑罚,但随机的人也会得到相同的结果

有很多事情你不应该交给互联网上的随机人士:船名(参见:Boaty McBoatface)、医疗诊断(参见:Twitter 上所有认为你的感冒是肺炎的人),以及根据人口统计数据预测被定罪的罪犯是否有可能再次犯罪(参见:本报道)。

但根据《科学进展》的一项新研究,我们或许正在这样做。

尽管我们大多数人都生活在无知之中,但算法却影响着我们生活的方方面面。银行贷款、音乐推荐和我们收到的广告通常不是由人类判断决定的,而是由数学方程决定的。这本身并不成问题。处理大量数据并将其浓缩为单一统计数据的能力可以带来积极的影响——Spotify 就是这样每周向所有订阅者推荐音乐的。如果你的新播放列表没有达到预期,那也没什么大不了的。但如果你被判处 10 年监禁而不是 5 年,因为某种算法告诉法官你很可能在不久的将来再次犯罪,那么,这就会更有影响力。

法官通常会在对任何已定罪罪犯的报告中得到累犯分数,分数越高表明该人近期再次犯罪的可能性越大。分数旨在影响法官对某人应服刑多长时间的决定。不太可能再次犯罪的人对社会的威胁较小,因此法官通常会给他们较短的刑期。由于累犯分数感觉公正,因此这些数字可能具有很大的影响力。

自 2000 年以来,出售给全美法院的算法一直在处理这些数据。他们在没有受到太多监督或批评的情况下这样做了,直到ProPublica发布了一项调查,显示某个特定系统对黑人被告存在偏见。这种名为 COMPAS 的算法可以以大致相同的准确度挑选出那些会再次犯罪的人。但它对黑人的猜测错误率大约是其他人的两倍。COMPAS 将一个没有再次犯罪的人错误地标记为“高风险”的概率几乎是这些人的两倍。而且 COMPAS 还错误地将更多“低风险”标签贴在白人罪犯身上,而这些白人罪犯后来犯下了更多的罪行。因此,该系统本质上是妖魔化了黑人罪犯,同时给予白人罪犯以好处。

这正是算法本应从方程式中消除的系统性种族主义,朱莉娅·德雷塞尔在阅读ProPublica 的报道时也这么认为。于是她去见了达特茅斯学院的计算机科学教授汉尼·法里德,当时德雷塞尔是该校的学生。作为计算机科学家,他们认为他们或许可以对此做些什么——甚至可能修复算法。于是他们努力了又努力,但始终未能如愿。

“无论我们做什么,”Farid 解释道,“一切都停留在 55% 的准确率,这很不寻常。通常,当你添加更复杂的数据时,你会期望准确率会上升。但无论 Julia 做什么,我们都陷入了困境。”其他四个试图解决同一问题的团队都得出结论:从数学上讲,算法不可能完全公平。

问题不在于我们的算法(对不起,Horatio),而在于我们的数据。

所以他们尝试了不同的方法。“我们意识到,有一种潜在的假设,即这些算法本质上优于人类的预测,”德雷塞尔说。“但我们找不到任何研究证明这些工具实际上更好。所以我们问自己:人类预测的基准是什么?”两人预感到,人类可以达到与该算法相当接近的准确度。毕竟,它只有 65% 的时间是正确的。

这让德雷塞尔和法里德找到了一个世界各地研究人员都在使用的在线工具:Mechanical Turk,这是亚马逊的一项名字奇怪的服务,它允许科学家设置调查和测试,并向用户付费让他们参与。这是一种轻松的方式,可以接触到一大群基本上随机的人来进行像这样的研究。

完整的 COMPAS 算法使用 137 个特征进行预测。Dressel 和 Farid 的随机人类组只有七个特征:性别、年龄、刑事指控、犯罪程度、非青少年犯罪前科、青少年重罪犯罪和青少年轻罪犯罪。仅基于这些因素,没有给出如何解释数据得出结论的指示,一组 462 人被简单地询问他们是否认为被告在未来两年内可能再次犯罪。他们这样做的准确性和偏见几乎与 COMPAS 算法完全相同。

此外,研究人员发现,他们只需使用 137 个原始因素中的两个因素,就能获得非常接近相同的预测能力:年龄和先前的定罪次数。这两个因素是决定罪犯是否会再次犯罪(或者说,罪犯是否有可能再次犯罪再次被捕和定罪)的最大因素。

累犯率似乎直接衡量了一个人犯罪的可能性,但实际上我们并没有办法衡量违法者的数量。我们只能衡量那些我们抓到的人。以及那些我们选择定罪的人。这就是数据被我们自己的系统偏见所污染的地方。

“说‘我们不把种族因素纳入算法’很容易,”法里德说。“好吧,很好。但还有其他因素可以代表种族。”德雷塞尔解释说,那就是定罪率。“在全国范围内,黑人更有可能有犯罪前科,”她说,“这种差异很可能是造成假阳性和假阴性错误率的原因。”对于任何犯下完全相同罪行的白人和黑人,黑人更有可能被捕、定罪和监禁。

让我们举个例子。两个罪犯,一个白人,一个黑人,犯了同样的罪行,都因此入狱。这两个人在一年后被释放,几个月后又犯了另一起罪行。按照任何合理的定义,两人都是再次犯罪——但黑人更有可能再次被捕、受审和定罪。由于 COMPAS 和在线人类参与者的数据集已经对黑人个体存在偏见,因此这两个预测也会有偏见。

算法存在偏见并不一定意味着它们毫无用处。但德雷塞尔和法里德——就像他们领域中的许多其他人一样——试图警告人们不要太相信这些数字。

“我们担心的是,当你拥有像 COMPAS 这样的黑匣子软件时,它听起来很复杂,很花哨,法官可能不会像我们说‘12 个在线用户认为此人风险很高’那样应用相应的置信度,”Farid 说。“也许我们应该有点担心,我们有多个商业实体向法院出售未经分析的算法。也许像司法部这样的机构应该负责对这些算法进行审查。这似乎是一件合理的事情。”

一种解决方案可能是请有刑事司法经验的人预测累犯率。他们可能比互联网上的随机人员(和 COMPAS)有更好的洞察力。如果真正的专家能够参与进来,帮助修复有缺陷的数据集,Farid 和 Dressel 同意这些算法可能会有其用途。他们说,关键是制作上述算法的公司要对其方法保持透明,并向法庭坦白其存在的局限性和偏见。似乎可以合理地假设,将我们的决定交给数据处理计算机可以使我们免受人类对有色人种的潜在偏见,但事实并非如此。这些算法只是在加倍犯下我们多年来一直在犯的系统性错误,但却以公正的误导性外表来产生结果。

我们完全有可能永远无法很好地预测再犯率。这听起来很明显,但很容易被忘记。“预测未来真的很难,”法里德说,而向该算法添加复杂数据并没有使其更准确,这可能意味着一开始就没有信号可以检测。“如果是这样的话,”他说,“我们应该仔细考虑这样一个事实,即我们根据一些难以预测的事情做出影响人们生活的决定。”

<<:  昨晚密歇根州的巨型火球并未引发地震

>>:  废纸篓大小的核反应堆可以为我们的火星定居点提供动力

推荐阅读

最高法院关于节育的裁决可能会产生连锁反应,影响范围不仅限于意外怀孕

7 月 8 日,最高法院允许雇主以宗教或道德为由拒绝为员工提供避孕保险。 《平价医疗法案》规定雇主必...

上周科技新闻:一个假人去了太空,我们得到了一些新的表情符号

从 SpaceX 火箭发射到 2018 年奥运会开幕,上周确实很容易让人受到启发。但是,当其他人将火...

Roomba 的旗舰吸尘器可以了解你的家并自行清空灰尘——但需要付费

假期结束了,你的家可能会有些破旧——也许地板上有树上的绿色针叶,或者前门附近有泥土。幸运的是,机器人...

如果好奇号火星车在火星上发现生命会发生什么?

在美国宇航局于九月下旬宣布火星上有流水后,许多人想知道好奇号探测器何时会开始通过推特实时发布美国宇航...

Dot Bit Retro - 我自己的蹩脚游戏评论:具有怀旧感和独特魅力的独特游戏体验

《Dot Bit Retro - My Own Crappy Game》:一部融合怀旧与现代的独特短...

0 与 1 之战

就像数字安全领域的许多故事一样,这个故事的起因也只是人为疏忽。2006 年,叙利亚政府的一名高级官员...

iRobot Braava Jet 240 拖地机器人评测

iRobot Braava Jet 240 售价 169 美元。10 包替换海绵售价 8 美元。iR...

大黄蜂在飞行过程中补充碳水化合物

觅食时,大黄蜂经常要做出选择。它们是选择最容易采集的花蜜,还是应该更加努力地采集含糖量更高的花蜜?一...

最省力的护肤程序仍能让你肌肤焕发光彩

护肤可以是日常卫生的简单而必不可少的部分,也可以是让您感觉愉悦的深度个人放松仪式。但是,随着如此多的...

联想 Yoga 9i 评测:变身为出色的二合一设备

多年来,联想为其 Yoga 系列推出了出色的新功能,但尚未找到适合其二合一设备的完美方案。凭借最新的...

可以拯救南极洲的鱼

一种原始捕食者在南极罗斯海黑暗冰冷的水域中巡逻,血液中流淌着抗冻蛋白。南极齿鱼是南大洋的标志,是地球...

《巴别塔 II [新]》的吸引力与评价:现代翻拍的成功与失败

Babel II [新] - Babel Nisei - 综合评测推荐■ 公共媒体电视动画系列■ 原...

《别再这样了!》的魅力与评价:一部动人的古筝曲动画

《停止这声音!》:青春与古筝之声的动人故事“停止这个声音!”是一部于 2019 年播出的电视动画系列...

阿拉斯加航空推出全新电子行李标签,可加快机场登机速度

阿拉斯加航空正在推出一种使用电子行李标签办理行李托运的新方法,并将于今年晚些时候进行试点。使用电子标...

《马克思电台》的号召与评价:深度回顾

“马克思广播电台”:喜剧与社会讽刺的完美结合《马克思广播电台》是一部10集的动画系列,于1995年1...