像淑女一样撒谎:图灵测试的深奥而又性别特定的根源

像淑女一样撒谎:图灵测试的深奥而又性别特定的根源

到现在为止,你可能已经听说了图灵测试,这是由数学先驱艾伦·图灵于 1950 年提出的一项古老的机器智能测试,现已通过。在上周末举行的一场比赛中,一个伪装成 13 岁乌克兰男孩的聊天机器人欺骗了三分之一的人类评委,让他们以为它是人类。这促使组织比赛的雷丁大学宣布取得了“人工智能的历史性里程碑”。

你可能还听说过,这完全是一场骗局,在学术上相当于直接在图灵的坟墓上撒尿。图灵设想了一个基准,可以回答“机器能否思考”这个问题,并给出肯定的答案,展示出某种程度的类人认知能力。然而,开发出获胜程序“Eugene Goostman”的研究人员却玩弄了彻头彻尾的诡计。和之前的每个聊天机器人一样,Eugene 回避问题,而不是处理内容并返回真正相关的答案。而且它使用的可能是最卑鄙的伎俩。在两部分的欺骗中,Eugene 蹩脚的英语可以用不是母语人士来解释,而它的愚蠢可以用它是个孩子(无意冒犯,13 岁的孩子)来解释。研究人员没有通过图灵测试,而是玩弄了它。他们并不是第一个——有人认为 Cleverbot 在 2011 年就通过了——但到目前为止,他们是最著名的。

但你可能没有听说过,阿兰·图灵最初提出的测试有多么离奇。与恐怖谷理论一样,图灵测试是一个想法的种子,后来被扭曲并重新解释为科学经典。雷丁大学声称其滑稽的宣传噱头是人工智能研究的一个突破性里程碑,这理应受到嘲笑。但它亵渎的测试也值得仔细审查。

印第安纳大学人机交互副教授卡尔·麦克多曼说:“图灵从未提出过让计算机假装成人类的测试。图灵提出了一个模仿游戏,让男人和计算机比赛假装成女人。在这场比赛中,计算机假装成一个 13 岁的男孩,而不是女人,而且它是在与自己竞争,而不是与男人竞争。”

MacDorman 的分析并非吹毛求疵。它就出现在图灵 1950 年发表于《心灵》杂志的里程碑式论文《计算机与智能》的第二段中。他首先描述了这样一种场景:一名男子和一名女子都试图说服远程、看不见的询问者他们是女性,使用打字回复或通过中间人说话。然而,真正的行动发生在男子被机器取代的时候。图灵问道:“当游戏以这种方式进行时,询问者做出错误决定的次数会不会像游戏在男人和女人之间进行时一样多?”

《模仿游戏》要求计算机不仅模仿有思想的人类,还要模仿特定性别的人类。它避开了创造类人机器智能的巨大障碍,并直接陷入了数学家的噩梦——性别认同这一无边无际、无法量化的泥潭。

想象中的机器需要了解它假装来自的国家的特定社会习俗和刻板印象。它还必须决定它的虚假自我何时诞生。毕竟,那是 1950 年,距离英国女性获得普选权仅过去 22 年。妇女选举权运动的余波仍在继续。那么,机器应该如何假装对这个问题有感而发,无论是作为一定年龄的女性,还是作为在文化重塑之战胜利后出生的学生?

计算机能否实现这一目标似乎非常有趣,而且似乎是人工智能之谜被解决很久之后某个遥远时代的一个绝佳研究问题。但模仿游戏是在数字时代初期提出的一项练习,当时“计算机”一词很容易让人联想到一位为盟军作战计算数字的女性,就像一台能够谈论头发的机器一样。

头发是图灵的例子,不是我的。稍后会详细介绍。

现在你可能想知道为什么我没有转到图灵测试,这肯定是图灵在后来的出版物中提出的模仿游戏的某种澄清、修订版本。但愿如此。图灵于 1954 年去世时,并没有从他的开创性思想实验中去除性别。图灵测试是集体学术善举,以图灵的名字命名,是在图灵去世后才颁发的。随着图灵测试的普及,它被赋予了新的意义和重要性,成为未来人工智能的评判标准。当计算机欺骗人类询问者时,这将是机器感知的第一次真正展现。根据你对科幻小说的了解,这将是庆祝或战争的理由。

在这方面,图灵测试与恐怖谷理论有相似之处,恐怖谷理论也是基于一篇非常古老的论文的假设,该论文也没有提供任何实验结果,并且还猜测了几十年内不可能实现的技术的具体方面。在这篇 1970 年的论文中,机器人专家 Masahiro Mori 想象了一条曲线,随着机器人看起来越来越像人类,对机器人的积极情绪会稳步上升,然后突然下降。在提出的人类模仿水平下,受试者会感到不安,甚至恐惧。最后,当达到某种潜在的完美人类模仿能力时,图表的谷底就会形成,我们不仅喜欢机器人,而且爱它们!

我使用过多的斜体字是为了强调这样一个事实:在 1970 年,恐怖谷理论并不基于与真实机器人的互动。这是一个思想实验。现在它仍然是一个思想实验,很大程度上,因为我们还没有制造出完美的冒名顶替者,相关的学术实验不是依靠机器人,而是依靠静态图像和计算机生成的化身。此外,森喜朗本人从未费心去验证自己的理论,在他渴望地构想出这个理论的 44 年里。(如果这听起来过于苛刻,请阅读由卡尔·麦克多曼共同翻译的论文。它短小而华丽,令人震惊。)相反,他最终写了一本关于机器人如何天生就是佛教徒的书。(再次强调,不要相信我的话。)

然而,尽管 Mori 的论文站不住脚、缺乏证据,而且面对面的机器人互动产生了各种各样的结果,过于复杂,无法用任何一条曲线来概括,但恐怖谷理论仍然被许多人视为事实。为什么不应该这样呢?这听起来合乎逻辑。就像图灵测试一样,它的逻辑和影响都充满诗意,其中涉及到机器人。但无论你如何看待《极地特快》中那些眼神呆滞的卡通画,恐怖谷理论对机器人领域都没有任何价值。它只是垃圾食品科学。

图灵测试也是一个过于简单、经常被错误使用的概念。它最大的遗产是聊天机器人,以及试图美化这些可恶事物的竞赛——通常都以失败告终。但恐怖谷和图灵测试的不同之处在于它们的愿景。正如我们所理解的,以及上周末的活动所证明的,图灵测试是一个空洞的衡量标准。然而,图灵仍然是一个有远见的人。在他奇怪、草率、似乎过度的模仿游戏中,他对人类和人工智能的本质提供了精彩的见解。

谈论你的头发比听起来更聪明。

* * *

图灵在模仿游戏里提出的第一个样题是:“X 能告诉我他或她的头发长度吗?”而一个人类男性的假想答案是:“我的头发是瓦状的,最长的一缕头发大约有九英寸长。”

想想这个回答中发生了什么。主体正在想象(大概)别人的头发,或者从头开始构思一个视觉形象。他还提到了一种特定的发型,而不是简单地描述说后面的头发比较短。

如果机器能够给出类似的答案,那么可能意味着两件事之一。

它的程序员非常擅长编写脚本响应,当它检测到“头发”这个词时,它很幸运。在聊天机器人出现之前,不那么愤世嫉俗的可能性是,计算机能够访问图像,并描述其物理特征及其文化背景。

让性别成为机器智能测试的核心部分仍然让我感到不安,而且这似乎是现代研究人员会严厉批评的那种无关紧要的包含。但图灵寻求的是即时处理数据并汇总多种信息的能力。智能,除其他外,意味着了解长度和颜色等事物,也意味着知道什么是瓦状头发。

模仿游戏的测试方法也比标准版图灵测试更好,因为它涉及比较人类欺骗的能力和机器欺骗的能力。乍一看,这似乎有些疯狂——如果这项测试的目的是让计算机像我们一样思考,谁会在乎它们是否能假装成某种性别呢?然而,模仿游戏的精彩之处在于它是一场比赛。它为程序员设定了一个特定的目标,而不是上演一场开放式的类似人类计算的演示。它要求计算机执行一项人类竞争对手也可能失败的任务。另一方面,图灵测试并不是在真正的比赛中让计算机与人对抗。人类可能会被纳入控制元素,但没有人希望他们在最基本的任务——做人——上失败。

模仿游戏可能仍然容易受到现代聊天机器人技术的攻击。正如“约会”网站上大量调情程序所证实的那样,依靠蹩脚的刻板印象可能是一种出人意料的成功策略,可以暂时欺骗人类。图灵最初的提议并不完美。考虑到它的先进性以及自它被编写以来人工智能的发展,它也不应该是神圣不可侵犯的。但尽管它存在种种问题和混乱的社会文化复杂性,我认为我们用图灵测试取代模仿游戏并没有给图灵带来任何好处。在假装成活生生的女人方面比男人更好是人工智能不可否认的艰难胜利条件。但这是一个更为克制的实验,而不仅仅是模仿半文盲人类躲避聊天室的习惯,并且需要更大的机器认知能力。在最近这一轮令人喘不过气来的公告和应得的强烈反对之后,没有人会在意下一组不假思索的自动回复是否通过了图灵测试。

但如果某种东西在模仿游戏中打败了人类呢?

写到这里我就已经感到浑身发冷。

<<:  人类穿上机器人外骨骼为世界杯开球

>>:  世界杯足球的空气动力学(GIF 格式)

推荐阅读

大猩猩喜欢通过快速旋转来扰乱自己的大脑

人类对致幻植物的实验已经有数千年的历史了。大约公元前 5700 年,欧洲就开始使用鸦片等现代药物,大...

国会正在制定限制使用军用无人机的计划

《国防授权法案》(国会法案授权国防部动用拨款)包含一系列修正案,这些修正案改变了美国军事力量的获取、...

观鸟者大饱眼福:康奈尔大学的 Merlin 应用程序现已成为鸟类识别的一站式商店

去年,随着疫情封锁限制措施在美国实施,新的鸟类爱好者纷纷涌向免费的 Merlin Bird ID 应...

你可以轻松地将你的 iPhone 变成 Mac 麦克风

视频通话如今已成为人们生活的一部分,但如果您的硬件不达标,视频通话可能会成为一场噩梦。您可以使用 U...

计算机和互联网出现之前办公室是什么样的?

有时,在浏览 Reddit(这里充满了令人赞叹的动物照片、讽刺性的图片宏,偶尔还会有现任美国总统的“...

《时间大师》评论:一场永恒的冒险与深刻的主题相结合

“时间大师”——关于拥有控制时间力量的男孩的故事《时之主》是 2017 年播出的电视动画系列,改编自...

单击桌面时阻止 macOS Sonoma 隐藏窗口

Sonoma 是即将推出的 macOS 版本,它有一些非常酷的功能,包括将小部件放在桌面上。但操作系...

经过令人难以置信的努力,“好奇号”火星探测器成功着陆火星

加利福尼亚州帕萨迪纳 — 太空迷们,举杯庆祝吧:美国宇航局的这辆配备激光、武器强大、大小与汽车相当的...

美国宇航局在四月日食期间需要你的智能手机

聆听蟋蟀的声音并不是你帮助 NASA 在 4 月 8 日横跨北美大部分地区的日全食期间开展研究的唯一...

量子网络到底是什么?

虽然目前可以使用 Signal 等应用发送加密信息,但没有哪个系统是完全不可破解的。但有一天,加密可...

Hasbro My3D 护目镜评测:将你的 iPhone 变成 3D 游戏机

3DS 并未垄断移动 3D 游戏市场,尤其是如果 Hasbro 的新款 My3D 眼镜能对此有所评论...

这些有 24 只眼睛的水母会从自己的错误中吸取教训

水母是进化史上不可否认的成功案例,它们在地球海洋中至少存活了 5 亿年。它们甚至能够很好地应对世界某...

海军希望在卡车上安装反无人机激光器

海军正在建造一套卡车系统,该系统将使用激光对抗无人机,他们正以第二季度收益报告的所有刺激和兴奋来宣传...

住院勃起故事:保重! ——这部描写医院生活的感人动画有何魅力?

《医院邦基故事:保重!》的号召与评价“住院的Bonki故事:保重!”于 1991 年 12 月 5...

关于电动汽车你应该知道的 8 件事

未来几周内,第 10 万辆插电式电动汽车将在美国销售但对于一般的新车买家来说,它们仍然大多是一个谜,...