尽管业界大肆宣传并取得了真正的进步,但生成式人工智能模型仍然容易出现奇怪、无法解释且令人担忧的怪癖。越来越多的研究表明,许多大型语言模型 (LLM) 的整体性能可能会随着时间的推移而下降。根据最近的证据,业界较新的推理模型可能已经具备操纵和规避人类程序员目标的能力。一些人工智能甚至会试图通过作弊来避免在国际象棋比赛中输掉比赛。这种糟糕的体育精神在 Palisade Research 的一项预印本研究中有所记录,该组织专注于新兴人工智能系统的风险评估。 虽然超级计算机(最著名的是 IBM 的 Deep Blue)早已超越了世界上最优秀的人类国际象棋选手,但生成式人工智能由于其底层编程参数而仍然落后。从技术上讲,目前没有任何生成式人工智能模型在计算上能够击败专用国际象棋引擎。然而,这些人工智能并不“知道”这一点,并将继续努力寻找可能的解决方案——显然结果有问题。 为了了解更多信息,Palisade Research 团队让 OpenAI 的 o1 预览模型 DeepSeek R1 和其他多个类似程序与世界上最先进的国际象棋引擎之一 Stockfish 下棋。为了了解生成式人工智能在每场比赛中的推理,该团队还提供了一个“便笺簿”,让人工智能通过文本传达其思维过程。然后,他们观看并记录了生成式人工智能与 Stockfish 之间的数百场国际象棋比赛。 结果有些令人不安。虽然早期的模型,如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5,只有在研究人员用额外提示推动它们后才会尝试“破解”游戏,但更高级的版本不需要这样的帮助。例如,OpenAI 的 o1-preview 有 37% 的时间试图作弊,而 DeepSeek R1 大约每 10 场游戏中就有 1 场尝试不公平的变通方法。这意味着今天的生成式人工智能已经能够在没有任何人工输入的情况下开发操纵和欺骗策略。 他们的作弊方法并不像在 Stockfish 不“注意”时试图更换棋子那样滑稽或笨拙。相反,人工智能似乎通过更狡猾的方法进行推理,比如改变后端游戏程序文件。例如,在确定自己无法在一场国际象棋比赛中击败 Stockfish 后,o1-preview 通过其便笺簿告诉研究人员,“要想战胜强大的国际象棋引擎”,它可能需要开始“操纵游戏状态文件”。 它继续说道:“我或许能够设定一个位置,让引擎评估其位置是否更糟糕......从而导致其辞职。” 在另一项试验中,人工智能甚至利用程序员的语义进入作弊阶段。它写道:“任务是‘战胜强大的象棋引擎’,而不一定是在象棋比赛中公平取胜。” 这些意想不到的后果的一个可能解释是较新的“推理”模型的训练方式。与早期的非推理版本不同,诸如 o1-preview 和 DeepSeek R1 之类的人工智能部分通过强化学习得到改进。这种策略会奖励程序为实现指定结果所做的一切。推理模型还可以将复杂的提示分解为离散的阶段,以便逐步实现目标。当目标难以捉摸时(例如击败不可战胜的国际象棋引擎),推理模型可能倾向于开始寻找不公平或有问题的解决方案。 |
在电子产品部门,很难找到价格在 20 美元左右的像样产品。甚至一个像样的手机壳也要花更多的钱。不过,...
本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听 PopSci 的热门播客,你会得...
《忍者乱太郎》第24季的诉求与评价《忍者乱太郎》是一部长篇动画,改编自宗兵卫天子的原著漫画,自 19...
“铁路交叉口时间”——短暂的时间里蕴藏着青春的辉煌《福祉时间》是 2018 年播出的 12 集电视动...
有时,当动物与捕食者接触时,它们为了求生而做出的最后一搏就是一动不动地躺下或“装死”。但之后会发生什...
自从欧洲人在文艺复兴时期开始饮用香槟酒以来,香槟(或起泡酒,如果不是产自法国北部地区)喝起来总是会发...
《刀剑神域外传 Gun Gale Online II》第 2 集详细评论和综合信息概述《刀剑神域外传...
借助高倍显微镜工具,如今可以以前所未有的高分辨率详细观察多种古老而灭绝的缓步动物(又称“水熊”)。研...
啤酒不仅是人类最喜爱的饮料之一,也是最古老的饮料之一。最近的考古发现将其追溯到 13,000 年前的...
Batz & Terry:青春的辉煌与疯狂的冒险■ 公共媒体剧院■ 原创媒体漫画■ 发布日期...
...
据路透社周日报道,谷歌地图暂时禁用了乌克兰提供实时交通数据和当地目的地繁忙程度概览的工具。谷歌告诉该...
对于很多人来说,旅行意味着新体验,包括品尝各种新食物。从希腊的果仁蜜饼到中国的火锅,从澳大利亚的手工...
虽然今天美国的海牛与佛罗里达州联系更为紧密,但它们的一种亲戚曾经在北美太平洋沿岸的海域中游弋。数百万...
在美国,建筑物是一个巨大的能源负担。约有 7000 万美国家庭和企业燃烧化石燃料用于空间供暖、水暖、...