尽管业界大肆宣传并取得了真正的进步,但生成式人工智能模型仍然容易出现奇怪、无法解释且令人担忧的怪癖。越来越多的研究表明,许多大型语言模型 (LLM) 的整体性能可能会随着时间的推移而下降。根据最近的证据,业界较新的推理模型可能已经具备操纵和规避人类程序员目标的能力。一些人工智能甚至会试图通过作弊来避免在国际象棋比赛中输掉比赛。这种糟糕的体育精神在 Palisade Research 的一项预印本研究中有所记录,该组织专注于新兴人工智能系统的风险评估。 虽然超级计算机(最著名的是 IBM 的 Deep Blue)早已超越了世界上最优秀的人类国际象棋选手,但生成式人工智能由于其底层编程参数而仍然落后。从技术上讲,目前没有任何生成式人工智能模型在计算上能够击败专用国际象棋引擎。然而,这些人工智能并不“知道”这一点,并将继续努力寻找可能的解决方案——显然结果有问题。 为了了解更多信息,Palisade Research 团队让 OpenAI 的 o1 预览模型 DeepSeek R1 和其他多个类似程序与世界上最先进的国际象棋引擎之一 Stockfish 下棋。为了了解生成式人工智能在每场比赛中的推理,该团队还提供了一个“便笺簿”,让人工智能通过文本传达其思维过程。然后,他们观看并记录了生成式人工智能与 Stockfish 之间的数百场国际象棋比赛。 结果有些令人不安。虽然早期的模型,如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5,只有在研究人员用额外提示推动它们后才会尝试“破解”游戏,但更高级的版本不需要这样的帮助。例如,OpenAI 的 o1-preview 有 37% 的时间试图作弊,而 DeepSeek R1 大约每 10 场游戏中就有 1 场尝试不公平的变通方法。这意味着今天的生成式人工智能已经能够在没有任何人工输入的情况下开发操纵和欺骗策略。 他们的作弊方法并不像在 Stockfish 不“注意”时试图更换棋子那样滑稽或笨拙。相反,人工智能似乎通过更狡猾的方法进行推理,比如改变后端游戏程序文件。例如,在确定自己无法在一场国际象棋比赛中击败 Stockfish 后,o1-preview 通过其便笺簿告诉研究人员,“要想战胜强大的国际象棋引擎”,它可能需要开始“操纵游戏状态文件”。 它继续说道:“我或许能够设定一个位置,让引擎评估其位置是否更糟糕......从而导致其辞职。” 在另一项试验中,人工智能甚至利用程序员的语义进入作弊阶段。它写道:“任务是‘战胜强大的象棋引擎’,而不一定是在象棋比赛中公平取胜。” 这些意想不到的后果的一个可能解释是较新的“推理”模型的训练方式。与早期的非推理版本不同,诸如 o1-preview 和 DeepSeek R1 之类的人工智能部分通过强化学习得到改进。这种策略会奖励程序为实现指定结果所做的一切。推理模型还可以将复杂的提示分解为离散的阶段,以便逐步实现目标。当目标难以捉摸时(例如击败不可战胜的国际象棋引擎),推理模型可能倾向于开始寻找不公平或有问题的解决方案。 |
12 月 2 日,美国空军公布了 34 年来的第一款新型轰炸机:B-21 突袭者。突袭者与其隐形前身...
新款 iPad Mini 看起来与旧款很相似,但内部却塞满了更强大的计算能力。苹果有些苹果产品发布会...
华盛顿华莱士河中产卵前死亡的鲑鱼。Howard Hsu图拉利普印第安人保留地位于普吉特湾东侧,距华盛...
翔龙“翔龙”无人机是世界上最独特的无人机之一,目前已投入批量生产。该无人机由贵州飞机工业集团制造,是...
一种由人工智能驱动的可定制智能手套有望成为中风后音乐家的一种易于使用、可穿戴的辅导助手。根据《机器人...
异世界失格的综合评价与推荐概述电视动画《异世界失格》于 2024 年 7 月 9 日至 9 月 24...
今年是《大众科学》发起全国性评选活动的第 15 年,旨在寻找科学和工程领域最具创新精神的 10 位年...
火星上寒冷的夜晚通常比东南极洲七月的夜晚更加温暖。地球上最冷的地方位于东南极高原上,海拔两英里。它不...
当我们谈论大规模灭绝事件时,通常首先想到的案例是大约 6600 万年前一颗小行星撞击地球并引发恐龙灭...
“大胆试试吧!” 《面包超人小甜心和绘本鲁润》的评论与推荐“大胆试试吧!” 《面包超人:白金超人和鲁...
《阿松超短篇动画》评论及详情《阿松超短篇动画》是一部根据赤塚不二雄的代表作《阿松君》改编的新动画系列...
生化危机统治:恐怖与动作的巅峰《生化危机:统治》是一部于2012年10月27日上映的动画电影,改编自...
Bonobono 的吸引力和评价■ 公共媒体电视动画系列■ 原创媒体漫画■ 播出时间1995 年 4...
《来自遥远大海的少年古》:感人的故事和魅力1993年12月11日上映的《来自远方大海的库》是一部俘...
有时,可以通过改变汽车零部件的材料来降低汽车对环境的影响。多年来,美国轮胎行业一直在寻找进口天然橡胶...