ChatGPT 有一个声音,或者说有五个声音。周一,OpenAI 宣布其备受关注、备受争议的大型语言模型 (LLM) 现在可以与用户进行口头交谈,以及解析上传的照片和图像。 在视频演示中,ChatGPT 根据引导提示“给我们讲一个关于一只名叫拉里的超级向日葵刺猬的故事”,即兴为儿童讲了一个睡前故事。然后,ChatGPT 描述了刺猬主角,并提供了有关其家和朋友的详细信息。在另一个例子中,通过 ChatGPT 的智能手机应用程序上传了一张自行车的照片,同时提出了“帮我降低自行车座椅”的请求。然后,ChatGPT 通过用户上传的照片和用户文本输入的组合,提供分步过程和工具推荐。该公司还描述了一些情况,例如 ChatGPT 根据用户冰箱和食品储藏室照片中识别出的食材帮助制作晚餐食谱,谈论照片中看到的地标,并帮助完成数学作业——尽管数字不一定是它的强项。 [相关:学区使用 ChatGPT 帮助删除图书馆书籍。] 据 OpenAI 介绍,最初的五种音频声音基于一种新的文本转语音模型,该模型可以仅通过输入文本和“几秒钟”的样本语音创建逼真的音频。当前的语音选项是在与专业配音演员合作后设计的。 OpenAI 在 9 月 25 日的公告中解释道:“这种方法直接源于我们与 Be My Eyes 的合作,这是一款面向盲人和视力低下的人群的免费移动应用,旨在了解其用途和局限性。”“用户告诉我们,他们发现就背景中恰好包含人物的图像进行一般性对话很有价值,比如当你试图弄清楚遥控器设置时,有人出现在电视上。” 多年来,Siri 和 Alexa 等流行的语音 AI 助手基于特定命令的可编程数据库提供了特定的功能和服务。正如《纽约时报》所指出的,虽然更新和更改这些数据库通常很耗时,但 LLM 替代方案可以更快、更灵活、更细致入微。因此,亚马逊和苹果等公司正在投资改造他们的 AI 助手,以利用他们自己的 LLM。 OpenAI 正在走一条非常狭窄的路,以确保其视觉识别能力尽可能有用,同时尊重第三方的隐私和安全。该公司于今年早些时候首次展示了其视觉识别功能,但表示在更全面地了解其可能被滥用的方式之前不会向公众发布任何版本。OpenAI 表示,鉴于该程序在准确性和隐私方面存在大量问题,其开发人员采取了“技术措施,大大限制了 ChatGPT 分析和直接陈述人的能力”。此外,目前的模型仅“精通”英语任务——它的能力在处理其他语言时会大大降低,尤其是那些使用非罗马文字的语言。 OpenAI 计划在未来两周内推出 ChatGPT 的新音频和视频升级,但仅限于其 Plus 和 Enterprise 计划的高级订阅者。也就是说,这些功能将在“不久之后”向更多用户和开发者开放。 |
<<: 以 200 英里/小时的速度驾驶迈凯伦是一种刺激而危险的体验
科幻小说中关于用电线连接大脑和电脑的情节现在可能已经过时了。无线供电的植入物比一粒米还小,可以作为“...
大多数美国儿童都熟悉棉花糖。这些蓬松、耐嚼的零食在超市里以袋装形式出售,通常用于制作 Rice Kr...
西北大学皮肤病学教授安妮·劳曼博士 (Anne Laumann, MBChB) 表示,这全都与纹身墨...
疫情期间,我听了很多悲伤的音乐,这让 Spotify 的算法知道我喜欢悲伤的音乐。结果就是,Spot...
波波洛克罗伊斯的故事:跨越时空的冒险和友谊故事概述《PopoloCrois Story》是1998年...
我们究竟是怎么走到这一步的?不,不是你脑海中突然冒出的政治、环境或生存危机。我们这个物种是怎么走到今...
IBM 蓝色基因阿贡国家实验室高性能超级计算机可以解决气候科学、航空航天设计、生物医学和粒子物理学中...
中国军用无人机行业已是全球规模最大的行业之一,在 2016 年珠海航展上,该行业得到了全面展示。此次...
说到外观精美、性能卓越的科技产品,苹果似乎总是走在最前沿。从不同的操作系统功能到时尚的 iPhone...
1944 年,美国森林服务局发起了 Smokey Bear 活动,以促进公共和休闲用地的防火。奥本大...
战栗的路西法:起源之歌 - 深入的评论和全面的信息概述《旋律的路西法:唯一的开始之歌》是一部以《怪物...
在植物界,授粉可能是一个非常激烈的过程。来自南非和巴西的一组科学家发现,竞争对手植物可能会相互竞争传...
文件的格式(即文件的保存和编码方式)决定了您可以用它做什么以及哪些程序可以打开它。(您可以通过查看文...
如果您只需要基本功能,则无需花大价钱购买高端无人机。Ninja Dragons Blade X 拥有...
《沙卡的一生》详细评论与推荐概述《佛陀的一生》是1961年上映的一部动画片,改编自已故大藤伸郎生前制...