ChatGPT重大更新：实现双向互动「听、说、看」

日期：2023-09-28 浏览：116 移动：http://lanlanwork.gawce.com/mobile/quote/4155.html

从本质上讲，OpenAI正在为其聊天机器人赋予嘴巴和眼睛。

据悉，OpenAI正在更新ChatGPT，以允许人工智能工具在与用户的交互中做到“看到、听到和对话”本次更新推出后，使ChatGPT能够响应图像，理解口头提示，并使用聊天机器人的新声音与用户进行来回对话。这些变化使ChatGPT功能更加类似于Siri或亚马逊的Alexa，但是与Siri或Alexa不同，ChatGPT不需要唤醒词来进行“召唤”。

总的来说，本次更新使得ChatGPT更具互动性，用户可以拍一张照片并向ChatGPT询问相关问题，不过本次更新并不是全部免费，图像和语音功能将在接下来的几周内，为每月20美元订阅ChatGPT Plus和Enterprise版本用户提供。

OpenAI在公告中表示：“语音和图像为您提供了在生活中使用ChatGPT的更多方式。”“在旅行时拍一张地标的照片，并实时讨论它的有趣之处。当你回到家时，拍下你的冰箱和食品储藏室的照片，以弄清楚晚餐吃什么（并询问后续问题，以便按照食谱步骤制作）。晚餐后，至可以通过拍照、圈出问题集让它来帮助您的孩子解决数学问题。”

“这不仅仅是因为打字很乏味，”OpenAI的产品负责人Joanne Jang在接受采访时告诉记者：“你们现在可以进行双向对话。”

显然随着不断迭代，ChatGPT的功能在逐渐强大。此前福克斯新闻医疗撰稿人Marc Siegel博士在“The Big Money Show”中讨论了ChatGPT在做出医疗决策方面的准确性，结果显示如果ChatGPT扮演医生，成功率达72%，它在前不久甚至帮助一个苦寻良医许久的男孩找到了真实的病因，在全球引起巨大热议。

针对本次的更新，据专业人士称更新后的ChatGPT新语音功能，将由文本转语音模型提供支持，该模型能够从文本和几秒钟的样本语音中生成类似人类的音频。OpenAI还聘请专业配音演员来创作声音，允许ChatGPT以五种不同的声音说话，并利用OpenAI的开源语音识别系统Whisper将口语转录为文本。

不过也有人士指出，新语音技术存在一些风险，例如可能发生欺诈或冒充。OpenAI在声明中表示：“新的语音技术能够从几秒钟的真实语音中生成逼真的合成声音，为许多创造性和可访问性的应用程序打开了大门，然而，这些新功能也带来了新的风险，例如恶意行为者冒充公众人物或实施欺诈的可能性。”针对图像方面，ChatGPT的新的基于视觉的模型能够分析和响应图像，但这种模型也带来了新的挑战，并且该公司“已采取技术措施来显着限制ChatGPT分析和直接能力，因为这些系统应该尊重个人隐私。”

不过针对本次更新，在业内引起讨论的同时，也有不少用户表示“没什么新意和突破”，随着OpenAI开发者大会的日益临近，不知道急于“独立”并在争取创造大额营收的OpenAI又会做出什么样的举措呢。

本文地址：http://lanlanwork.gawce.com/quote/4155.html 阁恬下 http://lanlanwork.gawce.com/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

推荐行业动态

点击排行