ChatGPT 再次进化！新增“看、听、说”三大能力

日期：2023-09-28 浏览：177 移动：http://lanlanwork.gawce.com/mobile/quote/4165.html

图片来源：由无界 AI 生成

太激烈了！昨天?Anthropic?刚刚从谷歌那里拿到?40?亿美元巨额融资，今天?OpenAI?就宣布了?ChatGPT?有史以来最大规模的一次升级。如果说从?ChatGPT?到?GPT-4?是量的提升，那么这次升级就是质的飞跃。曾经只能“写”的?ChatGPT，从此刻起，又有了“看、听、说”三大能力。

这是?OpenAI?对竞争对手?Anthropic?的最直接回应。没有任何预先报道，一切都这么突然。OpenAI?有一次拉开了与竞争对手的差距。

总结这次?ChatGPT?升级：引入新的语音和图像功能。提供一种新的、更直观的界面，允许进行语音对话或向?ChatGPT?展示您正在谈论的内容。

注：这次升级将会在未来两周推送给 ChatGPT plus 和企业版用户。

会说会听的?ChatGPT

你将可以使用语音说给?ChatGPT?听，并获得回复。随时随地与它交谈，让它给你讲故事，回答餐桌上讨论的问题等等。

要开始使用语音功能，可以在移动?App?上的“设置”中选择→“新功能”，然后选择加入语音对话。然后，点击主屏幕右上角的耳机按钮，从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本转语音模型提供支持，能够仅从文本和几秒钟的样本语音中生成类似人类的音频。?OpenAI?与专业配音演员合作创作了每一个声音，还使用了?OpenAI?的开源语音识别系统?Whisper?将您的口语转录为文本。

会看图的 ChatGPT

ChatGPT现在能够看懂图像了。你可以向?ChatGPT?展示一张或多张图像，并向它提出问题。例如，

你的烧烤炉无法启动，你可以把图片拍下来并给?ChatGPT?查看，让它给出无法启动的原因。

或者拍一张冰箱内食品的照片，让ChatGPT?为你制定一份饮食计划。

或者给它一张复杂的图表，让它为你提取数据。

这项图像推理能力有点逆天了，效率瞬间拉满。

这项能力由多模态的?GPT-3.5?和?GPT-4?提供支持。这些模型将其语言推理技能应用于广泛的图像，例如照片、屏幕截图以及包含文本和图像的文档。

为?ChatGPT?添加图像和语音能力是?OpenAI?构建?AGI?的一部分。

新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成语音，为许多创造性和以可访问性为重点的应用打开了大门。然而，这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物的语音或实施欺诈。

因此，OpenAI?目前将生成式语音聊天技术局限于特定用例。这些语音是由与?OpenAI?直接合作的配音演员创建的。另外还有一些其他的合作伙伴，例如，Spotify?正在利用这项技术来试点其语音翻译功能，该功能可以通过播客自己的声音将播客翻译成其他语言，从而帮助播客扩大讲故事的范围。

本文地址：http://lanlanwork.gawce.com/quote/4165.html 阁恬下 http://lanlanwork.gawce.com/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

推荐行业动态

点击排行