图片来源:由无界 AI 生成
太激烈了!昨天?Anthropic?刚刚从谷歌那里拿到?40?亿美元巨额融资,今天?OpenAI?就宣布了?ChatGPT?有史以来最大规模的一次升级。如果说从?ChatGPT?到?GPT-4?是量的提升,那么这次升级就是质的飞跃。曾经只能“写”的?ChatGPT,从此刻起,又有了“看、听、说”三大能力。
这是?OpenAI?对竞争对手?Anthropic?的最直接回应。没有任何预先报道,一切都这么突然。OpenAI?有一次拉开了与竞争对手的差距。
总结这次?ChatGPT?升级:引入新的语音和图像功能。提供一种新的、更直观的界面,允许进行语音对话或向?ChatGPT?展示您正在谈论的内容。
注:这次升级将会在未来两周推送给 ChatGPT plus 和企业版用户。
会说会听的?ChatGPT
你将可以使用语音说给?ChatGPT?听,并获得回复。 随时随地与它交谈,让它给你讲故事,回答餐桌上讨论的问题等等。
要开始使用语音功能,可以在移动?App?上的“设置”中选择→“新功能”,然后选择加入语音对话。 然后,点击主屏幕右上角的耳机按钮,从五种不同的声音中选择您喜欢的声音。
新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。?OpenAI?与专业配音演员合作创作了每一个声音,还使用了?OpenAI?的开源语音识别系统?Whisper?将您的口语转录为文本。
会看图的 ChatGPT
ChatGPT现在能够看懂图像了。你可以向?ChatGPT?展示一张或多张图像,并向它提出问题。例如,
你的烧烤炉无法启动,你可以把图片拍下来并给?ChatGPT?查看,让它给出无法启动的原因。
或者拍一张冰箱内食品的照片,让ChatGPT?为你制定一份饮食计划。
或者给它一张复杂的图表,让它为你提取数据。
这项图像推理能力有点逆天了,效率瞬间拉满。
这项能力由多模态的?GPT-3.5?和?GPT-4?提供支持。 这些模型将其语言推理技能应用于广泛的图像,例如照片、屏幕截图以及包含文本和图像的文档。
为?ChatGPT?添加图像和语音能力是?OpenAI?构建?AGI?的一部分。
新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成语音,为许多创造性和以可访问性为重点的应用打开了大门。 然而,这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物的语音或实施欺诈。
因此,OpenAI?目前将生成式语音聊天技术局限于特定用例。 这些语音是由与?OpenAI?直接合作的配音演员创建的。 另外还有一些其他的合作伙伴,例如,Spotify?正在利用这项技术来试点其语音翻译功能,该功能可以通过播客自己的声音将播客翻译成其他语言,从而帮助播客扩大讲故事的范围。
本文地址:http://lanlanwork.gawce.com/quote/4165.html 阁恬下 http://lanlanwork.gawce.com/ , 查看更多