OpenAI 重磅更新！ChatGPT 可以直接语音对话和上传图片了！

demi 在周二, 09/26/2023 - 09:35 提交

就在昨晚，OpenAI CEO Sam Altman 在推特上发布了一条重要消息，ChatGPT 要推出新功能啦。ChatGPT 现在可以看、听和说话了！

这次 ChatGPT 推出新的语音和图像功能提供了一种新的、更直观的界面类型，允许用户跟它进行语音对话，向 ChatGPT 展示说话内容。

多场景使用 ChatGPT

语音和图像让用户在生活中也可以轻松使用 ChatGPT。比如，旅行时，可以拍摄地标，并就其有趣的内容与 ChatGPT 进行实时对话。在家时，可以通过拍摄冰箱里的食物，来确定晚餐吃什么（或者获取食谱）。晚饭后，通过拍照，圈出问题，来帮助孩子解决数学问题。

未来两周内，语音和图像功能将会首先向 Plus 和企业用户开放。语音功能即将在 iOS 和 Android 上推出（在设置中选择加入），图像功能将在所有平台上提供。

与 ChatGPT 进行有趣对话

现在，可以使用语音助手与 ChatGPT 来回对话。在旅途中与它交谈，为家人安排睡前故事，或解决餐桌辩论。

要开始使用语音助手，可以前往移动应用上的“设置”→“新功能”，然后选择加入语音对话。然后，点击位于主屏幕右上角的耳机按钮，从五种不同的声音中选择你喜欢的声音。

新的语音功能由新的文本转语音模型提供支持，能够仅从文本和几秒钟的示例语音中生成类似人类的音频。每个声音都是 ChatGPT 与专业配音演员合作创作而成的。他们使用了开源语音识别系统 Whisper 将用户的口语转录为文本。

用图像功能，解决实际问题

你现在可以向 ChatGPT 显示一个或多个图像，用来排查烤箱无法启动的原因、探索冰箱中的食材准备菜谱或分析与工作相关数据的复杂图表。要聚焦图像的特定部分，可以使用移动应用程序中的绘图工具。

开始使用前，请点击照片按钮以捕获或选择图像。如果你使用的是 iOS 或 Android，请先轻点加号按钮。你还可以讨论多个图像或使用绘图工具来指导你的助手。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像，例如解释复杂的屏幕截图、数据可视化图表、照片和文档。

正在逐步部署图像和语音功能

随着语音和图像功能的推出，随之而来的风险也提醒着 ChatGPT 团队要不断完善缓解风险的措施，为了让用户对未来更强大的系统做好准备，对于涉及语音和视觉的高级模型，ChatGPT 团队提供了一些策略。

OpenAI 的目标是构建安全有益的 AGI。新的语音模型，可以根据几秒钟的样本语音，生成与之相似的人声。这也存在声音被复制去冒充公众人物或实施欺诈的可能性。所以 ChatGPT 团队使用这项技术来支持特定的用例——语音聊天。语音聊天是由直接合作的配音演员创建的。OpenAI 正在与 Spotify 合作，将播客翻译成其他语言，同时保留播客主持人的声音。

为了让视觉既有用又安全，ChatGPT 还与 Be My Eyes 团队合作，确保负责任地使用图片，并在不超越隐私界限的情况下为人们日常生活提供帮助。聊天转录等功能被有意排除在外。

有用户可能依赖 ChatGPT 进行一些研究领域的专业主题。ChatGPT 团队对模型的局限性保持透明，不鼓励在没有适当验证的情况下使用高风险用例。此外，该模型精通转录英文文本，但在其他一些语言中表现不佳，尤其是那些使用非罗马文字的语言。因此他们不建议非英语用户为此目的使用 ChatGPT。

最后，ChatGPT 团队表示，Plus 和企业用户将在未来两周内体验语音和图像功能。在不久之后这些功能将推出给其他用户组，包括开发人员。

本文转自：图灵编辑部，转载此文目的在于传递更多信息，版权归原作者所有。如不支持转载，请联系小编demi@eetrend.com删除。
文章来源：https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

伴随生成式AI的发展，2024年将出现十大网络安全风险威胁	ChatGPT研究框架	ChatGPT只是玩具：生成式人工智能的五大行业应用
ChatGPT和生成式AI时代的五大AI风险	Wolfram语言之父：ChatGPT到底能做什么？	ChatGPT的发展历程

OpenAI 重磅更新！ChatGPT 可以直接语音对话和上传图片了！

最新文章

最新文章