就在昨晚,OpenAI CEO Sam Altman 在推特上发布了一条重要消息,ChatGPT 要推出新功能啦。ChatGPT 现在可以看、听和说话了!
这次 ChatGPT 推出新的语音和图像功能提供了一种新的、更直观的界面类型,允许用户跟它进行语音对话,向 ChatGPT 展示说话内容。
多场景使用 ChatGPT
语音和图像让用户在生活中也可以轻松使用 ChatGPT。比如,旅行时,可以拍摄地标,并就其有趣的内容与 ChatGPT 进行实时对话。在家时,可以通过拍摄冰箱里的食物,来确定晚餐吃什么(或者获取食谱)。晚饭后,通过拍照,圈出问题,来帮助孩子解决数学问题。
未来两周内,语音和图像功能将会首先向 Plus 和企业用户开放。语音功能即将在 iOS 和 Android 上推出(在设置中选择加入),图像功能将在所有平台上提供。
与 ChatGPT 进行有趣对话
现在,可以使用语音助手与 ChatGPT 来回对话。在旅途中与它交谈,为家人安排睡前故事,或解决餐桌辩论。
要开始使用语音助手,可以前往移动应用上的“设置”→“新功能”,然后选择加入语音对话。然后,点击位于主屏幕右上角的耳机按钮,从五种不同的声音中选择你喜欢的声音。
新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的示例语音中生成类似人类的音频。每个声音都是 ChatGPT 与专业配音演员合作创作而成的。他们使用了开源语音识别系统 Whisper 将用户的口语转录为文本。
用图像功能,解决实际问题
你现在可以向 ChatGPT 显示一个或多个图像,用来排查烤箱无法启动的原因、探索冰箱中的食材准备菜谱或分析与工作相关数据的复杂图表。要聚焦图像的特定部分,可以使用移动应用程序中的绘图工具。
开始使用前,请点击照片按钮以捕获或选择图像。如果你使用的是 iOS 或 Android,请先轻点加号按钮。你还可以讨论多个图像或使用绘图工具来指导你的助手。
图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,例如解释复杂的屏幕截图、数据可视化图表、照片和文档。
正在逐步部署图像和语音功能
随着语音和图像功能的推出,随之而来的风险也提醒着 ChatGPT 团队要不断完善缓解风险的措施,为了让用户对未来更强大的系统做好准备,对于涉及语音和视觉的高级模型,ChatGPT 团队提供了一些策略。
OpenAI 的目标是构建安全有益的 AGI。新的语音模型,可以根据几秒钟的样本语音,生成与之相似的人声。这也存在声音被复制去冒充公众人物或实施欺诈的可能性。所以 ChatGPT 团队使用这项技术来支持特定的用例——语音聊天。语音聊天是由直接合作的配音演员创建的。OpenAI 正在与 Spotify 合作,将播客翻译成其他语言,同时保留播客主持人的声音。
为了让视觉既有用又安全,ChatGPT 还与 Be My Eyes 团队合作,确保负责任地使用图片,并在不超越隐私界限的情况下为人们日常生活提供帮助。聊天转录等功能被有意排除在外。
有用户可能依赖 ChatGPT 进行一些研究领域的专业主题。ChatGPT 团队对模型的局限性保持透明,不鼓励在没有适当验证的情况下使用高风险用例。此外,该模型精通转录英文文本,但在其他一些语言中表现不佳,尤其是那些使用非罗马文字的语言。因此他们不建议非英语用户为此目的使用 ChatGPT。
最后,ChatGPT 团队表示,Plus 和企业用户将在未来两周内体验语音和图像功能。在不久之后这些功能将推出给其他用户组,包括开发人员。
本文转自:图灵编辑部,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。
文章来源:https://openai.com/blog/chatgpt-can-now-see-hear-and-speak