几十年来,人们一直在谈论能够生成类似人类数据的 人工智能 (AI)的承诺。然而, 数据科学家 解决这个问题收效甚微。确定创建此类系统的有效策略提出了从技术到道德以及介于两者之间的各种挑战。然而,生成式人工智能已经成为一个值得关注的亮点。
在最基本的情况下,生成式人工智能使机器能够使用音频文件、文本和图像等元素来生成从语音到写作再到艺术的内容。根据科技投资者红杉资本(Sequoia Capital)的说法,“生成式人工智能不仅变得更快、更便宜,而且在某些情况下比人类手工创造的更好,”根据 Tech Monitor 最近的一次采访。
特别是基于生成语音的机器学习技术的最新进展取得了长足的进步,但我们还有很长的路要走。事实上,语音压缩——发生在我们严重依赖的应用程序中,如 Zoom 和 Teams——仍然基于八十年代和九十年代的技术。虽然语音转语音技术具有无限的潜力,但评估为生成式人工智能蓬勃发展制造障碍的挑战和缺点至关重要。
以下是人工智能从业者在语音转语音技术方面面临的三个常见减速带。
1. 音质
可以说,最佳对话最重要的部分是它是可以理解的。在语音转语音技术的情况下,目标是听起来像人类。例如,Siri和Alexa的机器人音调就像机器一样,并不总是清晰。这很难通过人工智能实现有几个原因,但人类语言中的细微差别起着重要作用。
Mehrabian’s Rule可以帮助 解释这一点。人类对话可以分为三个部分:55%的面部表情,38%的语气和仅7%的单词。机器理解依赖于文字或内容来操作。直到最近在 自然语言处理 (NLP)方面取得了长足的进步,才使得在情感、情感、音色和其他重要但不一定是口语方面的因素上训练人工智能模型成为可能。如果您只是处理音频而不是视觉,那么如果没有超过一半来自面部表情的理解,这将变得更加具有挑战性。
2. 延迟
分析人工智能合成可能需要时间,但对于语音到语音通信,实时是唯一重要的时间。 它也必须准确,您可以想象这对于机器来说绝非易事。
实时的必要性可能因行业而异。例如,做播客的内容创建者可能更关心音质而不是实时语音转换。但对于客户服务等行业来说,时间至关重要。如果呼叫中心座席使用 语音辅助AI 来响应呼叫者,他们可能会在质量上做出一些牺牲。尽管如此,时间对于提供积极的体验至关重要。
3. 规模
为了使语音转语音技术发挥其潜力,它必须支持各种口音、语言和方言,并且可供所有人使用,而不仅仅是特定的地理位置或市场。这需要掌握该技术的特定应用以及大量的调整和培训,以便有效地扩展。
新兴技术解决方案并非一刀切;所有用户都需要为给定解决方案提供数千种架构来支持此 AI 基础架构。用户还应该期望一致地测试模型。这并不是什么新鲜事: 机器学习 的所有经典挑战也适用于生成式人工智能领域。
那么,我们如何开始解决这些问题,以便我们能够开始实现语音转语音技术的价值呢?幸运的是,当你一步一步地分解它时,它就不那么可怕了。首先,你必须掌握问题。早些时候,我举了呼叫中心与内容创建者的例子。确保您考虑了用例和期望的结果,然后从那里开始。
其次,确保您的组织具有正确的架构和算法。但即使在此之前,也要确保您拥有正确的数据。数据质量很重要,尤其是在考虑像人类语言和语音这样敏感的东西时。最后,如果您的应用程序需要实时语音转换,请确保支持该功能。最终,没有人愿意与机器人交谈。
虽然围绕生成式人工智能深度伪造、同意和适当披露的伦理问题现在正在曝光,但首先了解和解决基础知识非常重要。语音转语音技术有可能彻底改变我们相互理解的方式,为将人们团结起来的创新提供机会。但是,为了实现这一目标,我们必须首先面对主要挑战。
本文转自:上海知力,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。