简述三种常见3D音频格式，及VR中Ambisonics格式的重要性

demi 在周四, 01/03/2019 - 15:08 提交

3D音频是为VR内容提供沉浸感和临场感的一个关键因素，所以我们有必要理解3D音频格式，以及它们对音频内容创建和渲染的应用。

下面我们来看一下三种3D音频格式，并分析Ambisonics对VR音频的重要性。

1 . 多声道

在基于声道的声音表达中，信息单元是扬声器。每个声道与扬声器相关联，系统在几个扬声器上混合各种声道来实现声音表达。声道越多，空间音效感就越强。基于声道的声音表达是过去50年，甚至更久远时所采用的传统声音表达方式。立体声，5.1，7.1格式是基于声道的水平表示。通过增加额外的过顶扬声器可以实现3D，如11.1格式（在7.1声道的基础上再增加4个天花板扬声器）。

多声道音频表达的一个主要缺点是，它依赖于扬声器设置，并且每个设置类型需要一个混合，而基于Object和Ambisonics的内容则独立于扬声器设置。

2 . 基于Object的声音表达

在基于Object的声音表达中，信息单元是声源。场景由几个声源及有关其位置和渲染环境等信息组成。系统通过在用户位置计算所有声源的组合来实现3D音频渲染。但它同时需要使用大量的CPU资源。场景越复杂（声源数量）和越逼真（混响精度），需要的CPU资源就越多。

3 . Higher Order Ambisonics (HOA)

与上述两种声音表达形式不同，Ambisonics格式不依赖于单个声源的描述，它能够再现用户位置的生成声场。我们将用于描述声场的数学形式称为球面调和函数，而信息单位则是球面表示的组分数（或阶数）。组分越多或者阶数越高，你获得的声场空间呈现精度就越高。

这并不是什么新概念，它在过去几十年间一直用于专业音效社区。他们将这种音域的独立表达称为B格式，而它实际上是第一阶的Higher Order Ambisonics。

4 . Ambisonics对VR而言是非常有吸引力的解决方案

谷歌和索尼等VR行业的主要厂商都在拥抱Higher Order Ambisonics（HBO）这个概念，并正在开发相应的商业应用，如将HOA作为默认音频格式的YouTube 360。

这种选择的背后存在几个原因，最重要的是以下几点：

①它提供了最佳的3D音频逼真感与计算资源平衡。对于B格式（第一阶表达）的4声道，你可以逼真地再现一个3D声场，而Object的4通道或4扬声器设置很难做到这一点。

②它是一种层次结构，具备独特的可扩展性。你可以选择相应的空间精度水平来匹配平台资源，如CPU负载和带宽等等。当你希望提供高端PC或标准智能手机的内容，或者当你有可变带宽来传输内容时，这非常方便。与基于Object的声音表达相比，如果你没有足够的资源来处理完整内容，唯一可用的选项是不处理其中一些对象，而这会导致声场的完整性发生变化（缺少信息）。

③对于录制的3D音频内容而言，Ambisonics是再现这种音效的最佳格式，因为真实的音频世界最好是选择声场来表达，而非声音对象的组合或扬声器位置。

④这对头部追踪十分友好。在球面调和函数域中，头部运动将建模为声场的旋转，而这是非常简单的操作。

⑤它独立于扬声器设置：一个内容可以解码成任何扬声器布局。

⑥与基于Object的声音表达不同，Ambisonics保留了内容的完整性。当内容由声音对象，位置和声学参数组成时，最终用户体验取决于根据所有这些信息重建声场的算法。在Ambisonics中，最终的用户体验是烘培至内容之中。

5. 总结

我们相信多声道将逐渐成为不太适合VR音频需求的传统格式，而基于Obeject和Ambisonics才是VR所需的格式。

我们对未来的看法是：

①内容创建阶段将主要采用声音对象，将其作为交互式声场创建的便捷方式，并将略微使用Ambisonics“导入”现实录音。

②诸如VR 360度这样的“录制”内容渲染将越来越多地选择Ambisonics格式，因为其可扩展的特性使其非常适合广泛的平台。YouTube选择Ambisonics已经说明了这一点。

对于VR游戏等交互式内容的渲染，基于Object的3D音频格式非常有意义。但对于由众多声音对象组成的复合声场而言，其渲染需要大量的计算，并需要大众市场所不一定能提供的资源。就这个问题，我们可以将基于Object的全部或部分表达转换为Ambisonics，并利用渲染的可扩展性来适配CPU资源。

作者：颜昳华
来源：映维网
原文链接：https://yivian.com/news/54434.html

一文看懂AR技术原理	9种AR/VR交互方式解读，让你更加了解透彻AR/VR	IDC预计，2026年中国AR/VR市场规模将超130亿美元
VR专业术语大全	克服VR晕动病的四个小技巧	AR专家Sonny Xin采访：十年内AR眼镜都以辅助信息为主

简述三种常见3D音频格式，及VR中Ambisonics格式的重要性

最新文章

最新文章