通过将场景中的声学传播建模为线性时不变系统,将所有发声器和听者位置对连续映射到神经脉冲响应函数,然后可以将其应用于任意声音。 其连续性使我们能够为任意位置的听众呈现空间声学,并且可以预测新位置的声音传播。
3D 空间音频的编码方法有着悠久的历史。 这些方法主要分为两类。第一种方法通过从空间分布的源中捕获声音,在以用户为中心的位置对声场进行编码。第二种方法旨在模拟听众在场景中移动时听到的声音。
对场景的基础声学建模的方法依赖于使用神经隐式表示。 隐式表示已成为 3D 几何和场景外观的有前途的表示。
与视觉和音频的联合建模密切相关。 通过利用视觉和音频之间的对应关系,完成了学习无监督视频和音频表示的工作,可定位发出声音的对象并联合使用视觉和音频进行导航。