Clubhouse:使用空间音频提高对话质量

2022年05月15日 阅读数:2
这篇文章主要向大家介绍Clubhouse:使用空间音频提高对话质量,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

翻译 | Alexapp

技术审校 | 朱梦尧ide

本文来自Clubhouse Blog,做者为Clubhouse流媒体技术负责人Justin Uberti。函数

 

影音探索 #010#测试

多年来环绕声一直是影院的一大特点。当你置身于影院中,声音从四面八方传来,这种感受就像在亲历电影中的情节。空间音频是一种新技术:当你只是戴上耳机,它也能重现影院级别的环绕声。对于Clubhouse这样的群组通讯app,空间音频不只能带来很棒的音效,还能使你与他人轻松对话。编码

概述

我在加入Clubhouse以后就开始研究实现空间音频的可能性。咱们的耳朵很是擅长定位声音从何处而来,它们经过几种不一样的方法定位,包括对比声音到达每只耳朵的时间。事实证实,若是你将这种微妙的时间变化方法一样用于app播放的声音,你就能使声音从任意你想要的位置发出。url

这种技术被称为头传输函数(HRTF ,Head-Related Transfer Function),它将音频信号处理成好像来自头部的特定方向。即便你戴的是普通耳机,也能够在二维空间内建立定位,使音频听起来像是来自你的左右两边,甚至是背后!这种技术假设针对某一种头部和耳部的几何形状(但人和人的头部和耳部的几何形状是不一样的),但对于大部分听者而言,效果很是逼真。spa

在常见的音频通讯应用程序中,若是多个用户同时讲话,他们的音频在播放前会被混合为单通道音频流。而在Clubhouse,咱们能够将空间音频HRTF应用于每一个音频流,这种作法可以将每一个讲话者定位在他们本身的独特空间内。你会感受本身正置身于对话之中,而不只仅是在听电话会议。.net

空间音频的优点

除了带来沉浸式体验,研究显示,空间音频提升了对话清晰度,并下降了对话中的认知负荷。翻译

若是没有空间音频,听者须要依靠其余音频特征(一般为音色和话音幅度)来肯定谁在讲话,虽然这些提示很是有效,这也是咱们在大部分状况下可以进行传统会议电话的缘由。然而,音色上的差别带来了认知成本,尤为当声音很是类似时(好比年龄和性别类似时)。此时,听者须要有意识地关注讲话者讲话,这样一来就产生了不小的认知负荷。3d

而使用空间音频后,即便在注意力缺失的状况下也能区分讲话者的声音,它在下降认知负荷的同时提升了对话清晰度。

凭直觉判断,这也颇有道理。几千年以来,咱们的大脑一直在使用空间提示来理解真实世界中的对话,但咱们在使用传统电话会议和会话app时已经放弃了这种特殊能力。Clubhouse的空间音频提供了这些重要提示,使app上的对话更人性化、同时也更容易听懂。

集成复杂度

音频管道

为了将HRTF技术集成到Clubhouse,咱们必须访问客户端接收到的原始音频流。咱们之因此选择访问客户端而非服务端是为了不向音频添加额外的延迟(若是服务端必须解码、处理以及从新编码每一个包,就颇有必要访问服务端)。经过客户端方法,咱们须要从会议服务中将接收到的音频流链接起来,将接收到的音频原生采样率重采样为HRTF采样率,而后再将每一个接收到的音频流进行HRTF处理。这就产生了一组立体声音频流输出,咱们将其混合再传送给播放设备。

注意,由于左右耳的HRTF输出不一样(正如大部分的定位来源),因此使用立体声播放就很是关键。这在使用有线耳机时会相对简单,但对蓝牙耳机而言却要复杂得多。只有A2DP蓝牙音频配置能够支持立体声播放,而通讯app一般使用的HSP和HFP配置却没法支持。

如今,尚未蓝牙配置能够同时支持立体声播放和麦克风输入,因此当佩戴蓝牙耳机时,就限制了空间音频的使用。咱们但愿和移动OS供应商一块儿合做,在不久的未来解决这个问题。

心理声学

咱们在研究空间音频的产品方面时,其实还有不少其余问题要考虑到。讲话者应该处在虚拟音频空间的什么位置?当房间内参与人数增长,位置是否发生变化?咱们作了一系列不一样的调整,其中一些问题很快就解决了(经过高效的技术实现)。但有些问题却很难靠技术解决:好比讲话者位置太靠边让人感受很奇怪,但彼此太近又会减小空间定位的价值。

最有效的方法仍是从现实生活中获取灵感。咱们考虑到人们在群体中讲话时一般如何安排本身的位置,并据此安排前几位加入者。而后,当新的讲话者到达房间时,咱们将他们定位在最大的剩余空间内,这与现实生活中人们加入对话的方式很类似。咱们还使用了一个巧妙的过分,这样若是靠边位置的人开始讲话时,定位就会逐渐更新到你会面对他们(就像现实生活中那样)。

咱们进行了至关多的试错试验,经过听力测试和对照试验,咱们调整了这里的准确值。下面是来自咱们用户的反馈。

图片

Clubhouse的空间音频实现得很是好,以致于要花些时间才能习惯。我今晚散步时回头了三次来确认是谁在说话,最后才意识到声音来自app。

图片

Clubhouse的空间音频功能太棒了!

音乐

到如今为止,我所讨论的内容都是假设Clubhouse上的用户都是单声源。但在Clubhouse上,还有不少房间在直播演奏音乐,人们利用app的功能来传输立体声音频。这就给空间音频带来了一个特殊的难题:咱们如何在精准定位房间内每一个人的同时支持立体声源?

咱们使用的方法是将每一个立体声源拆分为两个单声源,彼此间隔预约距离(有些像音箱)。其中存在不少挑战:准确肯定什么时候使用这种模式并不容易,由于一些音源会动态地从单声源变为立体声,可是这种技术保留了立体声的丰富效果,同时还容许立体声音频流来自不一样的空间位置。

总结

以上就是Clubhouse的空间音频速览。咱们认为空间音频让app上的对话更具真实感,它是一种很棒的功能,我但愿大家都能喜欢。

References:

https://pubmed.ncbi.nlm.nih.gov/15301615/

https://pubmed.ncbi.nlm.nih.gov/19062861/

https://pubmed.ncbi.nlm.nih.gov/25920841/

https://www.clubhouse.com/room/mgE9RY9Y?utm_medium=ch_room_xerc&utm_campaign=sI95qy9i-EC5I3MvlueR7g-139084


致谢:

本文已得到做者Justin Uberti受权翻译和发布,特此感谢。

原文连接:

https://blog.clubhouse.com/enhancing-conversations-with-spatial-audio/

延伸阅读:

对话Justin Uberti:RTC的过去、如今和将来


图片