1/2
你的耳机要被AI“颠覆”了:只需看一眼,整个世界都是TA的声音
学术头条05-30 11:52:22

在大多数情况下,现代生活是十分嘈杂的。如果你不喜欢周围的喧嚣,你可以选择戴上降噪耳机,屏蔽你身边的吵闹声音。

然而,一个问题是,目前的降噪耳机会不加区分地过滤掉所有声音,其中就包括一些你真正想听到的声音

尽管苹果的第二代 AirPods Pro 可以自动为佩戴者调整声音大小——例如,当佩戴者正在交谈时,它就会自动感应到,但他们几乎无法决定聆听谁的声音或何时聆听。

如今,一项新的人工智能(AI)技术,或将催生出一款颠覆传统的耳机——只需看一眼,整个世界都是 TA 的声音。

图片

来自华盛顿大学的研究团队开发出了一种人工智能耳机系统——Target Speech Hearing(TSH),佩戴者只需注视目标说话者 3-5 秒钟,就可以将其“锁定”,消除环境中的所有其他声音,只选择听被“锁定”说话者的声音。即使佩戴者在嘈杂的地方走来走去,不再面对说话者时,TSH 系统也能正常运行。

我们通常认为现在的人工智能只是基于网络的聊天机器人,被用来回答一些问题,” 该论文的通讯作者、华盛顿大学保罗-艾伦计算机科学与工程学院教授 Shyamnath Gollakota 说,“但在这个项目中,我们开发的人工智能可以根据佩戴者的喜好,改变他们的听觉感知。”

图片

研究团队表示,TSH 系统不仅可以只听某一个人的声音,还可以只移除某一个人的声音。这在某些情况下会很有帮助,比如你想过滤掉一个人的干扰性讲话,同时还能听到其他人的讲话。

此前,研究团队已在人机交互领域最重要的国际会议—— ACM CHI Conference on Human Factors in Computing Systems 上展示了这一研究成果。

目前,这一概念验证设备的代码已可供他人使用,但尚未投入商用,他们正在商谈将其嵌入流行品牌的降噪耳机中。

此外,在未来的工作中,他们希望将 TSH 系统扩展到耳塞式耳机和助听器。

被“锁定”的声音

据论文描述,佩戴者在使用 TSH 系统时,只需要将头部对准目标说话者,然后轻按一个按钮,即可完成“锁定”。

这项工作建立在该团队之前的 semantic hearing 研究基础之上,该研究允许用户选择他们想听到的特定声音类别(如鸟叫或声音),并取消环境中的其他声音。

被“锁定”说话者的声波会同时到达耳机两侧的麦克风,耳机将信号发送到嵌入式计算机上,其中的机器学习软件开始学习被“锁定”说话者的发声模式。

图片

TSH 系统会捕捉这些声音,并持续播放给佩戴者,即使在他们戴着耳机四处移动时。

随着被“锁定”人不断说话,系统对他们的声音的关注能力也会提高,从而为系统提供更多的训练数据。

他们在 21 名受试者身上测试了该系统,受试者对被“锁定”声音清晰度的评分平均比未经过滤的音频高出近一倍。

不足与展望

然而,这项研究也存在一些局限性。

例如,目前的 TSH 系统一次只能“锁定”一个说话者,而且只有在说话者的同一方向不存在另一个更大的声音时,才能锁定目标说话者。

在之后的工作中,研究团队希望将 TSH 系统扩展到支持同时“锁定”多个目标说话者,他们提出了两种可能的方法:

1)为每个说话者运行一个单独的网络实例,这种方法的问题是,它需要更多的计算资源,因为每个说话者都需要一个独立的处理流程。

2)训练一个能够同时处理多个说话者的网络,这个网络会使用某种形式的“聚合多说话者嵌入”,不需要为每个说话者单独运行一个实例,而是在一次处理中分离出所有说话者的语音,从而更高效地处理多个说话者。

再者,人类的语音特征可能会随着衰老、健康状况和情绪变化等因素而改变,这可能会导致 TSH 系统不能识别声音的细微差别,从而无法“锁定”目标说话者。

研究团队表示,佩戴者可以在提取目标说话者之前使用双耳可听设备捕获目标语音的注册样本,因此这一因素在短时间内可能不会有太大变化。

同时,目标说话者和干扰说话者的相似性越大,完全消除干扰说话者就越难。为了增强系统的鲁棒性,可以使用在不同时间点的多个“锁定”记录,而不只是依据一个。

另外,尽管研究团队使用了合成数据进行训练,并且能够泛化到真实世界中未见过的说话者、室内外环境以及支持移动性,但在实际应用中,模型对于不同环境和说话者的泛化能力可能还有待进一步验证和提高

最后,他们也探讨了一些更高效“锁定”目标说话者的方法。例如,支持目标说话者的移动,这样就会降低同一方向上出现另一个强干扰说话者的概率;即使在静态场景中,训练网络只关注佩戴者所看方向上距离最近或声音最大的说话者。

参考链接:

https://dl.acm.org/doi/10.1145/3613904.3642057

https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/

在大多数情况下,现代生活是十分嘈杂的。如果你不喜欢周围的喧嚣,你可以选择戴上降噪耳机,屏蔽你身边的吵闹声音。

然而,一个问题是,目前的降噪耳机会不加区分地过滤掉所有声音,其中就包括一些你真正想听到的声音

尽管苹果的第二代 AirPods Pro 可以自动为佩戴者调整声音大小——例如,当佩戴者正在交谈时,它就会自动感应到,但他们几乎无法决定聆听谁的声音或何时聆听。

如今,一项新的人工智能(AI)技术,或将催生出一款颠覆传统的耳机——只需看一眼,整个世界都是 TA 的声音。

图片

来自华盛顿大学的研究团队开发出了一种人工智能耳机系统——Target Speech Hearing(TSH),佩戴者只需注视目标说话者 3-5 秒钟,就可以将其“锁定”,消除环境中的所有其他声音,只选择听被“锁定”说话者的声音。即使佩戴者在嘈杂的地方走来走去,不再面对说话者时,TSH 系统也能正常运行。

我们通常认为现在的人工智能只是基于网络的聊天机器人,被用来回答一些问题,” 该论文的通讯作者、华盛顿大学保罗-艾伦计算机科学与工程学院教授 Shyamnath Gollakota 说,“但在这个项目中,我们开发的人工智能可以根据佩戴者的喜好,改变他们的听觉感知。”

图片

研究团队表示,TSH 系统不仅可以只听某一个人的声音,还可以只移除某一个人的声音。这在某些情况下会很有帮助,比如你想过滤掉一个人的干扰性讲话,同时还能听到其他人的讲话。

此前,研究团队已在人机交互领域最重要的国际会议—— ACM CHI Conference on Human Factors in Computing Systems 上展示了这一研究成果。

目前,这一概念验证设备的代码已可供他人使用,但尚未投入商用,他们正在商谈将其嵌入流行品牌的降噪耳机中。

此外,在未来的工作中,他们希望将 TSH 系统扩展到耳塞式耳机和助听器。

被“锁定”的声音

据论文描述,佩戴者在使用 TSH 系统时,只需要将头部对准目标说话者,然后轻按一个按钮,即可完成“锁定”。

这项工作建立在该团队之前的 semantic hearing 研究基础之上,该研究允许用户选择他们想听到的特定声音类别(如鸟叫或声音),并取消环境中的其他声音。

被“锁定”说话者的声波会同时到达耳机两侧的麦克风,耳机将信号发送到嵌入式计算机上,其中的机器学习软件开始学习被“锁定”说话者的发声模式。

图片

TSH 系统会捕捉这些声音,并持续播放给佩戴者,即使在他们戴着耳机四处移动时。

随着被“锁定”人不断说话,系统对他们的声音的关注能力也会提高,从而为系统提供更多的训练数据。

他们在 21 名受试者身上测试了该系统,受试者对被“锁定”声音清晰度的评分平均比未经过滤的音频高出近一倍。

不足与展望

然而,这项研究也存在一些局限性。

例如,目前的 TSH 系统一次只能“锁定”一个说话者,而且只有在说话者的同一方向不存在另一个更大的声音时,才能锁定目标说话者。

在之后的工作中,研究团队希望将 TSH 系统扩展到支持同时“锁定”多个目标说话者,他们提出了两种可能的方法:

1)为每个说话者运行一个单独的网络实例,这种方法的问题是,它需要更多的计算资源,因为每个说话者都需要一个独立的处理流程。

2)训练一个能够同时处理多个说话者的网络,这个网络会使用某种形式的“聚合多说话者嵌入”,不需要为每个说话者单独运行一个实例,而是在一次处理中分离出所有说话者的语音,从而更高效地处理多个说话者。

再者,人类的语音特征可能会随着衰老、健康状况和情绪变化等因素而改变,这可能会导致 TSH 系统不能识别声音的细微差别,从而无法“锁定”目标说话者。

研究团队表示,佩戴者可以在提取目标说话者之前使用双耳可听设备捕获目标语音的注册样本,因此这一因素在短时间内可能不会有太大变化。

同时,目标说话者和干扰说话者的相似性越大,完全消除干扰说话者就越难。为了增强系统的鲁棒性,可以使用在不同时间点的多个“锁定”记录,而不只是依据一个。

另外,尽管研究团队使用了合成数据进行训练,并且能够泛化到真实世界中未见过的说话者、室内外环境以及支持移动性,但在实际应用中,模型对于不同环境和说话者的泛化能力可能还有待进一步验证和提高

最后,他们也探讨了一些更高效“锁定”目标说话者的方法。例如,支持目标说话者的移动,这样就会降低同一方向上出现另一个强干扰说话者的概率;即使在静态场景中,训练网络只关注佩戴者所看方向上距离最近或声音最大的说话者。

参考链接:

https://dl.acm.org/doi/10.1145/3613904.3642057

https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/

知识产权、免责声明以及媒体合作联系
继续了解
知识产权声明

【知识产权声明】

除本司(指上海东方网股份有限公司)另行声明外,本司网页及客户端产品(以下简称“本网”),包括但不限于东方新闻、翱翔、东方头条等,所涉及的任何资料(包括但不限于文字、图标、图片、照片、音频、视频、图表、色彩组合、版面设计、商标、商号、域名等)的知识产权均属本司和资料提供者所有。未经本司书面许可,任何人不得复制、转载、摘编、修改、链接、镜像或以其他任何方式非法使用东方网的上述内容。对于有上述行为者,本司将保留追究其法律责任的权利。

东方网、东方新闻、翱翔,以上均为本司享有权利之合法商标,未经本司书面授权,任何单位或个人不得使用上述商标,或将上述商标用作网站、媒体名称等。

【免责声明】

1、凡本网注明来源“东方网”或“东方新闻”或带有东方网LOGO、水印的所有内容,包括但不限于文字、图片、音频视频,版权均属本司所有,任何媒体、网站或其他任何形式的法律实体和个人未经本司书面授权均不得转载、链接或以其他方式复制传播。与我司签订有关协议或已经获得本司书面授权许可的媒体、网站或其他任何形式的法律实体和个人,应在授权范围内使用,且必须注明来源“东方网”。其目的在于传递更多信息,并不意味着本司赞同其观点或认可其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须保留本司注明的“稿件来源”,并自负全部法律责任。如擅自篡改为“稿件来源:东方网”,本司将依法追究责任。

2、擅自使用东方网名义转载不规范来源的信息、版权不明的资讯,或盗用东方网名义发布信息,设立媒体账号等,本司将依法追究其法律责任。

3、鉴于本网发布主体、发布稿件来源广泛,数量较多,如因作者联系方式不详或其他原因未能及时与著作权拥有者取得联系,或著作权人发现本网转载了其拥有著作权的作品时,请主动来函、来电与本司联系,或与本司授权的中国文字著作权协会联系,提供相关证明材料,我方将及时处理。
中国文字著作权协会联系方式:
联系人:赵洪波 唐亚静
地 址:北京西城区珠市口西大街120号太丰惠中大厦1027-1036室
联系电话:010-65978917
邮 箱:wenzhuxie@126.com

4、本网所有声明以及其修改权、更新权及最终解释权均属本司所有。

【媒体合作】

本司为尊重保护著作权,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进互联网良性发展,本着平等互惠、资源共享的原则,诚邀各类媒体、网站、单位、个人与本网建立友好的合作关系。
媒体合作、内容转载请联系
联系人:杨老师
联系电话:021-22899781