人工智能耳机让佩戴者只需看一次就能听到人群中某个人的说话

降噪耳机在创造听觉空白方面已经非常出色。但允许佩戴者环境中的某些声音通过消除器仍是研究人员面临的挑战。例如,苹果最新版 AirPods Pro 可以自动调整佩戴者的音量(例如,感知他们何时在交谈),但用户几乎无法控制要听谁说话或何时发生这种情况。

华盛顿大学的一个研究小组开发了一种人工智能系统,让戴着耳机的用户注视正在说话的人三到五秒钟,以“记录”他们的声音。该系统名为“目标语音听力”,然后消除环境中的所有其他声音,只实时播放已记录的说话者的声音,即使听者在嘈杂的地方走动,不再面对说话者。

该团队于 5 月 14 日在檀香山举行的ACM CHI 计算机系统人为因素会议上展示了其研究成果。概念验证设备的代码可供其他人使用。该系统尚未上市。

“我们现在倾向于将人工智能视为基于网络的聊天机器人,用于回答问题,”华盛顿大学保罗·艾伦计算机科学与工程学院教授、资深作者 Shyam Gollakota 说道。“但在这个项目中,我们开发了人工智能,根据佩戴耳机的人的偏好来修改他们的听觉感知。有了我们的设备,即使你身处嘈杂的环境中,有很多人在说话,你现在也可以清楚地听到单个说话者的声音。”

要使用该系统,佩戴配有麦克风的现成耳机的人需要点击按钮,同时将头转向正在说话的人。然后,来自该说话者声音的声波应同时到达耳机两侧的麦克风;误差幅度为 16 度。耳机将该信号发送到板载嵌入式计算机,团队的机器学习软件会在那里学习所需说话者的声音模式。系统会锁定该说话者的声音并继续将其播放给听众,即使这对说话者四处走动。随着说话者不断讲话,系统专注于已注册声音的能力会提高,从而为系统提供更多训练数据。

该团队对 21 名受试者测试了该系统,受试者对注册说话者声音的清晰度的评价平均几乎是未过滤音频的两倍。

这项工作以团队之前的“语义听觉”研究为基础,该研究允许用户选择他们想要听到的特定声音类别(例如鸟叫声或声音),并取消环境中的其他声音。

目前,TSH 系统一次只能注册一个说话者,并且只有在没有其他与目标说话者声音相同方向的大声声音时,它才能注册说话者。如果用户对声音质量不满意,他们可以对说话者进行另一次注册以提高清晰度。

该团队正在致力于未来将该系统扩展到耳塞和助听器。

本站全部资讯来源于实验室原创、合作机构投稿及网友汇集投稿,仅代表个人观点,不作为任何依据,转载联系作者并注明出处:https://www.lvsky.net/139.html

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论