一语未了,只听后院中有人笑声,说:“我来迟了,不曾迎接远客!”
黛玉纳罕道:“这些人个个皆敛声屏气,恭肃严整如此,这来者系谁,这样放诞无礼?”心下想时,只见一群媳妇丫鬟围拥着一个人从后房门进来。
想必熟悉《红楼梦》的朋友看到这段描述,就能立刻知道是金陵十二钗之一的王熙凤出场。曹雪芹完美诠释了什么叫“未见其人,先闻其声”,让一个鲜活的形象跃然纸上。
然而,就是这样一段小说经典,却蕴藏着生物学、物理学和人工智能的重要启示:为什么光凭“听声”就能“辨位”是在后院中?
因为人体是一个极其复杂而精密的系统。每个人都有两只耳朵,当声音进入左右耳的时候,会有时间差和强度差,随后大脑通过比较,综合判断声音的来源。
进入人工智能快速发展的新阶段,仅仅让 AI “看懂”外部世界,已经不能满足真实场景的应用需求,还要能够“听懂”并交互。
如果只是“看”,就如同我们观赏一部默片,虽然画面很精彩,但总觉得缺点什么。
而声音可以传递更多信息,例如说话人的情绪和态度,以及物体的大小、形状和位置。
通过声音对目标物体进行定位的技术,可以在日常生活、工业检修、安防管理等多个领域发挥效能。例如在智能汽车中,车载系统需要识别用户指令是来自主驾、副驾还是后排乘客,从而准确执行相应任务。
在风力涡轮机的机械系统检修中,可以通过传声器在距离机械部件一定距离的位置获取声学数据,并通过声源定位判断故障位置。
此外,在近期提到的“临地安防”场景中,声源定位技术也能起到至关重要的作用,它可以识别空中无人机和水下潜艇等航行器的位置,及时预警为管理提供依据。
多个声源区分定位
Eliminating quantization errors in classification-based sound source localization
近年来,随着深度神经网络的发展,端到端声源定位技术在复杂声学环境下展现了强大的稳健性。然而,当面对多源干扰和复杂反射等特定场景时,现有技术却表现不佳。
例如近年来,在 AI 展会中经常出现的数字人展项,当周围环境嘈杂,有多人在同时说话时,往往会出现数字人难以辨别哪一位才是对话和交互的主体。如果能够准确定位声音的位置,它就能判断出面前最近的那个人才应该重点交互。
当多个声源同时发声,它们的声音信号会在空间中相互叠加,导致难以区分和定位每个声源的位置。这种干扰会影响声源定位的精度和可靠性,尤其是在复杂环境中,多个声源的信号混叠会使得定位结果出现偏差。
为了解决这个问题,中国电信人工智能研究院(TeleAI)团队展开深入研究,通过结合分类和回归两种方法的优点,对输出框架做出了三个模块设计,分别用于消除标签编码和解码过程中的量化误差,并通过调整损失函数进一步优化分类性能。
模块1:无偏标签分布
由于训练目标的量化误差来自独热编码,本方法利用声源定位输出空间的类间相似度,使用两个相邻的类加权可以无偏地表示任意一个位置,同时保留了独热编码的分类信息。
模块2:相邻加权解码
与前述的编码方法相对应,只用一个类解码也会有量化误差。为了解决这个问题,解码时也使用与峰值概率类相邻的类进行加权,以推理出精确的声源位置。
模块3:损失函数
对于软标签,使用均方差损失能以损失为零为目标进行学习,但是在模型输出端使用激活函数限制范围可能会导致梯度消失。为此,在输出端 TeleAI 团队放弃了使用激活函数,训练时直接计算均方差损失,推理时则对输出进行裁剪使之符合概率解释。
实验表明,该输出框架显著提升了声源定位的精度。模型在保留了分类的强鲁棒性的同时,拥有了回归的高精度。
多维声源精准定位
Learning Multi-Dimensional Speaker Localization: Axis Partitioning, Unbiased Label Distribution, and Data Augmentation
传统声源定位方法通常将问题转化为分类问题,即识别声源所处的网格区域。这种分类方法固有的缺陷需要大量的网格数量,导致了维度灾难,并且引入了量化误差。同时,这类任务的数据采集难度大,样本不均衡,有着严重的过拟合问题。
为了解决这些问题,TeleAI 团队提出了一套高效的多维声源定位算法,即通过坐标点的形式估计声源在二维或三维空间中的位置。
例如有多个人在会议室开线上会议,并需要一份会议全过程的文字纪要。通过多维声源定位技术,可以为每位参会者设定一个座位的坐标点,现场会议系统的摄像头可以根据声音定位实时追踪说话人。同时,在会后进行语音转录文字的时候,还能够精准匹配说话人和相应内容,做到一一对应。
TeleAI 团队在多维声源定位的研究包含三项创新贡献,分别用于解决维度灾难、量化误差和过拟合。
贡献1:轴划分,减轻维度灾难
首先,将网格划分解耦为轴划分,显著减轻了维度灾难。对于二维定位,类别数从I²减少到2(I+1);对于三维,从I³减少到3(I+1)。其次,在多声源定位的场景中,采用声源分离技术规避了推理阶段的排列模糊。
贡献2:标签分布,消除量化误差
前述工作中的无偏标签分布是一维分布。因此,TeleAI 团队把多维定位的标签分布看作是一个多维联合概率分布,则坐标轴上的分布可看作是相互独立的一维边缘分布。接下来,可以代入前述的无偏标签分布,消除多维定位的量化误差。
贡献3:数据增强,减缓过拟合
利用坐标系的对称性,采用坐标变换扩充数据。对于每个麦克风阵列,随机选取部分麦克风构成子阵,扩展阵型变化。使用仿真数据去结合真实数据集,减缓样本不均衡。以上设计综合下来,大幅减缓了过拟合。
实验结果表明,轴划分(Axis)可在更高分辨率I时训练收敛,减小定位误差。搭配无偏标签分布后(Axis-U),可进一步减小误差。由图可知,TeleAI 团队提出的数据增强方案都显著减缓了过拟合。
声源定位技术的突破在整个临地经济领域有着非常重要的应用前景。在空域和水域的安防保障中,通常会出现“只闻其声,不见其形”的情况。各种隐藏手段的出现,让诸如无人机等目标物无法被快速辨认,然而声音是难以掩盖的。通过对声音的识别和分析,及多维声源定位技术,就可以精准找到目标物的所在位置,从而快速做出预警和措施。
利用声音定位在智能家居场景中也能发挥极大作用。例如在很多家庭中已经得到应用的智能扫地机器人,目前主要依赖视觉、红外和激光雷达等技术对障碍物进行识别和避让,但仍然会受到光线等干扰和限制。如果引入声源定位技术,则可以通过发射并接收声波,对环境中的障碍物进行预定位,从而更智能化地规划清扫路线。这和蝙蝠的飞行原理异曲同工,是 AI 与仿生学的强强联合。
本次研究工作聚焦于解决声源定位技术在量化误差、维度灾难以及过拟合等方面的核心问题。同时,不局限于空气声学定位,相关成果对于水声、电磁波等模态的定位也具有重要参考意义。
两篇创新性研究成果已被国际顶级学术期刊 Neural Networks (NNJ)和IEEE/ACM Transactions on Audio, Speech, and Language Processing (IEEE TASLP) 成功收录。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有