来自《红楼梦》的 AI 启示，TeleAI 实现多声源区分及精准定位_

一语未了，只听后院中有人笑声，说：“我来迟了，不曾迎接远客！”

黛玉纳罕道：“这些人个个皆敛声屏气，恭肃严整如此，这来者系谁，这样放诞无礼？”心下想时，只见一群媳妇丫鬟围拥着一个人从后房门进来。

想必熟悉《红楼梦》的朋友看到这段描述，就能立刻知道是金陵十二钗之一的王熙凤出场。曹雪芹完美诠释了什么叫“未见其人，先闻其声”，让一个鲜活的形象跃然纸上。

然而，就是这样一段小说经典，却蕴藏着生物学、物理学和人工智能的重要启示：为什么光凭“听声”就能“辨位”是在后院中？

因为人体是一个极其复杂而精密的系统。每个人都有两只耳朵，当声音进入左右耳的时候，会有时间差和强度差，随后大脑通过比较，综合判断声音的来源。

进入人工智能快速发展的新阶段，仅仅让 AI “看懂”外部世界，已经不能满足真实场景的应用需求，还要能够“听懂”并交互。

如果只是“看”，就如同我们观赏一部默片，虽然画面很精彩，但总觉得缺点什么。

而声音可以传递更多信息，例如说话人的情绪和态度，以及物体的大小、形状和位置。

通过声音对目标物体进行定位的技术，可以在日常生活、工业检修、安防管理等多个领域发挥效能。例如在智能汽车中，车载系统需要识别用户指令是来自主驾、副驾还是后排乘客，从而准确执行相应任务。

在风力涡轮机的机械系统检修中，可以通过传声器在距离机械部件一定距离的位置获取声学数据，并通过声源定位判断故障位置。

此外，在近期提到的“临地安防”场景中，声源定位技术也能起到至关重要的作用，它可以识别空中无人机和水下潜艇等航行器的位置，及时预警为管理提供依据。

多个声源区分定位

Eliminating quantization errors in classification-based sound source localization

近年来，随着深度神经网络的发展，端到端声源定位技术在复杂声学环境下展现了强大的稳健性。然而，当面对多源干扰和复杂反射等特定场景时，现有技术却表现不佳。

例如近年来，在 AI 展会中经常出现的数字人展项，当周围环境嘈杂，有多人在同时说话时，往往会出现数字人难以辨别哪一位才是对话和交互的主体。如果能够准确定位声音的位置，它就能判断出面前最近的那个人才应该重点交互。

当多个声源同时发声，它们的声音信号会在空间中相互叠加，导致难以区分和定位每个声源的位置。这种干扰会影响声源定位的精度和可靠性，尤其是在复杂环境中，多个声源的信号混叠会使得定位结果出现偏差。‌

为了解决这个问题，中国电信人工智能研究院（TeleAI）团队展开深入研究，通过结合分类和回归两种方法的优点，对输出框架做出了三个模块设计，分别用于消除标签编码和解码过程中的量化误差，并通过调整损失函数进一步优化分类性能。

模块1：无偏标签分布

由于训练目标的量化误差来自独热编码，本方法利用声源定位输出空间的类间相似度，使用两个相邻的类加权可以无偏地表示任意一个位置，同时保留了独热编码的分类信息。

模块2：相邻加权解码

与前述的编码方法相对应，只用一个类解码也会有量化误差。为了解决这个问题，解码时也使用与峰值概率类相邻的类进行加权，以推理出精确的声源位置。

模块3：损失函数

对于软标签，使用均方差损失能以损失为零为目标进行学习，但是在模型输出端使用激活函数限制范围可能会导致梯度消失。为此，在输出端 TeleAI 团队放弃了使用激活函数，训练时直接计算均方差损失，推理时则对输出进行裁剪使之符合概率解释。

实验表明，该输出框架显著提升了声源定位的精度。模型在保留了分类的强鲁棒性的同时，拥有了回归的高精度。

多维声源精准定位

Learning Multi-Dimensional Speaker Localization: Axis Partitioning, Unbiased Label Distribution, and Data Augmentation

传统声源定位方法通常将问题转化为分类问题，即识别声源所处的网格区域。这种分类方法固有的缺陷需要大量的网格数量，导致了维度灾难，并且引入了量化误差。同时，这类任务的数据采集难度大，样本不均衡，有着严重的过拟合问题。

为了解决这些问题，TeleAI 团队提出了一套高效的多维声源定位算法，即通过坐标点的形式估计声源在二维或三维空间中的位置。

例如有多个人在会议室开线上会议，并需要一份会议全过程的文字纪要。通过多维声源定位技术，可以为每位参会者设定一个座位的坐标点，现场会议系统的摄像头可以根据声音定位实时追踪说话人。同时，在会后进行语音转录文字的时候，还能够精准匹配说话人和相应内容，做到一一对应。

TeleAI 团队在多维声源定位的研究包含三项创新贡献，分别用于解决维度灾难、量化误差和过拟合。

贡献1：轴划分，减轻维度灾难

首先，将网格划分解耦为轴划分，显著减轻了维度灾难。对于二维定位，类别数从I²减少到2(I+1)；对于三维，从I³减少到3(I+1)。其次，在多声源定位的场景中，采用声源分离技术规避了推理阶段的排列模糊。

贡献2：标签分布，消除量化误差

前述工作中的无偏标签分布是一维分布。因此，TeleAI 团队把多维定位的标签分布看作是一个多维联合概率分布，则坐标轴上的分布可看作是相互独立的一维边缘分布。接下来，可以代入前述的无偏标签分布，消除多维定位的量化误差。

贡献3：数据增强，减缓过拟合

利用坐标系的对称性，采用坐标变换扩充数据。对于每个麦克风阵列，随机选取部分麦克风构成子阵，扩展阵型变化。使用仿真数据去结合真实数据集，减缓样本不均衡。以上设计综合下来，大幅减缓了过拟合。

实验结果表明，轴划分（Axis）可在更高分辨率I时训练收敛，减小定位误差。搭配无偏标签分布后（Axis-U），可进一步减小误差。由图可知，TeleAI 团队提出的数据增强方案都显著减缓了过拟合。

声源定位技术的突破在整个临地经济领域有着非常重要的应用前景。在空域和水域的安防保障中，通常会出现“只闻其声，不见其形”的情况。各种隐藏手段的出现，让诸如无人机等目标物无法被快速辨认，然而声音是难以掩盖的。通过对声音的识别和分析，及多维声源定位技术，就可以精准找到目标物的所在位置，从而快速做出预警和措施。

利用声音定位在智能家居场景中也能发挥极大作用。例如在很多家庭中已经得到应用的智能扫地机器人，目前主要依赖视觉、红外和激光雷达等技术对障碍物进行识别和避让，但仍然会受到光线等干扰和限制。如果引入声源定位技术，则可以通过发射并接收声波，对环境中的障碍物进行预定位，从而更智能化地规划清扫路线。这和蝙蝠的飞行原理异曲同工，是 AI 与仿生学的强强联合。

本次研究工作聚焦于解决声源定位技术在量化误差、维度灾难以及过拟合等方面的核心问题。同时，不局限于空气声学定位，相关成果对于水声、电磁波等模态的定位也具有重要参考意义。

两篇创新性研究成果已被国际顶级学术期刊 Neural Networks (NNJ)和IEEE/ACM Transactions on Audio, Speech, and Language Processing (IEEE TASLP) 成功收录。