大模型助残:让聋人“听见”与被“听见”|聚焦全国助残日

大模型助残:让聋人“听见”与被“听见”|聚焦全国助残日
2024年05月10日 12:53 华夏时报

图为全自动床椅一体机,让瘫痪的残疾人可以独立起身出行

本报(chinatimes.net.cn)记者陶炜 张智 合肥报道

让不懂手语的普通人看得懂聋人的手势,让普通人说出的话能够被聋人“听见”,科技正在打通聋人与普通人的沟通障碍。

近日,《华夏时报》记者在参加由安徽残联组织的科技助残企业调研走访活动时发现,越来越多的新技术正在提升残疾人的生活品质。合肥综合性国家科学中心人工智能研究院(合肥人智院)的机器博弈团队,十余年来着力研究手语识别,能够把聋人的手语转换为文字和语音,让普通人能够弄明白聋人在“说”什么;科大讯飞的讯飞听见App和智能助听器,则能让聋人明白普通人在说什么。

科技造福的不只是聋哑人。得益于安徽省残联对科技助残工作的高度重视,2023年11月13日,安徽省残联与科大讯飞联合打造的长三角区域智能康复辅助器具与技术重点实验室安徽分中心在合肥揭牌。该中心整合的众多科技助残资源中,安徽三联机器人科技有限公司的全自动床椅一体机,能够让瘫痪在床的人只靠自己一个人的力量出门遛弯、到餐厅吃饭。合肥市智能机器人研究院的“孤独症谱系障碍多模态智能化辅助诊断系统”,能协助医生快速实现脑功能发展障碍疑似儿童的早期筛查、诊断分析以及康复效果评估。

记者注意到,各种各样的助残技术里,人工智能与大模型的运用频频出现。“科技是应用的底座。而在我们产品的诸多科技应用中,讯飞星火大模型是其中最硬核的一环。”科大讯飞子公司爱博智能总经理苏莹对《华夏时报》记者说。

合肥人智院:让聋人“被听见”

在合肥综合性国家科学中心人工智能研究院,人们只需要对着摄像头打出一段手语,系统就能够实时地把这段手语转换成文字并语音播报出来。随后,系统会针对这段手语做出回应,在用文字生成回答的同时,屏幕上还会有一个数字人用手语的形式把回复表达出来。在系统的帮助下,一个普通人即便没有任何手语基础,也能明白聋人在“说”什么。

“我们自2012年起关注到手语识别以及翻译任务在实际生活中的应用和研究意义,并在这个领域进行了长时间的研究探索,也取得了许多技术上的创新成果,在本领域重要国际期刊和会议发表了40余篇学术论文,申请专利20余项。基于这些技术上的积累,我们希望将它们推出实验室环境,在开放的场景下为聋哑人提供帮助。”合肥人智院研究员、中国科学技术大学信息学院教授、国家“优秀青年基金”获得者周文罡告诉《华夏时报》记者。

结合知识引导和数据驱动,机器博弈团队提出了融合手形先验模型和时空自注意力机制的视频手语识别方法,建立了视频手语理解领域的首个手语大模型SignBERT,并结合基于指令精调的大语言模型,研发了一套面向市政公共政策问询的聋人视频手语问答系统。该系统分为三个关键模块:手语识别子系统,将聋人的手语视频翻译为文本句子,实现了对听障人群手语表达的理解;自然语言问答子系统,针对文本问题,利用指令微调后的大语言模型和文档检索技术,输出文本答案;手语合成子系统,将自然语言的文本答案转换为符合手语语法规则的数字人手语视频。

据周文罡研究员介绍,今年内,机器博弈团队就将和合肥市12345热线合作,在小程序上加载这一手语问答系统,帮助聋人查询公共政策和公共服务信息。而这只是短期的目标。至于长期的目标,则是把手语问答系统推向更广阔的应用场景。“手语数据的收集标注需要聋哑人参与到我们的工作中,为我们的模型提供更多的信息。与受限的实验室研究不同,在现实场景中,采集到的数据存在很大的偏差,如何在开放的场景下提供准确的翻译结果是更具挑战的问题。”周文罡说。

科大讯飞:让聋人“听得见”

中科大MCC的工作是让聋人的手语能被普通人理解,而科大讯飞的工作则是让普通人的话能被聋人“听见”。

早在2017年,科大讯飞就发起了“三声有幸”公益项目,该项目通过讯飞开放平台技术赋能,向公益开发者提供AI能力,帮助开发者开发无障碍应用。

2019年,科大讯飞联合中国聋协、中国残疾人艺术团发起“听见AI的声音”关爱听障人士公益行动,以多语种智能语音技术为支撑,围绕讯飞听见系列、讯飞听见小程序、讯飞听见网站——会记、讯飞同传、讯飞听见会议等软件产品,为听力障碍人士提供免费的实时语音转文字服务、捐赠产品或者免费时长。截至2023年年底,“听见AI的声音”关爱行动累计为听障人士提供超1亿分钟的免费转写服务,并承诺终身免费提供相关服务。

不过,科大讯飞并不满足于只让聋人通过“屏幕”听见声音。2022年5月6日,科大讯飞发布了旗下首个C端医疗系列产品——讯飞智能助听器。在声音清晰度、啸叫抑制、舒适度等关键指标中,讯飞的产品主打数字多通道、App自主验配、自适应场景识别等功能,满足了听损患者的需求。针对不同等级的听力残疾,讯飞推出了不同价位的助听器产品,最便宜的一款价格不到千元。讯飞的产品价格上相当能打,往往只是同等级外资品牌产品的一半,这对长期被外资品牌把持的助听器市场形成强力冲击。据讯飞助听器团队的负责人介绍,智能助听器目前在国内的市场规模大约是80亿元,讯飞助听器目前的销售规模已经达到一点几亿元,他相信未来还会有更大的市场份额。

新技术不断喷涌,底座是大模型

科技造福的不只是聋哑人。2023年11月13日,安徽省残联与科大讯飞联合打造的长三角区域智能康复辅助器具与技术重点实验室安徽分中心在合肥揭牌。该中心整合了中国科学技术大学、中科院合肥物质科学研究院、中科(安徽)G60智慧健康创新研究院、安徽三联集团、中国科学技术大学附属第一医院、安徽医科大学第一附属医院等省内优质高校、科研院所及医疗资源,立足于人工智能和智能机器人方面的技术底蕴,聚焦于运动功能恢复,安全无障碍出行,言语无障碍沟通等方向,联合开展技术攻关,系统性创新满足残疾人群体多样化辅具需求。

在实验室整合的助残科技资源中,安徽三联机器人科技有限公司的全自动床椅一体机,把轮椅和床相结合。通过遥控器,残疾人可以躺在床上就将床的一部分变形成轮椅并让自己坐在轮椅上,之后让轮椅与床体脱离行动,可以出门遛弯、去餐厅吃饭,返回房间时,还能通过自动导航让轮椅和床体重新结合并让自己再度躺下。“能自己独立行动出门逛逛,对于残疾人来说,他的心情会好很多。”安徽三联机器人市场部总监吴先春对记者说。

爱博智能的下肢步行康复训练设备,能够帮助肢体残疾人进行康复训练。产品采用一体化人体工学设计,结合自研的个性化仿生步态数据模型,通过高性能执行器和力位混合控制算法驱动步态机械腿,让步行训练动作更柔和。

机器博弈团队的另一个科研项目智慧轮椅,能够自动导航到目标位置并规避动态障碍,实现了室内的自动驾驶。“基于视觉与激光雷达等传感器提供环境感知,我们设计了智能导航决策模型,使轮椅能够在各类场景中自动驾驶,为盲人、腿脚不便人群、老年人等弱势群体的日常生活提供帮助。该智能轮椅能实现室内动静态场景的成功导航,并支持语音指令目标和手动标记目标导航,在中科大先研院未来中心、中科大高新校区信智楼等室内场景通过了大量动态行人干扰测试,测试中导航成功率约达80%以上。团队的相关研究成果已被计算机视觉领域国际顶会CVPR2024接收,并获得CVPR2023 Habitat Navigation Challenge视觉实例目标导航挑战赛冠军。”周文罡说。

合肥市智能机器人研究院的“孤独症谱系障碍多模态智能化辅助诊断系统”则是针对孤独症领域研发的。基于EEG/FNIRS混合脑机接口技术,该系统将非侵入式脑功能信号作为非主观、靶向性、定量化生物标记物,协助医生快速实现脑功能发展障碍疑似儿童的早期筛查、诊断分析以及康复效果评估,解决专业医师匮乏、诊疗效率低下、客观评定欠缺、个体差异显著等痛点问题,提升我国儿童脑功能障碍疾病筛查干预服务科学性、标准化水平,满足基层卫生医疗机构、公立医院、特教学校、专业康复机构、社区居家现实需求。“孤独症谱系障碍是一类以社会交往障碍、狭隘兴趣和重复刻板行为,以及感知觉异常为主要特征的发育性神经系统疾病。一般起病于3岁以内,症状通常伴随终生,3-6岁是干预的黄金时间段,一旦错过,将对孩子和家庭造成终身负担。我国孤独症发病率约为1%,其发病机制复杂且尚不完全明确,世卫组织建议‘早发现、早干预’。未来,我们将围绕精准医学临床需求,采用脑科学与认知科学方法,逐步建立人工智能驱动的以孤独症患者为中心的全时空技术与服务体系,关爱儿童、造福社会。”合肥市智能机器人研究院康养装备所所长何雷对《华夏时报》记者说。

在和各科技助残企业交流的过程中,“多模态”“算法”“大模型”“人工智能”等词汇不断被提及,大模型成为助残科技的底座。

“在讯飞,各种助残的科技运用都是基于讯飞星火大模型去推动。无论是无障碍的语音转化交互,还是对环境的感知、提醒、识别,都是通过大模型的功能去实现。科技是应用的底座,而在我们产品的诸多科技应用中,讯飞星火大模型是其中最硬核的一环。”苏莹对《华夏时报》记者说。以前文提及的“三声有幸”公益项目为例,讯飞开放平台在2023年为公益开发者开启了讯飞星火认知大模型的API绿色申请通道,一系列接入讯飞星火认知大模型的无障碍应用加速喷涌。截至2023年12月,公益开发者们开发出3万个无障碍应用,累计为1368万名视障人士和听障人士服务,每天为视听障人群提供超过5000万次AI服务。

责任编辑:徐芸茜 主编:公培佳

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部