AI2.0时代,51Sim四大合成数据落地案例,为自动驾驶提供AI燃料!

AI2.0时代,51Sim四大合成数据落地案例,为自动驾驶提供AI燃料!
2024年04月08日 12:08 51WORLD数字孪生

大模型、Sora所引发的科技热潮尚未褪去,AI世界却出现了前所未有的难题——数据不够用了。

训练强大的大语言模型的前提在于充足的高质量数据。以Open AI为例,GPT-4的训练消耗了惊人的13万亿tokens。随着AI性能的提升,这一数字将进一步激增。有人预判,GPT-5所需tokens可能高达60万亿到100万亿。

数据需求在指数级增长,现有的数据存量与增长速度却远不足以支撑更先进AI的训练。有学者认为,高质量语言数据将在2026年前被耗尽!全球AI公司正面临严峻的数据危机。

为了应对这轮数据挑战,大量的AI公司开始将目光投向了合成数据

51Sim利用合成技术生成的摄像头及激光点云合成数据

顾名思义,合成数据就是通过计算机程序或其他方式生成的虚拟数据,而非从现实世界中直接采集而来。合成数据具备更高效率、更低成本、更高质量等优势。

在中国,经过多年的技术与商业化探索,合成数据已逐渐被市场接受与认可,并在自动驾驶、金融、医疗、零售等领域落地。

51Sim作为51WORLD旗下的数据仿真平台,早在2020年便开始了对合成数据的技术探索与落地应用,如今已构建起了大量高质量的合成数据集及针对3D数据生产的工具链,并落地了大量的标杆案例,帮助传统行业进行数字化转型的同时也致力于有效服务AI大模型训练。

PS: 最近51Sim合成数据案例还被收录进虎嗅智库《合成数据应用落地分析》调研报告  ↓↓↓

现在跟随我们的脚步,通过4大案例,来看看合成数据如何参与AI训练,又是如何在实际生产与研发中真正发挥效能。

预期功能安全(SOTIF)是自动驾驶车辆落地的重要保障,主要用于解决由功能不足或者由可合理预见的人员误用所导致的危害和风险。

它确保了自动驾驶系统在各种正常操作情况下能够安全地执行其预期功能。而提升自动驾驶系统预期功能安全水平的关键在于数据量,即从场景出发,尽可能捕捉大量的边缘场景、小概率事件,也就是俗称的corner case。

不过在实际自动驾驶训练中,主机厂们遇到了不少棘手难题:

1.部分边缘场景、复杂交通、恶劣天气状况等发生概率低,危险系数高,数据采集困难。

2.BEV感知依赖于多传感器(7v+摄像头、激光雷达、毫米波雷达)的联合标注,精准标注难,标注成本高。

为了应对日常感知训练中难以获取的数据,51Sim利用先进的仿真技术构建各类低概率、高风险的边缘场景,以增加训练样本和多样性,提升感知算法泛化能力,帮助主机厂加速模型训练,有效解决预期功能安全问题。

  • 静态场景生成

基于场景自动生成技术,依托完备的OpenDRIVE对路网的定义以及标准化的拓展,51Sim快速实现城市、乡村或高速风格等静态场景生成。这不仅缩短了场景构建的时间,更大幅度地降低了制作成本。

此外,还能快速生成多样化的环境,增加虚拟环境的多样性,包括更多样的照明场景和道路类型(城市、农村、高速公路)以及天气条件。

在智能驾驶仿真中,天气模拟至关重要。51Sim改变太阳和月球的光照、方位、大小、颜色,并利用仿真模拟技术,高拟真还原太阳和月球的位置。无论是晴天、多云、大雾,还是雨天、雨夜、雪天,甚至沙尘天气,都在仿真场景中得以逼真还原。

51Sim高拟真还原各种极端天气

  • 动态场景生成

动态场景生成首先需要场景标准化。基于自动驾驶仿真场景标准OpenSCENARIO,51Sim快速创建主机厂所需要的动态场景,并通过定义参数分布类型和取值范围,在仿真过程中生成各种变量,从而创建多样化的场景。此外,在环境中融入更多动态元素,例如行人走动、交通流量和密度的变化等,以模拟现实世界的复杂性。

以道路前方出现雪糕筒这样一个边缘场景为例,51Sim通过参数调整,可泛化出不同形态、不同角度、不同光照的雪糕筒倒地场景。

值得注意的是,尽管仿真为搜集小概率的边缘场景数据提供了优质解决方案,但生成大规模复杂动态场景并不轻松。 基于多年资产沉淀,51Sim创建了SOTIF要素库,支持工程机械车、仿真过程中打开车门的机动车、道路维修车、倒地电瓶车等元素即拿即用,帮助车企大幅减少复杂场景的制作成本,提高生成效率。

SOTIF要素库

  • 感知仿真

生成动静态场景后,51Sim采用基于真实传感器标定的物理级传感器仿真的方法,帮助该主机厂输出兼具真实性和多样性的多模态合成数据集。

其中,摄像头仿真基于实验室参数标定,能够模拟畸变、鱼眼、色彩还原、动态范围、清晰度、信噪比等参数。激光雷达仿真支持机械旋转式和MEMS混合固态激光雷达模型,支持所有主流国产激光雷达合成数据输出。毫米波雷达仿真支持多款4D毫米波雷达模型。

此外,51Sim通过结合两大核心技术:传感器模型像素级标注真值输出与多传感器同步仿真技术,进一步保障了合成数据的精确性和时空一致性。

利用合成技术生成的摄像头数据

  • 云端生成

云端通过简易配置,可以快速生成大规模、高质量、低成本的符合感知系统需求的合成数据集,有效增强了自动驾驶系统在异常条件下的应对能力。

在对原始数据集进行合成数据增补后,模型大大提升了边缘场景的应对成功率,如鬼探头、正在开车门的车、前车掉落货物等场景。总体上测试集得分相对于原始模型提升了5个百分点。

利用合成技术生成的激光雷达合成数据

随着国内汽车市场竞争日趋激烈,越来越多车企加速海外市场布局。但在实际落地中,主机厂们往往会遭遇严苛的数据安全监管。部分场景数据采集困难,无法完成自动驾驶系统的本地化适应性训练,严重阻碍了出海进程。

51Sim帮助该车企生成交通标志牌、停车场等场景合成数据,既解决了数据获取的挑战并兼顾数据隐私保护。

51Sim自动驾驶仿真平台SimOne内置的海外交通场景

针对难以采集真实数据的国外道路,51Sim通过获取现有的标志牌照片,在虚拟场景中模拟构建当地交通标志牌,并将其置入创建的国外道路虚拟场景中,不断泛化生成合成数据以投喂智能驾驶训练,从而帮助智能驾驶系统识别该地区的道路交通标志牌。

此外,国内相对比较成熟的智驾功能,比如自动泊车功能,都是利用国内的交通场景数据训练出来的。而出海则会面临与国内差异较大的交通场景。如何让海外消费者也能无缝体验自动驾驶泊车功能?如何在保障数据合规的同时,完成感知系统的本地化适应性训练?

为了破解这一难题,51Sim基于强大的模拟仿真技术,帮助主机厂构建出虚拟的高拟真海外停车场场景并生成相关合成数据,从而支持车企在未能采集到当地停车场景数据时,快速高效地训练泊车算法。

51Sim参与北京大学马雷牵头的“面向自动驾驶场景的高真实感数据合成”研究课题。该课题为科技部科技创新2030—— “新一代人工智能”重大项目“人工智能基础模型支撑平台与评测技术”中的课题研究五。

该课题通过构建技术国际领先、面向视觉模型应用落地的多模态数据标注的高逼真度合成场景数据集,推动视觉预训练大模型在自动驾驶场景应用落地。

此外,该课题将自动驾驶示范园区典型的真实场景与拟真度极高的渲染算法进行集成,生成带有多模态数据标注的高逼真度合成场景数据集,大幅推动视觉大模型和高速脉冲视觉模型算法研究评测和在自动驾驶场景实际应用落地

51Sim生成的高精度数字孪生场景合成数据

51Sim作为课题参与单位,与马雷课题组深入合作,发挥理论研究与技术研发优势,配合完成了智能驾驶场景高精度数字孪生场景建设及相关课题内容研发。具体来说:

  • 多模态合成数据生成框架

51Sim联合北京大学,针对课题需求构建了包括车载摄像头图像和视频流、脉冲相机、激光雷达点云、毫米波中频数据、高精路网车道线等多模态多数据生成框架,可生成车侧摄像头、路侧摄像头、无人机视角摄像头多视角的合成数据,包括2D/3D包围盒、语义分割、实例分割,深度图、法线图、占用网格、光流等真值。

此外该框架具有良好的开放性,用户可以外挂3D大场景、外挂动静态元素和灯光、自定义标注结果输出。

  • 生成感知仿真数据集

基于51Sim自主研发的自动驾驶仿真测试平台SimOne,课题组生成了30T+高精度数字孪生场景合成数据,给面向自动驾驶场景的视觉模型训练、验证和调优提供“高真实感仿真数据”燃料。

具体案例包括:

1.不同天气:包括晴天傍晚、晴天早晨、雾天傍晚、薄雾天中午、雨天、雪天、沙尘天等

2.鬼探头:不同天气不同场景下的鬼探头案例

3.前车急刹:包括小汽车和大卡车前车急刹等案例

51Sim生成的高精度数字孪生场景合成数据

具体数据类型包括:

1.6路周视相机数据,包括语义分割图、深度图、法线图、2D/3D包围盒真值。

2.激光雷达HS-P128数据及对应的3D包围盒真值,PCD点云格式。

3.毫米波雷达ARS408数据及其真值 。

路侧感知是车路协同系统的重要组成部分, 某雷视一体机厂商需要针对道路交通事故、违章行为进行算法训练。基于机器学习的识别算法需要大量的标签数据, 而人工打标签被验证是一个效率极其低下的方式。

同时,真实交通场景十分复杂,基于实采的事故和违章场景数据量严重不足,使得训练难度和成本很高,限制了算法的研发进度。此外终端业主在采购雷视一体机硬件时,也需要厂商提供设备的识别准确率,基于路侧模拟难以完全实现。

针对这一痛点,51Sim对总长10公里的真实城市道路进行高精路网还原,同时针对标志牌、周边建筑、树木等各类要素进行静态数字孪生场景构建,并借助TransAI对车流进行了模拟还原,由此形成道路数据集。

基于数据集进行事故和违章场景构建,可泛化出数十万种不同场景,最大限度还原真实交通环境中超速、违停、违章变道的相关特性。在仿真环境中输出带标签的激光雷达点云数据, 通过与感知算法识别的点云结构化结果进行对比,验证感知算法的准确性。

该合成数据集成为了真实路侧数据的重要补充,通过仿真训练,该雷视一体机厂商的数据大模型准确率提升了7%。

未来,51Sim将进一步深耕合成数据技术,提供高质量的合成数据解决方案,以降低数据成本,推动AI技术的发展。

点击链接可领取虎嗅智库《合成数据应用落地分析》调研报告https://hri.huxiu.com/report/108.html

了解更多产品及解决方案

可扫描下方二维码

关注51WORLD官方号

关于51Sim

51Sim是由51WOLRD于2017年开始孵化的数据及仿真平台业务版块,专注于为智驾及交通领域客户提供数据驱动闭环全栈仿真测试及宏中微观一体化交通仿真的解决方案,加速智驾量产落地同时实现更加高效,安全和低碳的交通运输系统。公司具有独立完整的自主知识产权,核心产品包括仿真测试平台SimOne、数据闭环与合成数据处理平台DataOne、交通信息模型平台TIM等。已累计与近百家行业客户合作并落地一系列标杆案例。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部