本文源自:金融界
金融界2024年11月11日消息,国家知识产权局信息显示,浪潮云信息技术股份公司申请一项名为“面向大模型的数据清洗方法及装置”的专利,公开号 CN 118916353 A,申请日期为 2024 年 8 月。
专利摘要显示,本申请公开了一种面向大模型的数据清洗方法及装置,该方法为:基于大模型的待清洗数据集,确定对应的清洗任务;对待清洗数据集进行分割,以获得多个数据块;根据任务资源配置以及集群当前剩余资源,确定每个数据块所匹配的数据运行节点;基于清洗策略配置,生成每个数据块对应的数据清洗作业;将每个数据块以及对应的数据清洗作业,分发至每个数据块所匹配的数据运行节点,触发每个数据运行节点按照优先级由高到低的顺序,依次采用多个清洗策略对数据块进行数据清洗,以获得已清洗数据;基于多个已清洗数据,确定为大模型所需的有效数据。该方法可确保每个清洗策略所面向的清洗对象为数据块,避免多次扫描待清洗数据集,从而提高数据清洗效率。
4000520066 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有