万方科技申请数据清洗专利,降低数据清洗时的时间和空间复杂度

万方科技申请数据清洗专利,降低数据清洗时的时间和空间复杂度
2024年01月27日 14:10 金融界网站

本文源自:金融界

金融界2024年1月27日消息,据国家知识产权局公告,扬州万方科技股份有限公司申请一项名为“一种重复或相似数据的清洗方法、系统及介质“,公开号CN117453671A,申请日期为2023年11月。

专利摘要显示,本发明公开了一种重复或相似数据的清洗方法、系统及介质,包括步骤:获取由数个样本构成的原始数据集;提取原始数据集中所有样本的特征向量;基于全部样本的特征向量构建索引库;对于每个特征向量,依次在索引库中检索出与之对应的相似度大于阈值t的样本,若大于阈值的样本数量超过设定值k,则只保留k个,否则全部保留,作为候选样本;划分阈值,通过迭代对候选样本进行归并,得到对应的簇,每个簇仅保留簇中心样本参与下一轮归并,所有迭代结束后每个簇仅保留簇中心样本,得到不相似数据。本发明旨在降低数据清洗时的时间和空间复杂度,在有限的资源和时间内,完成数据清洗并确保良好的清洗效果。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部