中科天玑申请一种网页列表页链接识别方法专利,能够对不同网页列表页链接高效、准确识别

中科天玑申请一种网页列表页链接识别方法专利,能够对不同网页列表页链接高效、准确识别
2024年10月24日 10:15 金融界网站

本文源自:金融界

金融界2024年10月24日消息,国家知识产权局信息显示,中科天玑数据科技股份有限公司申请一项名为“一种网页列表页链接识别方法”的专利,公开号CN 118797193 A,申请日期为2024年6月。

专利摘要显示,本发明提供一种网页列表页链接识别方法,包括获取网页列表的html文档,通过xpath将html文档转换成Dom树;所述Dom树包括若干主体,从Dom树的根为起始遍历主体以筛选主体中包含预设标签的链接url,提取并构成链接组;两两组合链接组内链接url,依据链接url内包含字符串种类和数量将其转换成向量数组,使用余弦相似度定理计算两数组的相似度,依据相似度是否超过阈值判断两链接url是否相似,相似度高的链接url保留至链接组;依据关键词过滤链接url,输出符合规则的链接。本发明通过余弦相似度算法对链接识别进行优化,能够对不同网页列表页链接的高效、准确识别,提高了识别的准确率和适应性。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部