海康威视申请视觉问答方法等专利,保证即使输入视觉类文档等数据大语言模型仍可正常问答

海康威视申请视觉问答方法等专利,保证即使输入视觉类文档等数据大语言模型仍可正常问答
2024年11月11日 15:00 金融界网站

本文源自:金融界

金融界 2024 年 11 月 11 日消息,国家知识产权局信息显示,杭州海康威视数字技术股份有限公司申请一项名为“视觉问答方法装置设备存储介质及产品”的专利,公开号 CN 118916471 A ,申请日期为 2024 年 10 月 。

专利摘要显示,本申请涉及视觉问答技术领域,公开了视觉问答方法、装置、设备、存储介质及产品,包括:对视觉问题数据进行特征提取,生成视觉问题数据对应的多模态特征数据;根据多模态特征数据在预设模板库中进行查找,获得与多模态特征数据相匹配的目标示例问答数据;根据目标示例问答数据构建模型提示词;将模型提示词及视觉问题数据输入至大语言模型,以使大语言模型在模型提示词的指导下,根据视觉问题数据生成视觉问答结果。由于可根据视觉问题数据对应的多模态特征数据查找数据构建模型提示词,通过模型提示词对大语言模型进行指导,保证即使输入视觉类文档等包含图像的数据,大语言模型仍旧可以正常进行问答。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部