肖飒团队丨OCR也需要进行算法备案?第四批深度合成算法备案中出现OCR技术提供商!

肖飒团队丨OCR也需要进行算法备案?第四批深度合成算法备案中出现OCR技术提供商!
2024年03月11日 12:02 肖飒律师狮姐

01

第四批深度合成服务算法备案信息公布

就在上个月,国家网信办在其官方网站发布了第四批深度合成服务算法备案信息的公告,详细列举了第四批(2024年2月)通过算法备案的境内深度合成服务提供者清单。

《互联网信息服务深度合成管理规定》第十九条明确规定,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。深度合成服务技术支持者应当参照履行备案和变更、注销备案手续。同时按照相关规定,国家网信办会向全社会公布深度合成服务算法备案信息。截止到2024年2月,国家网信办已经公布了四批深度合成服务算法备案信息。

最新的2024年2月境内深度合成服务算法备案清单共涉及备案信息266项,其中包括全能扫描王、唯品会、什么值得买等著名互联网APP,也涉及AI恋人、小鱼AI写作、AI魔法头像等新兴AIGC领域应用。备案的功能大多涉及利用文本生成图片、生成视频功能。如唯品会APP备案的功能就是图片生成,即根据用户输入的图像或者模特二维数据,结合用户选择的服装图像,生成二维模特着装效果图,提供用户在线上实时选装、换装和查看试衣效果功能。从第四批算法备案清单来看,AIGC相关技术也被运用到电子辞典APP中,如已备案的西语助手APP、德语助手APP、欧路词典APP均涉及到文本生成功能,即根据用户输入的待翻译文本,生成指定目标语种,或根据用户输入的文本进行改写,在保持与用户输入文本语义相一致的情形下进行输入内容完善等功能。

02

光学字符识别技术(OCR)也属算法备案范围

上述这些备案的功能都是典型的AIGC应用,进行备案也中规中矩,但飒姐团队注意到,在本次备案清单中有一个备案信息不同寻常,即名片全能王APP的备案,备案清单中显示的该APP的主要用途为“应用于文本生成场景,根据用户拍摄上传的名片图像,提取图像中的文本信息,并以电子文档的形式转存到手机上”熟悉技术的老友们应该一眼看出,该主要用途描述在AIGC大潮爆发前就已经广泛存在,是已经被应用多年的OCR技术,也就是光学字符识别技术。

(一)何为光学字符识别(OCR)技术?

光学字符识别(Optical Character Recognition,OCR)是一项被广泛应用多年的、已经较为成熟的技术,其实质就是对包含文本内容的图像或视频进行处理和识别,并提取其中所包含的文字及排版信息的技术。在日常办公领域,一个常见的OCR应用就是将包含文档图像的不可编辑状态的PDF文档通过OCR技术识别后,转换为可编辑状态的PDF文档。进而可以在PDF文档中查找特定的字段。如飒姐团队就经常使用PDF阅读器中带有的OCR功能扫描PDF文本,进而快速提取文本中需要的信息。

除日常办公场景外,OCR技术还被广泛应用于智能手机中,目前绝大多数品牌的智能手机都出厂自带场景文本识别功能,我们用的微信APP中也带有场景文本识别功能,这些场景文本识别功能所依赖的就是OCR技术。场景文本识别功能允许用户在智能手机中搜索或提取相册图片中带有文本图像的内容。比如我们在微信聊天记录中搜索“身份证”三个字,点击“图片”,微信APP就会搜索带有“身份证”三字的图片。再如通过手机拍摄商铺的招牌、超市内商品外包装袋,手机中就会将招牌、外包装袋上的文字提取出来。这项技术早在AIGC大潮来临之前已经成熟。实际上日本早在20世纪60年代就已经启动了OCR识别理论,并由此开发了邮政编码识别系统。早在10年前,OCR技术就已经被集成到绝大部分的PDF编辑软件中,在2017年前后OCR技术也被广泛应用于智能手机领域。因此相比人们常提及的深度合成、AIGC等技术而言,OCR算是一项“非常成熟且古老的技术”。

(二)本次备案为何会涉及OCR技术?何为光学字符识别(OCR)技术?

当我们对OCR概念进行拆解后就会发现这项技术与AIGC领域的“利用图片生成文本”(即图生文)功能实际上是相契合的。以日常办公场景为例,绝大多数不可编辑的PDF文档,实际上就是以照片形式扫描而成的文档。(如利用全能扫描王APP扫描某份纸质文档,生成的PDF实际上就是图像)。在对该“图片”进行OCR时,其本质就是一种图像生成文字的过程,严格上歪打正着也符合“深度合成服务”的定义。在这个过程中,提供OCR技术就可以被认定为深度合成服务提供者。根据《互联网信息服务深度合成管理规定》第十九条之规定,倘若这类提供OCR技术的深度合成服务提供者,其网站或APP具有相应的允许用户留言、交流等功能,那么就有可能被认定为具有舆论属性或者社会动员能力。因而其技术就需要按照《互联网信息服务算法推荐管理规定》履行备案手续。

03

写在最后

正如飒姐团队在上文所言,光学字符识别技术(OCR)发展极为成熟,在国内被广泛应用到日常办公(如PDF文档中的OCR)之中,智能手机的APP中多数也会嵌入相关服务(如场景文本识别,通过APP扫描照片来提取照片上的文字)。第四批算法备案清单中出现了主要应用OCR技术的APP,对市场的影响可谓是巨大的,这向相关服务提供商明确了光学字符识别技术(OCR)也属算法备案范围,OCR服务也属于深度合成服务。飒姐团队在此提醒相关从业者,倘若提供OCR服务且相应APP具有允许用户留言、交流等功能,则其本身极有可能会被认定为具有舆论属性或动员能力的深度合成服务提供者,应当按照《互联网信息服务深度合成管理规定》履行相关的备案手续。

以上是今天的分享,感恩读者!

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部