实测微软强大的屏幕解析工具OmniParser

实测微软强大的屏幕解析工具OmniParser
2024年11月05日 07:43 黄建同学
【实测微软强大的屏幕解析工具OmniParser】微软发布的OmniParser,是基于纯视觉 GUI Agent 的屏幕解析工具,可将UI屏幕截图转换为结构化元素。#ai##科技# - 在HuggingFace趋势排名第一。- OmniParser不止是一个工具,还包括两个微调的大模型,检测模型和字幕模型。分别用于识别可操作区域和提取元素的功能语义,生成对应操作的上下文描述。- 这几天Transformer.js也实现了OmniParser在浏览器WebGPU上的Demo访问:github.com/microsoft/OmniParserTransformer.js 源码和DEMO:v2.scrimba.com/s08johf0et#ChatGPT[超话]#

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部