扣子模型广场,把模型打分权交给开发者

扣子模型广场,把模型打分权交给开发者
2024年06月14日 09:00 数智前线

扣子给开发者做了一个AI工坊,让开发者可以低成本、一键触达大模型。

文|徐鑫 赵艳秋

编|周路平

大模型不缺热点,价格、参数、工具链、长文本、多模态,竞争激烈,热闹非凡。

AI应用开发者们却犯难了。底层模型快速升级变化,怎么更好地追踪各家模型的能力?不同模型在场景里的能力差异点到底在哪?要做一个应用,如何更快选出适合的模型

这一真实痛点下,近日,在字节旗下AI 应用开发平台扣子联合 Intel 推出的AI工坊( Coze AI Factory )活动中,扣子重磅上线了“扣子模型广场”。广大开发者可以低门槛、广泛参与模型能力评测,为应用开发提供指引。

在模型广场里,用户可以向两个基于不同底座模型搭建的Bot发出请求,Bot会匿名返回不同的结果。根据结果,用户能比较不同模型在特定场景里的表现并打分。“产品好不好用,用户会用脚投票”,扣子的模型广场,用轻松对决方式,让开发者们给大模型的场景能力投票,极大程度降低了评测模型能力的难度

选对底层模型能力,关乎AI应用效果,模型广场的出现也有利于AI应用获得更好的用户口碑。

扣子正持续从产品和功能上发力,降低AI应用开发门槛,加速AI应用生态繁盛。

01

好不好用,谁说了算

去年,一个AI开发者对我们讲述了用大模型开发AI应用时的纠结,“有时候你根本不知道是模型的问题,还是场景的问题,还是你自己的问题,还是三者都有问题”。

这看起来像是个段子,但其实反应出了当下开发者群体在用大模型技术时的典型心态——到底大模型能不能用在某个具体场景里,基于这个场景里的模型选得对不对,要做的工程化工作到底做没有做好。

经过一年多探索,大家对大语言模型能做哪些事情基本上有了共识和定论,场景和模型匹配环节却变成了更大的卡点

市场在快速变化,厂商们不断推新,比如挂载知识库等能力,提供更大的文本窗口等。细分领域里的AI应用开发者,到底该怎么从这么多家模型里,选出合适的模型,开发自己的应用呢?

最近,扣子针对这个痛点,推出了一个很轻松好玩的功能“模型广场”,可以一键来PK各家大模型在不同场景的能力。有三种方式来评估大模型在特定应用场景和规则里的性能——Bot 对战随机Bot对战纯模型对战

Bot对战模式下,扣子目前提供了多种场景里的不同Bot,用户可以选择任一场景里的Bot去看两个匿名的大模型的表现。

如果你很明确对“信息分析与处理”场景里,不同大模型的能力差异感兴趣,可以选这个分类下的“LYi论文助手”Bot来测试。

界面内会出现两个基于不同的大模型底座搭建的Bot,模型A和模型B。同样的指令发出之后,它们会给出不同的回复。

全部回复完成后,页面上会跳出一个打分栏,用户需要对两个匿名大模型的场景能力作出评分。

基于回复的内容,我发现模型A在对相关参考文献的信息提取及结构化呈现上能力更强。将整个任务从背景、研究内容、意义、研究结果和参考文献做了更完整的呈现,更符合现实生活里论文阅读和信息提炼场景里的需求。而模型B严格基于问题的要求“背景和意义”这两个需求出发,把所有的研究内容都放到了意义部分呈现。虽然达到了预期目标,但是从结构化能力角度,A的回答更为丰富。

我给这次PK打分“A表现更好”之后,系统揭开了两个模型的神秘面纱。

扣子在产品界面设计中非常注意用户参与,分享按钮的存在可以直接把整个过程完整截图。如果你感兴趣我的评测打分过程,可以横屏看这个长图里两个模型的表现。

如果你没有明确的测评方向,随机Bot对战模式下,系统会自动给你分配一个Bot来评测两个匿名大模型的性能。之后的体验过程与前面的指定Bot对战完全一样。

还有一种对战模式,纯模型对战,它不会选定任何Bot,直接给模型提要求即可。我以刚刚过去的全国高考“甲卷”的作文要求为例,让两个大模型展开了对决。

从结果看,两个匿名大模型基于不同的侧重点给出了回复。模型A更强调表达时的自然感,它的文风与我提出的请求风格保持一致。模型B更强调内容表达的结构性,它分层表达,更为严谨。

这个测试里能看出来两个模型偏重的方向并不一样。所以如果开发者想做一个跟人对话互动类的应用,可能模型A更合适,而如果想做信息提炼类应用,模型B则更符合要求。我给这次对决的结果打分为“两个都不错”。

三种模式,两个模型对决,扣子的产品界面和设计细节充满了趣味性,看得出来,它希望大家都能很轻松地去参与这种评测。

02

接入主流模型,满足全场景

目前扣子的模型广场里,可以选择对战的Bot,覆盖了信息分析与处理、知识应用、推理能力、编码能力、任务解决、生成创作和角色扮演等多个场景。

这其实也是目前大模型能力比较擅长的场景和领域。做了这么多细分,实际上也是从开发者视角出发。因为到真正应用层,每个开发者一定是瞄准特定的场景去做尝试。

市场上之前也有不少评测指标和榜单,就是想给用模型的开发者们提供一些指引。但这些评测多数都是裸模型评测居多,从应用开发角度,光靠裸模型可能不够。

每一个应用开发者都有面向的细分场景,所需要的可能也不是一个大模型的全部能力,而是要充分用好它在某一个场景内的潜能。所以扣子分场景对决,是真正从应用落地出发的尝试。

这些动向和安排下,扣子的思路一目了然。

一方面,用实际的使用效果,来直观呈现不同的场景里大模型到底好不好用。是骡子是马,拿出来遛遛,用体验和效果说话。评测过程里两个模型是匿名的,到打分之后你才能看到好评的模型是哪家的,能极大保证评测的公正性。

目前,扣子已经接入了豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan等国内主流大语言模型。更多主流大语言模型的接入,意味着更多人来评测和反馈,解决了开发者们的选择困难症。

有人说,人工智能之所以像人工智障,还是因为模型能力不行。如果开发者们都能基于自己的场景,选择场景内能力更强的模型,应用的效果就会更好。从这个角度看,扣子做的事也是在帮助整个行业扫平AI应用落地的障碍。

03

遇事不决,用用Bot

除了最新上线的模型广场,扣子还有其他的功能和产品,让更多人更低门槛、更便捷地体验AI。

扣子也上线了Bot(机器人)商店,类似苹果的AppStore,每个Bot就是一个个小应用。

扣子用户在上面搭建了五花八门的Bot,有高考志愿咨询,有剧本杀、动漫、小红书文案,还有哄女友神器......看起来,爱读书的人可真不少,扣子上不少读书的小助手,像“认真看一百本书”、“假装看过一万本书”,用户都很多。

商店中的Bot还在不断上新。这个月高考刚刚结束,各种有关志愿咨询的Bot很受欢迎。

像高考专业指南Bot,通过10道选择题,分析用户的性格特点和对未来生活的愿望,然后给出参考的报考专业方向。从右侧的介绍可以看到,它基于豆包Function call模型,开发者做了私有工作流。

我试着做了下选择题,它为我推荐了计算机、历史和管理学专业,还贴心给出了毕业后这三个专业的起始平均薪资,分别是8000、5000和6000元。

如果你说这类应用,之前的一些小程序也能实现,那就再看看这个高考志愿填报咨询师,问了一句,“河北考生,高考总分460,选课组合是物理、历史和政治,想报考芯片专业”,它提供出一些参考的学校。

除了高考的Bot,还有很多非常有趣的Bot。比如这个橘猫漫画家,可以一句话生成一组橘猫漫画,而这些可爱的猫咪太治愈了,之前的小程序很难给人们这样的体验。我发给它“一只橘猫失恋了”,它创作了一组四张画来安慰我。

04

如何一句话做一个Bot

我们不仅可以在Bot商店使用各种有趣的Bot,也可以创建自己的Bot,而且门槛很低,只要一句话。扣子就像是一个实验工坊,怪不得一些小学生也能从零起步,并且制作复杂的Bot。

对了,现在扣子和 Intel 联合推出了 AI 工坊( Coze AI Factory ),这是一个主题 Bot 征集活动,欢迎你也来尝试下呀。

我们尝试创建了一个Bot,叫图说故事。点击“创建Bot”,只要起名字、写下一句功能介绍就好了。

因为这个Bot的功能是图说故事,我准备选择一些插件,来提升Bot的技能。扣子上有插件商店,简单说它是一种辅助程序,能帮助主程序实现一些需要增加的特定功能。插件商店里提供了大量插件,看名字和一句话的功能介绍,就能选择,通过拖拽方式添加,普通人很容易上手。

我选择了通义万相文生图和ByteArtist的文生图插件,来分别试试效果。

现在,我对Bot说“画一只胖猫,夏天在院子里的大树下,给小朋友讲传说故事”。我看到Bot开始运行了,调用了通义万相。

它在几秒内生成了这张图。

就这么简单,图说故事Bot就做好了。

05

工作流,串联万物

生成一张图还不过瘾,我准备制作一个绘本。这需要在Bot再加一步,选择插入一个绘本制作的工作流。扣子上也提供了工作流商店。

这次我通过搜索,在我的图说故事Bot上,插入了绘本制作的工作流。

现在,我把一个猫和老鼠的故事交给Bot,但它回复我抱歉,无法制作绘本!我再次尝试,在故事前面加入工作流功能介绍中的“分镜制作”四个字,它终于运行起来了,调用了绘本制作工作流,生成了一个9张图的绘本。

有了自己创建的Bot,哄娃变得不再令人头疼。你还可以让小朋友一起参与,用Bot制作歌曲、制作故事。如果说之前的小朋友是互联网原住民,那么现在的小朋友,或许将是大模型和Bot的原住民。

最近,大家发现,Bot上又出现了“添加图像流”的功能。顾名思义,图像流是处理图像的工作流。同样是通过拖拽方式添加,很容易上手,这是用AI技术,来降低我们处理图像的门槛。

夏天到了,我想给自己搭配下穿搭。我选择了“换衣”这个图像流,添加在我新创建的一个“Pattaya”小助手的Bot里。再从图库中找来一张图片,发给小助手,标注“生成穿搭图”。

可以看到,它开始调用换衣的图片流。

几秒钟后,它给出了两张穿搭图片,可以点击查看,穿搭很清爽。

你还可以用图片流实现智能换脸、换背景、扩图、抠图、多图融合等等。有趣的是,我创建的Bot,也可以选择一键发布到各个社交平台、通讯软件或部署到网站等其他渠道。

我在想,如果将来要做一个卖衣服的电商网站,将会变得非常简单,可以用扣子创建一个个Bot,创作文案、生成模特海报,还可以让用户来一键换衣看效果,当然也可以用Bot实现财务处理、进销存、物流的自动编排。

未来我们的生活和工作,可以被一个个Bot串联、并联起来了。

06

知识库让Bot更个性化

除了这些尝试,我最近还有一个诉求,我和同事们在日常工作中积累了大量的专业文档。上周,我同事还在为我们小组分散在四处的文档发愁。怎么建设一个属于我们的知识库,方便大家检索查询?

我们发现,在Bot上,有新增知识库功能,也是通过拖拽方式,把各种形式的知识储存,最多可以上传300个文档。我准备上传一个很硬核的文件——华擎主板570。在上传前,我先问了Bot一个问题,让它介绍下这个主板。可以看出,它给出的答案是比较笼统的。

然后,我创建了Pattaya的知识库,上传了华擎主板570的专业文档。再一次问同样的问题,这次,它回复的很具体,还给出了文档中的相关页面。

这个尝试之后,我和同事们计划梳理几个个性化知识库,有案例库、大模型知识库等,方便我们小组内的检索和复用。而我的一个朋友,准备把他这两年观鸟的图片,也做成一个知识库。

扣子上还提供更多的工具。比如,为了让 Bot与用户沟通时有更好的记忆能力,扣子支持将重要内容存储为关键变量、数据库。为了有更好的交互体验,扣子支持配置开场白、用户问题建议、快捷指令、背景图片、语音等,还支持卡片格式输出。

开发者间的交流也非常活跃。除了 Bot商店、插件商店和工作流商店的展示外,每个Bot右侧都有社区入口,大家可以交流。

也有不少开发者建立群组交流,做直播交流。有的直播,开发者在一起讨论起来,常常几个小时。

一位开发者说,扣子让他真正接触到了大模型。以前,他四处寻找,有些需要付费都不一定能用上。现在,扣子提供了各种模型和工具,就像一个AI的实验室或者AI工坊,让大模型变得触手可及,帮助他开启了未来之旅。对我们普通用户而言,又何尝不是呢!

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部