即使提示相同,AI推荐也差异很大。新数据显示意图是一致的,但位置追踪大多是杂音。
当ChatGPT、Claude或谷歌的AI被要求推荐品牌或产品时,它们几乎不会重复回同一个列表——而且几乎从不按相同顺序返回。
这是SparkToro首席执行官兼联合创始人Rand Fishkin与 Gumshoe.ai 的首席技术官兼联合创始人Patrick O'Donnell最新研究的一个重大发现。他们调查生成式人工智能的推荐是否足够一致以进行测量。
他们测试的内容。六百名志愿者通过ChatGPT、Claude和谷歌的人工智能运行了近3000次12个相同的提示。
- 每个回复都被规范化为有序的品牌或产品列表。团队随后对这些列表的重叠、顺序和重复进行比较。
- 目标是看看相同的答案实际出现的频率。
简短的回答是:几乎从不。在各种工具和提示中,两次获得相同列表的概率不到1/100。获得相同名单且顺序相同的概率接近千分之一。
- 连名单长度也差别很大。有些回复列出了两三个选项。还有人点名了10个或更多。
- 如果你不喜欢结果,数据建议一个简单的解决办法:再问一次。

我们关心的原因。我们听说个性化驱动了人工智能的答案。这是首次有真实数据支持这一说法的研究——其影响深远。如果你想找SEO和GEO的具体分歧方式,这就是答案。
设计中随机。这不是缺陷。这就是这些系统的运作方式。
- 大型语言模型是概率引擎。它们的设计目的是产生变异,而不是返回稳定、有序的结果集。
- 把它们当作谷歌的蓝色链接来对待,是误导了重点,反而产生了糟糕的指标。
有一样东西有效。虽然排名在审查下崩溃,但有一个指标比预期表现得更好:可见度百分比。
- 有些品牌在几十次跑中反复出现,尽管排名不断变化。在某些情况下——医院、代理机构、消费品牌——名字在某一意图的回答中占60%到90%。
- 重复出现意味着什么。具体的军衔则不行。
尺寸很重要。市场越小,结果越稳定。
- 在狭小空间——比如区域服务提供商或细分的B2B工具——AI的回答围绕着几个熟悉的名字。在庞大的类别中——比如小说或创意机构——结果则散落成混乱。
- 选项越多,随机性越大。
提示是混乱的。团队还测试了真实的人类提示,结果非常混乱——而且非常有人性化。
- 几乎没有两个提示词看起来完全一样,即使大家想要同样的东西。语义相似度极低。
- 令人惊讶的是:尽管措辞大相径庭,AI工具仍然返回了类似的品牌集合,且背后意图相同。
意图得以存续。在耳机推荐方面,数百个独特提示仍常被Bose、索尼、苹果和森海塞尔的领先者推荐。
- 改变了意图——游戏、播客、降噪——品牌也随之改变。
- 这表明AI工具能够捕捉意图,即使提示很奇怪。
没用的是什么。AI回答中追踪“位置”。
- 这项研究直白:排名极不稳定,实际上毫无意义。任何销售AI排名变化的产品都是在卖虚构。
什么方法可能有效。记录你的品牌在多个提示中出现的频率,运行多次。它并不完美。很乱。但这比假装AI答案像搜索排名一样更接近现实。
开放性问题。菲什金指出了仍需解答的空白。
- 需要多少次运行才能让可见度数据可靠?
- API的行为像真实用户吗?
- 有多少提示词准确代表一个市场?
底线。AI推荐列表本质上是随机的。能见度——经过仔细且大规模的测量——仍可能告诉你一些真实的东西。只是别把它和排名混淆。
4001102288 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有