衡量你的品牌在 LLM 中的表现:SoV、情感与引用
四个关键指标,告诉你 LLM 究竟如何描述你的品牌——以及数字出乎意料时该怎么办。
大多数品牌监测工具是为一个"链接主导"的世界而生的。它们追踪新闻报道、社交媒体和评测网站上的提及——有人写了什么、有 URL 可以指向它。LLM 彻底打破了这套逻辑。
当 ChatGPT 在回答中描述你的品牌时,没有文章可以剪藏,没有作者可以联系,也没有 URL 可以追溯。这条提及存在于一段每次运行都会变化的综合性答案里。要衡量它,需要一套全新的指标体系。
以下是真正重要的四个指标。
指标一:Mention Rate 与 Share of Voice
这两个很容易混淆,所以一开始就把它们拆清楚。两者都在回答"我的品牌在 LLM 答案中有多可见?",但角度不同。
Mention Rate(提及率) 更简单——你跑的所有提示词里,模型有多少比例提到了你的品牌。
mentionRate = 品牌提及次数 ÷ 提示词总数 × 100%Share of Voice(声量份额) 是竞争视角的——在这些答案里出现的所有同类品牌名中,属于你的占多少?
SoV = 品牌提及次数 ÷ (品牌提及次数 + 竞品提及次数) × 100%如果还没配置竞品,SoV 会回退为 Mention Rate 的值,让单品牌工作区在仪表板上也能看到一个数字。一旦添加了竞品,SoV 才会反映真实的份额——而且通常比 Mention Rate 更值得长期跟踪,因为单纯的 Mention Rate 上升可能只是 LLM 开始提到更多工具,而不是你拿到了更多份额。
举个例子。你向 ChatGPT 跑了 100 条品类内潜在买家可能会问的问题,其中 41 条答案提到了你的品牌——你在 ChatGPT 的 Mention Rate 是 41%。如果竞品在这些答案里合计出现 59 次,你的 SoV = 41 / (41 + 59) = 41%;但如果竞品在同样 100 条答案里合计出现 120 次(每条答案点了两三个对手),你的 SoV = 41 / (41 + 120) ≈ 25%——答案变得更拥挤了,哪怕你自己的 Mention Rate 没动。
对这两个数字进行细分,才能最大化它们的价值:
- 按 LLM 细分:你在 Perplexity 上的 SoV 可能是 55%,在 Gemini 上只有 20%。这种差距通常反映了不同的训练数据和检索行为——而且是可以采取行动的,因为每个平台的修复方式不同(提高在该模型权重来源中的覆盖率)。
- 按提示词类型细分:认知阶段的提示词("有哪些工具可以做 X")和决策阶段的提示词("做 X 最好的工具是什么")通常会呈现不同的品牌集合。你的品牌可能在认知阶段持续出现,却在决策阶段被内容更权威的竞品挤出。
- 与具体竞品对比:知道你的 SoV 是 34%,而主要竞品是 58%,才能让你清楚差距在哪、有多大——这远比孤立的总数更有可行动性。
SoV 是那个最重要的数字。其他指标都是在解释它为什么是这个值。
指标二:情感倾向
LLM 的答案并不是中性的提及。当模型在回答中包含你的品牌时,几乎总会用带有正面、负面或混合情感色彩的语言来描述它。
对比这两条提及:
"SeenForAI 是追踪 LLM 品牌存在感的团队的不错选择,在中文 LLM 覆盖方面尤为出色。"
"SeenForAI 有一些有用的功能,但界面有时显得杂乱,定价也偏高。"
两条都是提及,但只有一条是正面的。不考虑情感的 SoV 数据是不完整的。
仪表板会给出两个比率,分母是品牌提及次数(而不是提示词总数):
sentimentPosRate = 正面提及次数 ÷ 品牌提及次数 × 100%
sentimentNegRate = 负面提及次数 ÷ 品牌提及次数 × 100%情感倾向在不同 LLM 之间也会有显著差异。一个模型可能基于训练数据中的媒体报道给出正面描述,另一个可能更多呈现批评性的用户评价。了解这些差异很有价值——尤其是当你在特定平台上投入资源时。
大规模衡量情感,需要通过二次 LLM 处理来完成("请对这段回答中针对 [品牌] 的情感倾向进行分类:正面、中性、负面、混合"),或者依靠人工审阅——但后者在每周超过几十条回答时就无法规模化了。
指标三:幻觉率
这是最让团队感到意外的指标。LLM 会用极其自信的语气描述关于品牌的错误信息。
常见的幻觉类型:
- 价格错误:"X 品牌起价 19 美元/月"——实际价格是 49 美元/月
- 功能错误:声称你有某个你并不具备的功能,或否认你实际拥有的功能
- 定位错误:将你归入错误的竞争品类
- 背景信息错误:创立年份、创始人或品牌起源有误
幻觉的危害在于它们是隐形的。一个用户读到你的工具不支持某个你实际上支持的功能,可能因此放弃购买——而你永远不会知道原因。没有差评可以回复,没有工单可以处理。
验证 LLM 输出中的事实性声明,需要与已知的真实信息进行交叉比对。SeenForAI 采用多模型投票规则:当少于一半跑同一条提示词的 LLM 同意品牌出现时,这条品牌提及就会被标记为潜在幻觉。同样的阈值也用于事实性声明(定价、功能、品类)——当大多数模型不同意某一个模型对你品牌的声明时,该声明会被推送给人工审核。
指标四:引用 URL 追踪
当 LLM 确实引用了来源时,这些引用能告诉你一件重要的事:什么内容正在塑造模型对你品牌的认知。
如果 Perplexity 每次提到你时都在引用一篇两年前的 TechCrunch 报道,那篇文章就是模型描述你的方式的重要输入源。如果这篇文章已经过时,或者以一种不再符合你当前定位的方式描述你,这是一个可以真正解决的问题——通过更新你的公开信息、获取更新的媒体报道,或建立更权威的内容。
引用追踪同样是竞争情报。模型在推荐竞品而非你时引用了哪些 URL?了解哪些内容塑造了竞品的提及方式,就告诉你应该在哪里发力。
并非所有 LLM 都会引用来源。ChatGPT 的回答通常没有引用,Perplexity 则几乎每次都有。在可获取引用的平台上追踪它们,能让你窥见那个本来不透明的检索层。
仪表板会给出两个引用相关的数字:
citationRate = 带引用的提及次数 ÷ 品牌提及次数 × 100%
citationSoV = 品牌引用次数 ÷ (品牌引用次数 + 竞品引用次数) × 100%Citation Rate 告诉你你自己的提及里,有多少有源 URL 支撑。Citation SoV(只有配置了竞品才有意义)告诉你品类内所有有引用支撑的品牌提及里,指向你的占比——尤其能识别出"原始提及量看似健康,但模型实际上在大量引用竞品内容"这种情况。
健康的 LLM 品牌存在感是什么样的
基准因品类成熟度和品牌规模而异,但作为粗略参考:
- 在至少 3 个主要 LLM 上,核心品类 SoV 超过 20%,说明你有一定的可见度
- 情感倾向 70% 以上为正面或中性是健康信号;高负面情感比例意味着需要在内容和公关上采取行动
- 核心事实声明(定价、主要功能、品类定位)幻觉率接近零——任何此类幻觉都值得立即处理
- 引用来自近期、权威来源(不只是你自己的域名),说明模型对你品牌有较新鲜、可信的上下文
预警信号:在你参与竞争的品类中 SoV 低于 5%;在某个 LLM 上情感倾向明显比其他平台更负面(通常指向特定数据来源的问题);或者同一个事实持续产生幻觉(说明该事实在模型检索层有一个持续存在的错误来源)。
综合运用这四个指标
SoV、情感、幻觉率、引用来源——这四个指标组合在一起,构成了一套完整的监测体系,告诉你不只是是否被提及,更是被多准确、多正面地提及。
SeenForAI 将这四项指标的监测全部自动化,每天在 ChatGPT、Claude、Gemini、Perplexity、豆包、Kimi 和 DeepSeek 上运行。仪表盘呈现你的 SoV 趋势、标记情感变化、对幻觉发出预警,并追踪哪些 URL 正在驱动你的模型存在感。
seenfor.ai 的免费扫描会给你一份跨四个 LLM 的快照——在开始优化之前,先了解自己的现状。
更多文章
产品通讯
持续掌握更新
订阅获取 SeenForAI 版本发布与工作流技巧。