衡量你的品牌在 LLM 中的表现：SoV、情感与引用

大多数品牌监测工具是为一个"链接主导"的世界而生的。它们追踪新闻报道、社交媒体和评测网站上的提及——有人写了什么、有 URL 可以指向它。LLM 彻底打破了这套逻辑。

当 ChatGPT 在回答中描述你的品牌时，没有文章可以剪藏，没有作者可以联系，也没有 URL 可以追溯。这条提及存在于一段每次运行都会变化的综合性答案里。要衡量它，需要一套全新的指标体系。

以下是真正重要的四个指标。

这两个很容易混淆，所以一开始就把它们拆清楚。两者都在回答"我的品牌在 LLM 答案中有多可见？"，但角度不同。

Mention Rate（提及率） 更简单——你跑的所有提示词里，模型有多少比例提到了你的品牌。

mentionRate = 品牌提及次数 ÷ 提示词总数 × 100%

Share of Voice（声量份额） 是竞争视角的——在这些答案里出现的所有同类品牌名中，属于你的占多少？

SoV = 品牌提及次数 ÷ (品牌提及次数 + 竞品提及次数) × 100%

如果还没配置竞品，SoV 会回退为 Mention Rate 的值，让单品牌工作区在仪表板上也能看到一个数字。一旦添加了竞品，SoV 才会反映真实的份额——而且通常比 Mention Rate 更值得长期跟踪，因为单纯的 Mention Rate 上升可能只是 LLM 开始提到更多工具，而不是你拿到了更多份额。

举个例子。你向 ChatGPT 跑了 100 条品类内潜在买家可能会问的问题，其中 41 条答案提到了你的品牌——你在 ChatGPT 的 Mention Rate 是 41%。如果竞品在这些答案里合计出现 59 次，你的 SoV = 41 / (41 + 59) = 41%；但如果竞品在同样 100 条答案里合计出现 120 次（每条答案点了两三个对手），你的 SoV = 41 / (41 + 120) ≈ 25%——答案变得更拥挤了，哪怕你自己的 Mention Rate 没动。

对这两个数字进行细分，才能最大化它们的价值：

按 LLM 细分：你在 Perplexity 上的 SoV 可能是 55%，在 Gemini 上只有 20%。这种差距通常反映了不同的训练数据和检索行为——而且是可以采取行动的，因为每个平台的修复方式不同（提高在该模型权重来源中的覆盖率）。
按提示词类型细分：认知阶段的提示词（"有哪些工具可以做 X"）和决策阶段的提示词（"做 X 最好的工具是什么"）通常会呈现不同的品牌集合。你的品牌可能在认知阶段持续出现，却在决策阶段被内容更权威的竞品挤出。
与具体竞品对比：知道你的 SoV 是 34%，而主要竞品是 58%，才能让你清楚差距在哪、有多大——这远比孤立的总数更有可行动性。

SoV 是那个最重要的数字。其他指标都是在解释它为什么是这个值。

指标二：情感倾向

LLM 的答案并不是中性的提及。当模型在回答中包含你的品牌时，几乎总会用带有正面、负面或混合情感色彩的语言来描述它。

对比这两条提及：

"SeenForAI 是追踪 LLM 品牌存在感的团队的不错选择，在中文 LLM 覆盖方面尤为出色。"

"SeenForAI 有一些有用的功能，但界面有时显得杂乱，定价也偏高。"

两条都是提及，但只有一条是正面的。不考虑情感的 SoV 数据是不完整的。

仪表板会给出两个比率，分母是品牌提及次数（而不是提示词总数）：

sentimentPosRate = 正面提及次数 ÷ 品牌提及次数 × 100%
sentimentNegRate = 负面提及次数 ÷ 品牌提及次数 × 100%

情感倾向在不同 LLM 之间也会有显著差异。一个模型可能基于训练数据中的媒体报道给出正面描述，另一个可能更多呈现批评性的用户评价。了解这些差异很有价值——尤其是当你在特定平台上投入资源时。

大规模衡量情感，需要通过二次 LLM 处理来完成（"请对这段回答中针对 [品牌] 的情感倾向进行分类：正面、中性、负面、混合"），或者依靠人工审阅——但后者在每周超过几十条回答时就无法规模化了。

指标三：幻觉率

这是最让团队感到意外的指标。LLM 会用极其自信的语气描述关于品牌的错误信息。

常见的幻觉类型：

价格错误："X 品牌起价 19 美元/月"——实际价格是 49 美元/月
功能错误：声称你有某个你并不具备的功能，或否认你实际拥有的功能
定位错误：将你归入错误的竞争品类
背景信息错误：创立年份、创始人或品牌起源有误

幻觉的危害在于它们是隐形的。一个用户读到你的工具不支持某个你实际上支持的功能，可能因此放弃购买——而你永远不会知道原因。没有差评可以回复，没有工单可以处理。

验证 LLM 输出中的事实性声明，需要与已知的真实信息进行交叉比对。SeenForAI 采用多模型投票规则：当少于一半跑同一条提示词的 LLM 同意品牌出现时，这条品牌提及就会被标记为潜在幻觉。同样的阈值也用于事实性声明（定价、功能、品类）——当大多数模型不同意某一个模型对你品牌的声明时，该声明会被推送给人工审核。

指标四：引用 URL 追踪

当 LLM 确实引用了来源时，这些引用能告诉你一件重要的事：什么内容正在塑造模型对你品牌的认知。

如果 Perplexity 每次提到你时都在引用一篇两年前的 TechCrunch 报道，那篇文章就是模型描述你的方式的重要输入源。如果这篇文章已经过时，或者以一种不再符合你当前定位的方式描述你，这是一个可以真正解决的问题——通过更新你的公开信息、获取更新的媒体报道，或建立更权威的内容。

引用追踪同样是竞争情报。模型在推荐竞品而非你时引用了哪些 URL？了解哪些内容塑造了竞品的提及方式，就告诉你应该在哪里发力。

并非所有 LLM 都会引用来源。ChatGPT 的回答通常没有引用，Perplexity 则几乎每次都有。在可获取引用的平台上追踪它们，能让你窥见那个本来不透明的检索层。

仪表板会给出两个引用相关的数字：

citationRate    = 带引用的提及次数 ÷ 品牌提及次数 × 100%
citationSoV     = 品牌引用次数 ÷ (品牌引用次数 + 竞品引用次数) × 100%

Citation Rate 告诉你你自己的提及里，有多少有源 URL 支撑。Citation SoV（只有配置了竞品才有意义）告诉你品类内所有有引用支撑的品牌提及里，指向你的占比——尤其能识别出"原始提及量看似健康，但模型实际上在大量引用竞品内容"这种情况。

健康的 LLM 品牌存在感是什么样的

基准因品类成熟度和品牌规模而异，但作为粗略参考：

在至少 3 个主要 LLM 上，核心品类 SoV 超过 20%，说明你有一定的可见度
情感倾向 70% 以上为正面或中性是健康信号；高负面情感比例意味着需要在内容和公关上采取行动
核心事实声明（定价、主要功能、品类定位）幻觉率接近零——任何此类幻觉都值得立即处理
引用来自近期、权威来源（不只是你自己的域名），说明模型对你品牌有较新鲜、可信的上下文

预警信号：在你参与竞争的品类中 SoV 低于 5%；在某个 LLM 上情感倾向明显比其他平台更负面（通常指向特定数据来源的问题）；或者同一个事实持续产生幻觉（说明该事实在模型检索层有一个持续存在的错误来源）。

综合运用这四个指标

SoV、情感、幻觉率、引用来源——这四个指标组合在一起，构成了一套完整的监测体系，告诉你不只是是否被提及，更是被多准确、多正面地提及。

SeenForAI 将这四项指标的监测全部自动化，每天在 ChatGPT、Claude、Gemini、Perplexity、豆包、Kimi 和 DeepSeek 上运行。仪表盘呈现你的 SoV 趋势、标记情感变化、对幻觉发出预警，并追踪哪些 URL 正在驱动你的模型存在感。

seenfor.ai 的免费扫描会给你一份跨四个 LLM 的快照——在开始优化之前，先了解自己的现状。

以下是真正重要的四个指标。

这两个很容易混淆，所以一开始就把它们拆清楚。两者都在回答"我的品牌在 LLM 答案中有多可见？"，但角度不同。

Mention Rate（提及率） 更简单——你跑的所有提示词里，模型有多少比例提到了你的品牌。

mentionRate = 品牌提及次数 ÷ 提示词总数 × 100%

Share of Voice（声量份额） 是竞争视角的——在这些答案里出现的所有同类品牌名中，属于你的占多少？

SoV = 品牌提及次数 ÷ (品牌提及次数 + 竞品提及次数) × 100%

对这两个数字进行细分，才能最大化它们的价值：

按 LLM 细分：你在 Perplexity 上的 SoV 可能是 55%，在 Gemini 上只有 20%。这种差距通常反映了不同的训练数据和检索行为——而且是可以采取行动的，因为每个平台的修复方式不同（提高在该模型权重来源中的覆盖率）。
按提示词类型细分：认知阶段的提示词（"有哪些工具可以做 X"）和决策阶段的提示词（"做 X 最好的工具是什么"）通常会呈现不同的品牌集合。你的品牌可能在认知阶段持续出现，却在决策阶段被内容更权威的竞品挤出。
与具体竞品对比：知道你的 SoV 是 34%，而主要竞品是 58%，才能让你清楚差距在哪、有多大——这远比孤立的总数更有可行动性。

SoV 是那个最重要的数字。其他指标都是在解释它为什么是这个值。

指标二：情感倾向

LLM 的答案并不是中性的提及。当模型在回答中包含你的品牌时，几乎总会用带有正面、负面或混合情感色彩的语言来描述它。

对比这两条提及：

"SeenForAI 是追踪 LLM 品牌存在感的团队的不错选择，在中文 LLM 覆盖方面尤为出色。"

"SeenForAI 有一些有用的功能，但界面有时显得杂乱，定价也偏高。"

两条都是提及，但只有一条是正面的。不考虑情感的 SoV 数据是不完整的。

仪表板会给出两个比率，分母是品牌提及次数（而不是提示词总数）：

sentimentPosRate = 正面提及次数 ÷ 品牌提及次数 × 100%
sentimentNegRate = 负面提及次数 ÷ 品牌提及次数 × 100%

指标三：幻觉率

这是最让团队感到意外的指标。LLM 会用极其自信的语气描述关于品牌的错误信息。

常见的幻觉类型：

价格错误："X 品牌起价 19 美元/月"——实际价格是 49 美元/月
功能错误：声称你有某个你并不具备的功能，或否认你实际拥有的功能
定位错误：将你归入错误的竞争品类
背景信息错误：创立年份、创始人或品牌起源有误

指标四：引用 URL 追踪

当 LLM 确实引用了来源时，这些引用能告诉你一件重要的事：什么内容正在塑造模型对你品牌的认知。

引用追踪同样是竞争情报。模型在推荐竞品而非你时引用了哪些 URL？了解哪些内容塑造了竞品的提及方式，就告诉你应该在哪里发力。

仪表板会给出两个引用相关的数字：

citationRate    = 带引用的提及次数 ÷ 品牌提及次数 × 100%
citationSoV     = 品牌引用次数 ÷ (品牌引用次数 + 竞品引用次数) × 100%

健康的 LLM 品牌存在感是什么样的

基准因品类成熟度和品牌规模而异，但作为粗略参考：

在至少 3 个主要 LLM 上，核心品类 SoV 超过 20%，说明你有一定的可见度
情感倾向 70% 以上为正面或中性是健康信号；高负面情感比例意味着需要在内容和公关上采取行动
核心事实声明（定价、主要功能、品类定位）幻觉率接近零——任何此类幻觉都值得立即处理
引用来自近期、权威来源（不只是你自己的域名），说明模型对你品牌有较新鲜、可信的上下文

综合运用这四个指标

SoV、情感、幻觉率、引用来源——这四个指标组合在一起，构成了一套完整的监测体系，告诉你不只是是否被提及，更是被多准确、多正面地提及。

seenfor.ai 的免费扫描会给你一份跨四个 LLM 的快照——在开始优化之前，先了解自己的现状。

指标二：情感倾向

指标三：幻觉率

指标四：引用 URL 追踪

健康的 LLM 品牌存在感是什么样的

综合运用这四个指标

作者

分类

更多文章

如何追踪你的品牌在 ChatGPT 中的提及情况

GEO vs SEO：2026 年你真正需要什么？

GEO 提示词集的 35/35/30 法则

产品通讯

衡量你的品牌在 LLM 中的表现：SoV、情感与引用

指标二：情感倾向

指标三：幻觉率

指标四：引用 URL 追踪

健康的 LLM 品牌存在感是什么样的

综合运用这四个指标

作者

分类

更多文章

如何追踪你的品牌在 ChatGPT 中的提及情况

GEO vs SEO：2026 年你真正需要什么？

GEO 提示词集的 35/35/30 法则

产品通讯