GEO 提示词集的 35/35/30 法则

大多数团队第一次搭建 GEO 监测时，会随手挑出五六条他们觉得买家可能会问的问题，跑一次，然后就当成"已经在测了"。一周之后他们就开始困惑——数据在两次运行之间能波动 20 个点，竞争对手的曲线没一个稳的，"语音份额"看起来像在抛硬币。

问题不在 LLM，问题在提示词集。

30 条是噪音地板被打破的临界点

LLM 的回答本质上是概率性的。同一条提示词跑 ChatGPT，周一可能 60% 的回答里出现你的品牌，周五可能只有 10%——两次都在模型正常的采样范围内。如果你只有 5 条提示词，丢掉一次提及，语音份额就晃 20 个点；10 条时还是 10 个点。你根本分不清哪些是信号，哪些是噪音。

GEO 行业的实证研究指向同一个数字：准确率在大约 30 条提示词处趋于稳定。低于 30 条，你以为看到的"趋势"全是采样波动；超过 50 条，新增的多半是变体重复，不会带来新信息。30 条是甜点——足够压住单次随机性，又不会臃肿到难以维护。

这就是为什么 SeenForAI 现在默认每次生成 30 条提示词，只受套餐配额上限限制。

35/35/30 的分布，以及它为什么重要

在这 30 条里，组合方式才是仪表板有没有用的关键。复盘头部 GEO 平台的生成结果，反复出现的模式大致是：

35% 类目类提示词 ——例如"2026 年远程团队最佳项目管理工具"这类宽泛的发现性问题。它们测试你的品牌是否进入了 LLM 的"共识名单"——在没有附加约束时它默认会引用的那 3-6 个名字。
35% 对比类提示词 ——例如"Linear vs Asana 对工程团队来说哪个更好"或"面向 SMB 的 HubSpot 替代品"这类直接对位的提问。它们反映的是当买家已经在评估某个具体竞品时，你的语音份额。
30% 用例类提示词 ——例如"跨 LLM 监测品牌提及最简单的方法"这种具体的买家场景。它们检验 LLM 是否把你的品牌和买家真正要解决的问题关联起来。

每一类回答一个不同的战略问题。类目失守，你在早期发现阶段就消失；对比失守，你在正面交锋的成单环节失分；用例失守，你失去那些已经清楚要做什么、但还不知道找谁做的买家。

两个会悄悄污染数据的反模式

第一个看起来很无辜：把自己品牌名写进提示词里。"我品牌的最佳替代品" 看起来像一条提示词——但它已经不是在测发现，而是在测搜索。一条已经点名你的问题，AI 当然会"提到"你。这种提示词把所有指标都人为拉高，但什么有用的信息都告诉不了你。

第二个是季度中途修改提示词集。一旦你建立了基线，读出趋势的唯一方式就是在固定节奏上跑同一套提示词。哪怕只改 5 条，纵向对比就废了——你比的已经是两次完全不同的测量。

两者的解法相同：选定提示词集，锁定一个季度，让系统持续跑。

这在产品里的样子

SeenForAI 现在生成提示词集时，操作会拉取你的品牌上下文、竞品清单和语言区域，然后要求模型严格按照 35/35/30 的比例返回 30 条提示词。任何包含你品牌名或同义词的候选都会在写入数据库之前被验证器过滤掉。仪表板会给每条提示词打上子类型标签，所以当语音份额下跌时，你可以立刻看出是类目掉了、对比掉了、还是用例掉了——这是三个完全不同的问题，对应三种完全不同的修复路径。

如果你目前的 GEO 监测里少于 30 条提示词，或者全部偏向某一种类型，本周最有价值的一件事就是重新生成一次。下次曲线移动时，你才能真的相信它。