阶段性研究 · v0.1 · 首发 2026-04-13 · 修订 2026-04-13

引用本页 火离(firel). "三平台对照实验: 可见性与采纳的分离". firel.cn, 2026-04-13, v0.1. https://firel.cn/evidence/exp003-three-platform

三平台对照实验: 可见性与采纳的分离

在三平台18次对照实验中,格式优化型文档与推理坡度型文档在可见性(M1)上差异不大,但在采纳深度(M2)上呈现三平台方向一致的显著差异(+1.67至+2.34)。可见性与采纳是两个可独立变化的维度。

数据来源:firel内部实验(EXP-003), 2026-03下旬至04上旬, 预印本DOI:10.5281/zenodo.19528262

本页为阶段性研究成果,随实验迭代持续更新。AI领域变化快,结论反映发布时的观察,不等同于经过同行评审的学术论文。每页底部标注了证据边界和适用范围。

定义: 三平台对照实验(Three-platform Controlled Experiment, EXP-003)——在三个主流LLM平台上,对同一目标产品分别上传格式优化型文档与推理坡度型文档,测量可见性(M1)与采纳深度(M2)两个独立维度。18次trial,三层盲性协议。

核心机制: M2采纳深度呈现三平台方向一致的正向差(推理坡度型 > 格式优化型),差值范围+1.67至+2.34,没有平台例外。M1可见性差值仅-0.22(满分的约7%),且三平台间方向不一致。M1-M2解耦表明可见性与采纳是两个独立维度——格式优化提升的是”被注意到”的概率(可见性),但不直接降低LLM沿该内容继续生成的边际成本(采纳)。以M2>=2为阈值做二元分类,与实际文档身份符合度88.9%(16/18)。候选解释框架: Simon(1955, 1957) bounded rationality在LLM载体上的外推——受限计算系统对低成本继续生成路径的系统性偏好。

标准判断:

问题: 被看到之后发生了什么

GEO奠基研究(Aggarwal et al. 2024, KDD 2024)把核心问题定义为提升内容在生成式引擎中的可见性——让内容被AI看到。这一论域在其自身的实验环境内清晰有效。

但可见性与采纳不是同一件事。

当一份文档已经被LLM抓取到并进入候选上下文后,它被纳入实际回答的论证结构的概率,并不由其可见性单独决定。本实验关心的问题是: 一份文档在已经被LLM看到的前提下,什么决定了它是否被纳入回答的论证结构?

如果把内容采纳视为”被看到 -> 被纳入”的两步链路,GEO研究处理第一步;本实验关心第二步。

作者立场

作者长期关注并实践推理坡度方向的研究,对该候选解持有倾向性期待——这一偏见既是本实验得以发生的动机,也是判断可能失真的来源。本文是一份第一人称观察报告,不是产业调查。

实验设计

两份文档:

两份文档的表层度量(总字数、段落数量、视觉密度)保持接近。

三个平台: Claude.ai (Claude Sonnet 4.6) / 通义千问 (Qwen 3.6 Plus) / DeepSeek (公共网页端)

协议: 每份文档在每个平台上运行3次trial,每次全新会话,共18次。统一问题提示,围绕目标产品(中性代号Product P)相关产业话题。

评分:

评分由两个独立代理实例完成,采用三层盲性协议: trial 1为非盲形态核查,trial 2由独立代理真盲评分(不知文档身份),trial 3由原代理在解码映射外置条件下真盲重评。

样本限制: 每文档每平台仅3 trial,总共18 trial,小样本。作者不声明统计显著性,仅声明在这个小样本、这一时间切片内的观察。

核心发现: M2采纳深度的三平台方向一致

平台格式优化型 M2 均值推理坡度型 M2 均值均值差
Qwen 3.6 Plus1.33 [2, 1, 1]3.00 [3, 3, 3]+1.67
DeepSeek0.33 [0, 1, 0]2.67 [3, 2, 3]+2.34
Claude Sonnet 4.60.67 [0, 1, 1]3.00 [3, 3, 3]+2.33

三个平台在M2上都呈现正向差(推理坡度型 > 格式优化型),差值范围+1.67至+2.34,没有平台例外。

真盲子集检查: 只看trial 2 + trial 3共12条真盲数据,三平台M2差值方向与上表一致——正向差值不仅由trial 1非盲偏差驱动。

以M2 >= 2为阈值做二元分类,与实际文档身份符合度16/18 = 88.9%

M1可见性: M1-M2解耦

指标格式优化型均值推理坡度型均值差值
M1 可见性 (0-3)1.671.44-0.22

M1差值-0.22,仅为满分的约7%。与M2的+2.0级别差值并置: 两份文档在可见性维度上的差距远小于在采纳深度维度上的差距

M1在三平台间方向不一致(Qwen格式优化型略高,DeepSeek推理坡度型反而更高,Claude格式优化型较高),而M2三平台方向完全一致。可见性与采纳深度是两个可独立变化的维度。

三平台的不同表现,同一个结果

除可量化的M1/M2外,三个平台在格式优化型文档上呈现了截然不同但殊途同归的行为:

Claude的显式拒斥: 在回答开头以元陈述形式告知用户选择不使用上传文档。

DeepSeek的静默忽视: 回答表层格式与正常作答无异,但实际内容与不上传任何文档的baseline近乎一致。唯一一次M2=1的trial,被盲评代理判定为”表层复述了规格信息,但未将文档中的论证结构纳入回答”。

同结果不同表现: Claude明确拒斥,DeepSeek沉默空缺——外部行为截然不同,但两者对格式优化型文档的M2差值几乎一致: Claude +2.33, DeepSeek +2.34,仅差0.01。两个系统做出了同一个判断,只是汇报方式不同。

Qwen的部分采纳: Qwen对格式优化型文档呈现部分采纳(M2均值1.33,高于另两平台),但在多次格式优化型trial中出现对作者身份的归因错误。3次trial的样本无法支撑稳定的命名,仅作为观察条目登记。

候选解释: bounded rationality框架

Herbert Simon(1955, 1957)的bounded rationality框架提出: 在资源受限条件下,决策主体会系统性地偏好满足局部任务要求的低成本路径。

LLM在生成过程中面临注意力预算、上下文预算、计算预算三种资源约束。在这些约束下,LLM每一步生成都面临”从候选续接中选择一个”的决策。

推理坡度(Meng 2026, Zenodo DOI 10.5281/zenodo.19027371)由三个要素构成,每个要素降低LLM继续生成时的某一类处理成本:

格式优化提升的是”被注意到”的概率(可见性),但不降低沿该内容继续生成的边际成本;推理坡度的三个要素各自针对后者的某类成本。这是”可见性不等于采纳”在机制层面的一种候选具体化。

四组观察(M2三平台一致 / M1-M2解耦 / Claude-DeepSeek同结果不同表现 / 88.9%盲态分离)都在bounded rationality框架下找到相容的位置——但这是相容,不是证明。

未排除的混淆变量

  1. 两份文档可能在作者未察觉的某个结构维度上存在系统性差异
  2. 平台可能存在无法在黑盒端独立测试的隐性前处理规则
  3. 每条件仅3 trial的采样噪声——尽管三平台方向一致降低了此解释的说服力
  4. trial 1中评分代理可访问文档身份映射——尽管真盲子集方向一致

证据边界


本实验从此前的封闭场景观察(基线对照多平台采纳测试)进入了更严格的对照设计: 同一平台、同一问题、两份文档直接对比,18次重复。观察到的M2方向一致性是目前最清晰的实证信号。

此前的实验 ->