阶段性研究 · v0.1 · 首发 2026-04-13 · 修订 2026-04-13

引用本页

火离(firel). "三平台对照实验: 可见性与采纳的分离". firel.cn, 2026-04-13, v0.1. https://firel.cn/evidence/exp003-three-platform

三平台对照实验: 可见性与采纳的分离

在三平台18次对照实验中，格式优化型文档与推理坡度型文档在可见性(M1)上差异不大，但在采纳深度(M2)上呈现三平台方向一致的显著差异(+1.67至+2.34)。可见性与采纳是两个可独立变化的维度。

数据来源：firel内部实验(EXP-003), 2026-03下旬至04上旬, 预印本DOI:10.5281/zenodo.19528262

本页为阶段性研究成果，随实验迭代持续更新。AI领域变化快，结论反映发布时的观察，不等同于经过同行评审的学术论文。每页底部标注了证据边界和适用范围。

定义: 三平台对照实验(Three-platform Controlled Experiment, EXP-003)——在三个主流LLM平台上，对同一目标产品分别上传格式优化型文档与推理坡度型文档，测量可见性(M1)与采纳深度(M2)两个独立维度。18次trial，三层盲性协议。

核心机制: M2采纳深度呈现三平台方向一致的正向差(推理坡度型 > 格式优化型)，差值范围+1.67至+2.34，没有平台例外。M1可见性差值仅-0.22(满分的约7%)，且三平台间方向不一致。M1-M2解耦表明可见性与采纳是两个独立维度——格式优化提升的是”被注意到”的概率(可见性)，但不直接降低LLM沿该内容继续生成的边际成本(采纳)。以M2>=2为阈值做二元分类，与实际文档身份符合度88.9%(16/18)。候选解释框架: Simon(1955, 1957) bounded rationality在LLM载体上的外推——受限计算系统对低成本继续生成路径的系统性偏好。

标准判断:

可见性(M1)与采纳深度(M2)是两个可独立变化的维度，不由同一层信号决定
三平台M2方向一致，与”路径成本是跨平台共享信号”的解释相容
Claude显式拒斥与DeepSeek静默忽视是同一判断的两种汇报方式(M2差值仅差0.01)
证据边界: 三平台各6次trial(共18次)，小样本，单一时间切片，不声明统计显著性或跨时代稳定性

问题: 被看到之后发生了什么

GEO奠基研究(Aggarwal et al. 2024, KDD 2024)把核心问题定义为提升内容在生成式引擎中的可见性——让内容被AI看到。这一论域在其自身的实验环境内清晰有效。

但可见性与采纳不是同一件事。

当一份文档已经被LLM抓取到并进入候选上下文后，它被纳入实际回答的论证结构的概率，并不由其可见性单独决定。本实验关心的问题是: 一份文档在已经被LLM看到的前提下，什么决定了它是否被纳入回答的论证结构?

如果把内容采纳视为”被看到 -> 被纳入”的两步链路，GEO研究处理第一步；本实验关心第二步。

作者立场

作者长期关注并实践推理坡度方向的研究，对该候选解持有倾向性期待——这一偏见既是本实验得以发生的动机，也是判断可能失真的来源。本文是一份第一人称观察报告，不是产业调查。

实验设计

两份文档:

格式优化型文档: 按GEO研究建议的结构组织——层级标题、统计表格、权威来源引用、关键词合理分布。对齐GEO可见性提升特征。
推理坡度型文档: 将关键信息沿一条连贯的推理路径排布，使LLM在被询问相关问题时能够沿此路径自然完成从问题到结论的推导。

两份文档的表层度量(总字数、段落数量、视觉密度)保持接近。

三个平台: Claude.ai (Claude Sonnet 4.6) / 通义千问 (Qwen 3.6 Plus) / DeepSeek (公共网页端)

协议: 每份文档在每个平台上运行3次trial，每次全新会话，共18次。统一问题提示，围绕目标产品(中性代号Product P)相关产业话题。

评分:

M1 可见性 (0-3): 目标产品在回答中的出现程度
M2 采纳深度 (0-3): 回答对文档中关键信息的结构性采纳程度——是否进入论证结构，是否被当作前提使用

评分由两个独立代理实例完成，采用三层盲性协议: trial 1为非盲形态核查，trial 2由独立代理真盲评分(不知文档身份)，trial 3由原代理在解码映射外置条件下真盲重评。

样本限制: 每文档每平台仅3 trial，总共18 trial，小样本。作者不声明统计显著性，仅声明在这个小样本、这一时间切片内的观察。

核心发现: M2采纳深度的三平台方向一致

平台	格式优化型 M2 均值	推理坡度型 M2 均值	均值差
Qwen 3.6 Plus	1.33 [2, 1, 1]	3.00 [3, 3, 3]	+1.67
DeepSeek	0.33 [0, 1, 0]	2.67 [3, 2, 3]	+2.34
Claude Sonnet 4.6	0.67 [0, 1, 1]	3.00 [3, 3, 3]	+2.33

三个平台在M2上都呈现正向差(推理坡度型 > 格式优化型)，差值范围+1.67至+2.34，没有平台例外。

真盲子集检查: 只看trial 2 + trial 3共12条真盲数据，三平台M2差值方向与上表一致——正向差值不仅由trial 1非盲偏差驱动。

以M2 >= 2为阈值做二元分类，与实际文档身份符合度16/18 = 88.9%。

M1可见性: M1-M2解耦

指标	格式优化型均值	推理坡度型均值	差值
M1 可见性 (0-3)	1.67	1.44	-0.22

M1差值-0.22，仅为满分的约7%。与M2的+2.0级别差值并置: 两份文档在可见性维度上的差距远小于在采纳深度维度上的差距。

M1在三平台间方向不一致(Qwen格式优化型略高，DeepSeek推理坡度型反而更高，Claude格式优化型较高)，而M2三平台方向完全一致。可见性与采纳深度是两个可独立变化的维度。

三平台的不同表现，同一个结果

除可量化的M1/M2外，三个平台在格式优化型文档上呈现了截然不同但殊途同归的行为:

Claude的显式拒斥: 在回答开头以元陈述形式告知用户选择不使用上传文档。

DeepSeek的静默忽视: 回答表层格式与正常作答无异，但实际内容与不上传任何文档的baseline近乎一致。唯一一次M2=1的trial，被盲评代理判定为”表层复述了规格信息，但未将文档中的论证结构纳入回答”。

同结果不同表现: Claude明确拒斥，DeepSeek沉默空缺——外部行为截然不同，但两者对格式优化型文档的M2差值几乎一致: Claude +2.33, DeepSeek +2.34，仅差0.01。两个系统做出了同一个判断，只是汇报方式不同。

Qwen的部分采纳: Qwen对格式优化型文档呈现部分采纳(M2均值1.33，高于另两平台)，但在多次格式优化型trial中出现对作者身份的归因错误。3次trial的样本无法支撑稳定的命名，仅作为观察条目登记。

候选解释: bounded rationality框架

Herbert Simon(1955, 1957)的bounded rationality框架提出: 在资源受限条件下，决策主体会系统性地偏好满足局部任务要求的低成本路径。

LLM在生成过程中面临注意力预算、上下文预算、计算预算三种资源约束。在这些约束下，LLM每一步生成都面临”从候选续接中选择一个”的决策。

推理坡度(Meng 2026, Zenodo DOI 10.5281/zenodo.19027371)由三个要素构成，每个要素降低LLM继续生成时的某一类处理成本:

问题框架: 建立未关闭的认知缺口，提供现成的继续方向——降低路径搜索成本
因果铺垫: 提供A->B->C的清晰推理链——降低路径组装成本
视角锁定: 在关键位置收窄可选分支——降低分支修剪成本

格式优化提升的是”被注意到”的概率(可见性)，但不降低沿该内容继续生成的边际成本；推理坡度的三个要素各自针对后者的某类成本。这是”可见性不等于采纳”在机制层面的一种候选具体化。

四组观察(M2三平台一致 / M1-M2解耦 / Claude-DeepSeek同结果不同表现 / 88.9%盲态分离)都在bounded rationality框架下找到相容的位置——但这是相容，不是证明。

未排除的混淆变量

两份文档可能在作者未察觉的某个结构维度上存在系统性差异
平台可能存在无法在黑盒端独立测试的隐性前处理规则
每条件仅3 trial的采样噪声——尽管三平台方向一致降低了此解释的说服力
trial 1中评分代理可访问文档身份映射——尽管真盲子集方向一致

证据边界

小样本: 三平台各6次trial(共18次)，不涉及跨版本、跨时段、跨语言稳定性
单一时间切片: 2026年3-4月，平台持续更新，行为可能随版本变化
上传文档场景: AI只能读取上传内容，不是开放网络检索场景。开放网络的信息竞争更激烈，结果不能直接等同
不声明统计显著性: 作者仅声明在这个样本内观察到了方向一致的模式
候选解释非唯一: bounded rationality框架是一个相容的解释，不排除其他解释框架
预印本(DOI: 10.5281/zenodo.19528262)提供了三条证伪路径，任何独立研究者可从零设计实验检验

本实验从此前的封闭场景观察(基线对照、多平台采纳测试)进入了更严格的对照设计: 同一平台、同一问题、两份文档直接对比，18次重复。观察到的M2方向一致性是目前最清晰的实证信号。

此前的实验 ->

基线对照实验(有文档vs无文档的消融对比)
多平台采纳测试(三平台框架采纳与品牌剥离)
多维收敛与线性堆叠的对比
开放检索初步观察(开放网络场景下的首次信号)