预印本 · v1.0 · 首发 2026-04-12

引用本页

火离(firel). "推理坡度作为低成本路径假说：关于 LLM 内容采纳机制的一份第一人称观察报告". firel.cn, 2026-04-12, v1.0. https://firel.cn/papers/p3-low-cost-pathway

推理坡度作为低成本路径假说：关于 LLM 内容采纳机制的一份第一人称观察报告

Reasoning Slope as a Low-Cost Path Hypothesis

作者: Junwoo Meng
DOI: 10.5281/zenodo.19528262
许可: CC-BY-4.0

摘要

现有生成式引擎优化 (GEO) 研究 (Aggarwal et al. 2024, KDD 2024) 把核心问题定义为提升内容在生成式引擎中的可见性, 但可见性与采纳不是同一层。本文通过一次三平台 (Claude Sonnet 4.6 / Qwen 3.6 Plus / DeepSeek 公共网页端) × 两文档 × 十八 trial 的小样本对照实验, 观察到推理坡度型文档在 M2 采纳深度上呈现三平台方向一致的优势 (+1.67 至 +2.34), 而 M1 可见性维度的差异不显著 (-0.22)。在 Simon (1955, 1957) 的 bounded rationality 框架下, 这一不对称可以被理解为 "LLM 作为受限计算系统对低成本继续生成路径的系统性偏好", 而推理坡度 (Meng 2026, Zenodo DOI 10.5281/zenodo.19027371) 可能正是这种偏好的一种具体内容层实现。本文不声明这是唯一解释, 不声明观察具有跨平台或跨时代稳定性。本文的贡献是把 bounded rationality (既有学术共识) + 推理坡度 (既发概念) + EXP-003 观察 (本次实证) 三者连接成一条可被进一步检验的候选叙事。

本页为 firel.cn 托管的 canonical 版本。正式版本通过 DOI 可在 Zenodo 永久获取；本页内容与 Zenodo 版本保持同步。

Abstract

Existing research on Generative Engine Optimization (GEO) defines the core problem as improving the visibility of content in generative engine outputs (Aggarwal et al., 2024, KDD 2024). This paper identifies a gap downstream of visibility: when a document has already entered an LLM’s candidate context, what determines whether it is structurally adopted into the generated response?

Through a controlled experiment across three LLM platforms (Claude Sonnet 4.6, Qwen 3.6 Plus, DeepSeek public web interface) with two structurally different documents × 18 trials, we observe a consistent directional asymmetry in M2 adoption depth (+1.67 to +2.34 in favor of reasoning-slope documents), while M1 visibility differences remain negligible (-0.22). Using Simon’s (1955, 1957) bounded rationality as an external theoretical anchor, we propose that this asymmetry can be understood as a constrained computational system’s systematic preference for low-cost continuation paths — and that reasoning slope (Meng, 2026, Zenodo DOI 10.5281/zenodo.19027371), with its three structural elements (question frame, causal paving, perspective lock), may constitute one concrete content-layer implementation of this preference, each element reducing a specific type of marginal generation cost.

This paper does not claim that reasoning slope is the only implementation of this preference, does not claim cross-platform or cross-temporal stability of the observations, and provides three falsifiable paths for independent researchers. This paper also distinguishes reasoning slope from prompt engineering: the former operates on the internal structure of uploaded documents, while the latter operates on the dialogue input layer — the two target different cost items and can vary independently within the same LLM session.

Keywords: bounded rationality, LLM content adoption, reasoning slope, generative engine optimization, path selection, low-cost continuation, adoption depth

摘要

现有生成式引擎优化 (GEO) 研究 (Aggarwal et al. 2024, KDD 2024) 把核心问题定义为提升内容在生成式引擎中的可见性, 但可见性与采纳不是同一层。本文通过一次三平台 (Claude Sonnet 4.6 / Qwen 3.6 Plus / DeepSeek 公共网页端) × 两文档 × 十八 trial 的小样本对照实验, 观察到推理坡度型文档在 M2 采纳深度上呈现三平台方向一致的优势 (+1.67 至 +2.34), 而 M1 可见性维度的差异不显著 (-0.22)。在 Simon (1955, 1957) 的 bounded rationality 框架下, 这一不对称可以被理解为 “LLM 作为受限计算系统对低成本继续生成路径的系统性偏好”, 而推理坡度 (Meng 2026, Zenodo DOI 10.5281/zenodo.19027371) 可能正是这种偏好的一种具体内容层实现。本文不声明这是唯一解释, 不声明观察具有跨平台或跨时代稳定性。本文的贡献是把 bounded rationality (既有学术共识) + 推理坡度 (既发概念) + EXP-003 观察 (本次实证) 三者连接成一条可被进一步检验的候选叙事。

§1 问题: 可见性不等于采纳

§1.1 GEO 可见性论域及其断裂

生成式引擎优化 (Generative Engine Optimization, 下称 GEO) 作为一个可被明确追溯的研究方向, 其奠基论文由 Aggarwal 等人于 2023 年 11 月 16 日提交至 arXiv (编号 2311.09735), 并于 2024 年被 KDD 2024 收录¹。该论文把核心问题定义为如何提升内容在生成式引擎中的可见性 — 其评估对象是商业部署的 Perplexity.ai, 其生成模型是当时的 gpt3.5-turbo, 其实验数据集 GEO-bench 含一万条查询, 测量维度集中在内容在引擎回答中的 impression、citation 与 position 层面。

这一论域在其自身的实验环境内是清晰有效的, 本文也不对该论域做任何否定。本文要指出的是一个被该论域的问题定义所遮蔽的断裂: 当一份文档已经被 LLM 抓取到并进入候选上下文后, 它被纳入实际回答的论证结构的概率, 并不由其可见性测度单独决定。一份可见的文档未必被采纳, 一份可见性测度不占优的文档也可能以更高密度出现在 LLM 的实际回答中。2026 年 3 月 15 日中国中央电视台消费者权益日晚会曝光的”力擎 GEO 优化系统”事件²把这一断裂推到了商业层面: 内容被 AI 抓取的事实不再自动等同于内容被论证结构采纳的事实, 而后者正是产业实践真正关心的目标。

§1.2 本文的问题

本文关心的问题是: 一份文档在已经被 LLM 看到的前提下, 什么决定了它是否被纳入回答的论证结构? 如果把内容采纳视为 “被看到 → 被纳入” 的两步链路, Aggarwal 等人奠基的 GEO 研究系统性地处理了第一步; 本文关心第二步。

本文以一次三平台 × 两文档 × 十八 trial 的小样本对照实验作为实证锚点 (详见 §2), 以 Simon (1955, 1957) 的 bounded rationality 作为外部理论底座, 将推理坡度 (Meng 2026, Zenodo DOI 10.5281/zenodo.19027371) 作为 bounded rationality 原则在 LLM 内容采纳场景下的一种候选具体实现形式进行论证。本文的主张仅到此为止: 一个候选实现, 一次小样本观察, 一个既有学术框架在新载体上的自然外推。

§1.3 作者立场与 scope

作者长期关注并实践推理坡度这一方向的研究, 对该候选解持有倾向性期待; 这一偏见既是本文观察得以发生的动机, 也是本文判断可能失真的来源, 读者宜以”作者在自己押注的方向上报告所见”这一先验来理解本文。本文是一份第一人称现象学观察报告, 不是产业调查 — 它只对作者亲自观察并独立核对过的材料负责, 不承担覆盖完备性的负担。Scope 限定在四层: Transformer 类自回归生成架构内, 2026 年 4 月前后的若干主流 LLM 平台, 十八 trial 小样本, 中文语境下的 LLM 内容采纳机制; 超出任何一层本文都不做主张。本文不声明推理坡度是该问题的唯一解或最优解 (仅声明其为一个候选解), 不对任何既有研究做错误判断, 不对任何平台的未来行为做预测, 不声明观察具有跨平台或跨时代的经验稳定性。

§2 观察: 三平台上的路径采纳不对称

§2.1 实验设置

本文的核心实证材料来自作者在 2026 年 3 月下旬至 4 月上旬完成的一次对照实验 (EXP-003)。实验任务: 在三个主流生成式大模型平台上, 就同一目标产品分别上传两份结构不同的分析文档, 向模型提出围绕该产品展开的问题, 观察模型的回答是否采纳了文档中的关键信息, 以及采纳到何种深度。

两份文档

作者为同一目标产品 (以中性代号 Product P 指代, 以避免产品推销嫌疑) 准备了两份长度相当但构造原则不同的分析文档:

格式优化型文档, 按当前公开的 GEO 研究所建议的结构组织: 层级标题、统计表格、权威来源引用、关键词在首句的合理分布, 旨在与 §1.1 所引 GEO 奠基研究报告的可见性提升特征对齐。作者不声明它是 GEO 思路的最优代表, 仅声明它是一份尝试诚实地按 GEO 思路组织的对照文档。

推理坡度型文档, 按作者所称的 “推理坡度” 思路构造: 将关键信息沿一条连贯的推理路径排布, 使 LLM 在被询问相关问题时能够沿此路径自然地完成从问题到结论的推导, 而非通过关键词匹配机制生成回答。该思路所依据的具体设计原则将在 §3 中展开, §2 的任务仅限于报告观察结果。

两份文档的表层度量 (总字数、段落数量、整体视觉密度) 保持在接近水平, 以减少文档长度差异本身影响采纳的混淆。

测试平台

Claude.ai: Claude Sonnet 4.6, Anthropic 官方网页端, 实验期间界面显示的版本字符串未变化;
Qwen: Qwen 3.6 Plus, 阿里通义千问网页端, 实验期间界面显示的版本字符串未变化;
DeepSeek: 版本未知 — 实验期间 DeepSeek 公共网页端未显示具体版本字符串, 本文记录为 “2026 年 4 月 11 日前后, 通过 DeepSeek 官方公共网页端进入的默认服务配置”³。

协议与评分

每份文档在每个平台上运行 3 次 trial, 每次使用全新会话以减少同会话内上下文累积的干扰, 三平台 × 两文档 × 三 trial, 共 18 次。每次 trial 使用统一的问题提示, 围绕目标产品相关的产业话题, 问题本身不包含对目标产品的直接指向性引导。

实验使用三个评分指标:

M1 可见性 (0-3): 目标产品在回答中的出现程度 — 是否被提及, 以何种形式被提及;
M2 采纳深度 (0-3): 回答对上传文档中关键信息的结构性采纳程度 — 是否进入回答的论证结构, 是否被当作前提使用;
M3 链路深度 (0-4): 仅针对推理坡度型文档, 衡量回答沿文档内设推理路径的穿越深度; 该指标对格式优化型文档不适用, 本章仅附带提及, 不参与核心比较。完整 rubric (v0.7) 见 §6。

评分由两个独立的评分代理实例完成: agent-a (作者预先配置的评分代理实例, 在作者的常规工作环境下运行, 评分时可访问文档身份映射) 与 agent-b (作者预先配置的独立评分代理实例, 执行环境与 agent-a 隔离, 评分时无法访问文档身份映射)。实验采用三层盲性协议:

trial 1 — agent-a 非盲: agent-a 在可访问文档身份映射的条件下评分, 用于形态核查与 rubric 调整;
trial 2 — agent-b 真盲: agent-b 仅看到 “问题 + LLM 回答”, 不知文档身份;
trial 3 — agent-a 真盲: agent-a 在解码映射被外置存储的条件下重新评分, 此时 agent-a 无法访问文档身份映射。

trial 1 中 agent-a 在可访问文档身份映射的条件下评分, 这一信息可用性可能影响评分校准。作者未将 trial 1 从总体中剔除, 但在 §2.2 对真盲子集 (trial 2 + trial 3, 共 12 条) 单独做了方向一致性检查。

样本限制

每文档每平台仅 3 trial, 总共 18 trial, 是一个小样本。三平台各只用一个版本和一种接入方式, 不涉及跨版本稳定性; 所有实验集中在约一周窗口内完成, 不涉及跨时段稳定性; 全部使用中文, 不涉及跨语言稳定性; 两位评分主体间未做正式 inter-rater reliability 计算; 所有实验在个人账号与标准网页前端下完成, 不涉及 API 层或企业部署环境。作者不声明统计显著性, 仅声明: 在这个小样本、这一时间切片内, 观察到了如下现象。

§2.2 M2 采纳深度的三平台矩阵

M2 是本次实验中方向最清晰、三平台最一致的指标。完整的三平台 × 两文档 M2 均值矩阵如下⁴:

平台	格式优化型 M2 均值 (3 trial)	推理坡度型 M2 均值 (3 trial)	均值差
Qwen 3.6 Plus	1.33 [2, 1, 1]	3.00 [3, 3, 3]	+1.67
DeepSeek (2026-04-11 公共网页端)	0.33 [0, 1, 0]	2.67 [3, 2, 3]	+2.34
Claude Sonnet 4.6	0.67 [0, 1, 1]	3.00 [3, 3, 3]	+2.33

直接从表中看到的事:

三个平台在 M2 上都呈现正向差 (推理坡度型 > 格式优化型), 差值范围 +1.67 至 +2.34, 没有平台例外;
DeepSeek 差值最大 (+2.34), 格式优化型 M2 均值仅 0.33 — 三次 trial 中两次 M2=0 (完全无结构采纳), 一次 M2=1 (agent-b 判定为 “表层复述了规格信息, 未将论证结构纳入回答”);
Claude 差值 (+2.33) 与 DeepSeek 几乎相同, 但分布不同: 格式优化型均值 0.67, 没有出现 DeepSeek 的 “三次中两次完全无采纳” 的极端分布;
Qwen 差值最小 (+1.67), 格式优化型呈现一定程度的部分采纳 (均值 1.33), 高于另外两个平台。

真盲子集检查: 只看 trial 2 (agent-b 真盲) 与 trial 3 (agent-a 真盲) 共 12 条, 三平台 M2 差值方向与上表一致 — 正向差值不仅由 trial 1 非盲偏差驱动。

以 M2 ≥ 2 为阈值将 18 条样本做二元分类 (≥ 2 判为推理坡度型, < 2 判为格式优化型), 分类结果与实际身份的符合度为 16 / 18 = 88.9%。这一数字反映的是本次 rubric 在 n=18 小样本内对两类文档的区分能力。

§2.3 M1 可见性: 一个值得单独记录的并行观察

指标	格式优化型 M1 均值 (n=9)	推理坡度型 M1 均值 (n=9)	差值
M1 可见性 (0-3)	1.67	1.44	-0.22

M1 差值 -0.22, 相当于满分的约 7%。将其与 §2.2 中 M2 的 +2.0 级别差值并置: 在本次 18 条样本内, 两份文档在可见性维度上的差距远小于在采纳深度维度上的差距。

分解到三平台:

Qwen: 格式优化型 2.00 vs 推理坡度型 1.67 — 格式优化型略高;
DeepSeek: 格式优化型 1.00 vs 推理坡度型 1.67 — 推理坡度型反而更高;
Claude.ai: 格式优化型 2.00 vs 推理坡度型 1.00 — 格式优化型较高 (Claude 在回答中频繁以括号形式提及目标产品所属类别, 这一 “被动提及” 拉高了格式优化型在 M1 上的评分, 但并未转化为 M2 上的结构采纳)。

在本文的论域下, M1 与 M2 的这一解耦具有核心价值: 它显示可见性与采纳深度是两个可独立变化的维度。一份文档被看到 (M1) 与被纳入论证结构 (M2) 不由同一层信号决定。这正是 §1.1 所指出的 “可见性 ≠ 采纳” 断裂在实验数据中的具体呈现。在本次 18 条小样本内, M1 差值未呈现 GEO 奠基研究预期的强度。

§2.4 三平台可观察行为差异

除 M1 与 M2 两个可量化指标外, 三个平台在格式优化型文档上呈现了一类难以用单一数字概括但对理解 M2 不对称可能有参考价值的行为差异。

Claude.ai 的显式拒斥

Claude 在格式优化型文档上多次呈现显式拒斥: 在回答开头以元陈述形式告知用户它选择不使用上传文档。一个典型的原文段落⁵:

“与上传的[Product P]产品分析文档关系不大 — 我会基于行业知识直接分析, 不受文档内容限制。”

这是一种带有明确外部标记的不采纳行为: 读者不需要做内容分析, 仅从回答的第一段就能知道 Claude 没有使用上传文档。

DeepSeek 的静默忽视

DeepSeek 在格式优化型文档上呈现静默忽视: 回答中不包含类似的元陈述, 表层格式与 “正常作答” 无异, 但实际内容分析显示上传文档中的具体信息几乎没有出现在回答中, 回答形态与不上传任何文档的 baseline 近乎一致。唯一一次 M2=1 的 trial, 被 agent-b 判定为 “表层复述了规格信息, 但未将文档中的论证结构纳入回答” — 即便是这唯一的非零采纳, 也限于事实数据的简单转述, 没有进入论证结构层。

这是一种没有外部标记的不采纳行为。

“同结果不同表现” 的并置

Claude 和 DeepSeek 在外部行为表现上截然不同 — 一个明确拒斥, 一个沉默空缺 — 但两者对格式优化型文档的最终采纳结果几乎一致: Claude M2 均值差 +2.33, DeepSeek M2 均值差 +2.34, 仅相差 0.01。作者将这一 “同结果不同表现” 的现象作为事实记录, 其在 bounded rationality 框架下的候选解释见 §3。

Qwen 的行为: 不同于上述两类

Qwen 在格式优化型文档上呈现部分采纳 (M2 均值 1.33, 高于另两平台); 作者未在 Qwen 的回答中观察到类似 Claude 的显式拒斥, 也未在内容层上观察到类似 DeepSeek 的完全空缺。作者在 Qwen 格式优化型 trial 中观察到另一类现象: Qwen 在多次 trial 中出现了对作者身份的归因错误 — 例如 “贵司作为行业专家”、“结合您在热管理材料等领域的专业视角” — 即 Qwen 将提问者误认为目标产品的相关企业从业者。这一现象在三次 Qwen 格式优化型 trial 中出现两次, 而完全没有出现在任何一次 Qwen 推理坡度型 trial 中。3 次 trial 的样本无法支撑稳定的命名, 在此仅作为值得未来实验独立检验的观察条目登记。

§2.5 混淆变量

已排除或减小的干扰项: (1) 格式优化型文档经一位不参与实验的独立读者做过整体质量评估, 结论为内容自洽、事实清楚、结构合理; (2) 两份文档针对同一 Product P; (3) 上传与交互协议完全一致; (4) agent-b 盲评与 agent-a 真盲在解码映射外置条件下完成。

未能排除的候选混淆变量: (1) 两份文档可能在作者未察觉的某个结构维度上存在系统性差异 (信息新颖度、叙事节奏、句式密度等); (2) 平台可能存在作者无法在黑盒端独立测试的隐性前处理规则; (3) 3 trial 采样噪声 — 尽管三平台方向一致降低了此解释的说服力; (4) trial 1 中 agent-a 可访问文档身份映射, 这一信息可用性可能影响评分校准 — 尽管真盲子集方向一致。上述候选混淆变量作为本文愿意被证伪的具体路径之一, 详见 §5。

§3 候选解释: 受限计算系统的低成本路径偏好

§3.1 理论底座: Simon 的 bounded rationality 在 LLM 载体上的外推

Herbert Simon 在 1955 年的论文 “A Behavioral Model of Rational Choice” 中提出了 bounded rationality 的核心框架, 并在 1957 年的 Models of Man 中做了系统性阐述⁶。这一框架的核心主张可以概括为: 在资源受限 (信息不完整、计算能力有限、时间有限) 的条件下, 决策主体不会穷尽所有候选方案再选择全局最优, 而是系统性地偏好满足局部任务要求的低成本路径 — Simon 将这种行为称为 satisficing (满足即止), 以区别于经典经济学假设的 optimizing (全局最优化)。

这一原则在人类决策科学中已有七十年的学术沉淀, 其核心命题的证据负担早已被学界承担。本文不提出关于 bounded rationality 本身的新主张, 只做一个外推: 将 bounded rationality 的适用范围从人类决策主体扩展到 LLM 这一特定类型的受限计算系统。

外推的合理性基础在于: LLM 在生成过程中面临至少三种可被明确界定的资源约束 —

注意力预算 (attention budget): Transformer 架构 (Vaswani et al. 2017⁷) 中, 每一步生成需要对上下文中的所有 token 计算注意力权重, 不同 token 对注意力资源的占用构成竞争; 上下文越长, 每一步的注意力分配决策越复杂;
上下文预算 (context budget): 上下文窗口有限, 不同信息对窗口空间的占用构成竞争; 当文档被纳入上下文后, 它所占的空间就是后续生成过程不再可用的空间;
计算预算 (computation budget): 每一步前向推理有固定的计算开销, 生成过程的总长度受到推理成本约束; 更长、更复杂的续接路径意味着更高的计算成本。

在这些约束下, LLM 在每一步生成时面临 “从候选续接中选择一个” 的决策。这一决策的结构与 Simon 所描述的受限主体在候选方案中做选择的结构同构: 有多条可行路径, 每条路径有不同的资源消耗, 系统需要在路径间做出取舍。本文的外推是: 如果 Simon 的原则在人类决策主体上成立, 那么在一个面临结构相似的资源约束的 LLM 系统上, 同一种 “偏好低成本路径” 的倾向至少是一个值得检验的候选假设。

需要明确: 本文不声明 LLM “拥有” bounded rationality — 这将是一个关于心智属性的主张, 远超本文的证据范围。本文只声明 LLM 的生成过程在结构上满足 bounded rationality 的适用条件: 受限资源, 多候选路径, 需要在路径间做出选择。这一外推是对既有学术共识的自然延伸, 不是一个需要从零证明的新理论。

§3.2 推理坡度作为该偏好的一种具体内容层实现

在上述框架下, 本文引入 推理坡度 (Meng 2026, Zenodo DOI 10.5281/zenodo.19027371⁸) 作为 bounded rationality 原则在 LLM 内容采纳场景下的一种候选具体实现形式。推理坡度的核心思路是: 通过文档层面的结构设计, 降低 LLM 在继续生成过程中沿该文档内容路径前进的边际成本, 使其相对于其他候选路径成为一条 “更容易沿着走下去” 的路径。

推理坡度由三个要素构成。每个要素在 bounded rationality 框架下可以被理解为降低了继续生成过程中的某一类特定处理成本:

问题框架 (Question Frame) (Meng 2026 §3.1): 在文档内建立一个未关闭的认知缺口, 使后续生成过程有一个明确的 “填补方向”。在 bounded rationality 框架下, 问题框架的功能对应于降低路径搜索成本: 当生成过程面临 “从哪个方向继续” 的选择时, 一个未关闭的缺口提供了一个现成的继续方向, 使系统不需要在所有可能方向中做无约束搜索。一个没有缺口的文档要求生成过程自行决定 “这些信息的意义是什么”, 而一个带有缺口的文档已经把 “意义的方向” 预置在结构中。

因果铺垫 (Causal Paving) (Meng 2026 §3.2): 提供一条 A→B→C 的清晰推理链, 相比散落的事实, 链条降低路径选择的成本。在 bounded rationality 框架下, 因果铺垫的功能对应于降低路径组装成本: 散落的事实 (A, B, C 各自独立存在) 需要生成过程自行识别它们之间的关系并组装成链条, 每一次组装都是一次消耗注意力预算的操作; 而预铺的 A→B→C 链条是一条现成的、已组装好的低成本路径, 生成过程只需沿链条前进, 不需要自行承担组装的计算开销。

视角锁定 (Perspective Lock) (Meng 2026 §3.3): 在关键位置引入特定视角, 收窄推理空间的可选分支, 降低继续生成时的路径搜索成本。在 bounded rationality 框架下, 视角锁定的功能对应于降低分支修剪成本: 在不锁定视角的情况下, 生成过程面临多个视角对应的路径分支, 每个分支的评估都消耗计算预算; 锁定视角后, 可选分支被收窄到一个视角对应的子集, 选择成本随可选分支数量的减少而降低。

三个要素的共同机制可以概括为: 每一个要素都通过不同的方式降低了 LLM 在继续生成时的某种处理成本, 使得包含这些要素的文档对受限计算系统而言构成一条边际成本更低的续接路径。格式优化型文档 (§2.1) 通过标题层级、关键词密度、权威引用等方式提升文档被注意到的概率 (可见性), 但不直接降低生成过程沿该文档内容路径继续前进的边际成本; 推理坡度型文档则直接作用于后者。这一区别 — 可见性层面的优化与路径成本层面的优化指向不同的成本项 — 是本文论域 (§1.1 “可见性 ≠ 采纳”) 在机制层面的具体化。

§3.3 与 §2 观察的连接

如果上述框架成立, §2 中的四组观察可以在其中找到相容的位置:

M2 三平台方向一致 (§2.2): 如果格式信号 (标题层级、关键词密度等) 是路径选择的主要载体, 那么不同平台在格式信号识别能力上的差异应当导致平台间的 M2 差异分散化。实际观察到的是三平台 M2 差值方向完全一致 (+1.67 至 +2.34), 这与 “路径成本是跨平台共享的信号” 的解释相容 — 推理坡度型文档所降低的不是某个特定平台才能识别的格式特征, 而是自回归生成过程本身的边际续接成本, 后者是所有 Transformer 类平台在架构层面共享的约束。

M1 差值远小于 M2 (§2.3): 可见性 (M1) 与采纳深度 (M2) 的显著解耦, 在 bounded rationality 框架下对应两个不同层级的成本判断: 可见性对应 “是否值得注意” 的上游筛选成本, 采纳对应 “是否值得沿其路径继续生成” 的下游边际成本。两者可以独立变化: 一份文档可以因为格式信号而被注意到 (M1 较高), 但因为不提供低成本续接路径而不被结构性采纳 (M2 较低)。这正是 §2.3 中观察到的模式 — 格式优化型文档在 M1 上微幅领先 (-0.22), 但在 M2 上大幅落后 (+2.0 级别差值)。如果可见性与采纳由同一层信号决定, 这种大幅度的 M1-M2 解耦不应出现。

Surface behavior 差异但结果一致 (§2.4): Claude 的显式拒斥与 DeepSeek 的静默忽视, 在 bounded rationality 框架下可以被理解为同一 cost minimization 判断的两种不同外部汇报方式: 两个系统都判断 “沿格式优化型文档继续生成的成本高于沿自身已有知识继续生成的成本”, 只是一个选择向用户显式报告这一判断 (Claude 的元陈述), 另一个直接按判断结果行动而不报告 (DeepSeek 的静默)。判断本身是共享的, 汇报方式是平台特定的实现选择。如果两者的行为差异反映的是不同的底层判断机制, 则不应期望它们产生如此接近的 M2 差值 (仅相差 0.01)。值得指出: “内容质量差异” 这一更朴素的替代解释难以自然容纳这一模式 — 如果两份文档的 M2 差异仅来自内容质量的高低之分, 那么 Claude 选择显式声明拒绝使用文档、而 DeepSeek 静默地不使用文档这两种截然不同的外部行为, 就缺乏一个统一的解释; 而路径成本说可以: 两个系统做出了同一个成本判断, 只是在对用户的汇报方式上做了不同的实现选择。

88.9% 盲态分离 (§2.2): rubric 能够以 88.9% 的符合度区分两类文档在 LLM 回答中的结构采纳程度, 说明两类文档在某个被 LLM 采纳判断所敏感的维度上确实存在系统性差异。在 bounded rationality 框架下, 这一维度最合理的候选命名是 “继续生成的边际成本” — 推理坡度型文档通过三个要素系统性地降低了这一成本, 格式优化型文档没有, rubric 上的 M2 ≥ 2 阈值捕获的正是这一差异在回答结构中的可观察痕迹。

四组观察中没有任何一组单独构成 bounded rationality 解释的充分证据。但四组观察共同指向同一个方向, 并且每一组都可以在同一个框架下得到一致的 (而非 ad hoc 的) 解释 — 这种方向一致性本身是一个值得记录的模式。

§3.4 克制

上述连接是相容而非证明。bounded rationality 框架与 §2 的观察之间不存在演绎蕴涵关系。作者不声称 “因为 bounded rationality 成立, 所以 §2 的观察必然发生”, 只声称 “§2 的观察在 bounded rationality 框架下可以得到一组内部一致的解释, 这些解释不依赖 ad hoc 假设”。§2.5 已列出的未排除候选混淆变量在此同样适用, 不再展开。

本文不声明:

推理坡度是 bounded rationality 原则在 LLM 内容采纳场景下的唯一具体实现 — 可能存在其他同样降低续接边际成本的内容设计策略, 本文的实验未设计为排除这些替代;
bounded rationality 是解释 §2 全部观察的唯一理论框架 — 更简洁或更具解释力的替代框架是本文愿意被证伪的路径之一 (见 §5);
18 trial 小样本足以支持上述解释具有跨平台或跨时代的经验稳定性 — 本文只声称这些观察在 2026 年 4 月这一时间切片的三个平台上呈现了方向一致性, 这一方向一致性能否在更大样本下复现, 是一个开放的经验问题。

§4 与既有工作的关系

本章的任务是定位本文在既有文献图谱中的位置, 以避免读者在阅读时把本文误放到一个它不属于的知识位置。本文不是 GEO 的竞争者, 也不是 representation geometry 的实证验证 — 它占据一个特定的中间位置, 以下逐一说明。

§4.1 GEO 作为上游: 可见性论域的位置

Aggarwal 等人的 GEO 奠基研究 (arXiv:2311.09735, KDD 2024) 把核心问题定义为提升内容在生成式引擎中的可见性 — 其实验评估以 Perplexity.ai 为平台, 以 gpt3.5-turbo 为生成模型, 在 GEO-bench 的一万条查询上测量了九种内容优化策略对 subjective impression 和 citation 等指标的效果。该研究是这一领域第一篇系统性地将 SEO 思路迁移到生成式引擎上的工作, 为后续研究建立了问题框架和实验基准。

本文不反驳 GEO。GEO 解决的是一个在其自身论域内成立的问题: 如何让内容在生成式引擎的回答中被看到。本文关心的是这一问题之后的问题: 当内容已经被看到, 什么决定了它是否被纳入回答的论证结构。如果把内容采纳视为一条 “被看到 → 被纳入” 的两步链路, GEO 研究系统性地处理了第一步 (可见性), 本文关心的是第二步 (采纳)。

两者之间的关系不是竞争, 而是上下游: GEO 的可见性优化是本文所讨论的采纳机制的前置条件 — 一份完全不可见的文档不可能被采纳, 因此 GEO 所解决的问题是本文论域存在的先决条件; 但可见性的达成不自动保证采纳的发生, §2.3 的 M1-M2 解耦数据为这一区分提供了至少在本次小样本内可观察的经验支持。

§4.2 Geometry of Reasoning 作为邻近下游

Zhou 等人的 “The Geometry of Reasoning: Flowing Logics in Representation Space” (arXiv:2510.09782, v1 提交于 2025 年 10 月 10 日, v2 修订于 2026 年 3 月 3 日⁹) 将 LLM 推理建模为 representation space 中的 smooth flows, 并提出 logical statements act as local controllers of these flows’ velocities。

这一工作与本文存在一种值得指出的邻近关系, 但两者在层级上不同:

Zhou 等人的工作处于 representation space 层面, 研究的是推理过程在模型内部表征空间中的几何结构 — 它需要模型内部的 activation 数据, 处理的是 “推理过程在数学上长什么样” 的问题;
本文处于内容层面, 研究的是文档的结构设计如何影响 LLM 对该文档信息的采纳 — 它不接触模型内部表征, 处理的是 “什么样的文档更容易被 LLM 沿用” 的问题。

两者之间存在一种概念上的可对齐性: 本文在 §3.1 所描述的 “LLM 作为受限计算系统偏好低成本续接路径” 这一假说, 在 Zhou 等人的几何建模下, 可以被重新表述为 “LLM 偏好 representation space 中阻力更低的 flow 方向” — 低成本路径对应低阻力 flow, 推理坡度三要素所降低的边际成本对应 flow velocities 的局部加速。

但本文不声明这一对齐已被严格证明。本文的实证材料是内容层面的三平台对照实验 (§2), 不涉及 representation space 的内部几何。将本文的 bounded rationality 框架与 Zhou 等人的 flow 建模做严格连接, 需要的是: 在同一实验中同时测量文档结构的内容层特征和模型内部的 activation flow, 验证两者之间是否存在可预测的映射关系。这一工作超出本文的数据范围, 作者将其作为一个值得未来研究探索的方向指出, 不在此做更强的主张。

§4.3 本文占据的中间桥位

综合上述两组关系, 本文在文献图谱中占据一个特定的中间位置:

GEO (Aggarwal 2024)           本文                    Geometry of Reasoning (Zhou 2025)
可见性论域                     路径采纳论域              表征空间论域
"如何被看到"      ──上游──>    "如何被纳入"    ──下游──>  "推理过程的内部几何"
格式信号                       路径成本                  flow velocities

本文不是:

证明 GEO 的可见性优化已经失效 — GEO 在其论域内成立, 本文只指出采纳是一个独立的下游层;
证明 representation geometry 的内部建模在内容层有可操作的含义 — 本文不承担那种证据负担;
提出一个覆盖从可见性到内部几何全链路的统一理论 — 本文仅处理中间的路径采纳这一层。

本文占据的是: 从 visibility 到 representation geometry 之间的 path selection 中间层。推理坡度是本文提出的、在这一中间层工作的候选机制, 它以 bounded rationality 为理论底座 (§3.1), 以三要素为具体实现 (§3.2), 以 EXP-003 的三平台数据为有限的经验支持 (§2)。这一候选机制是否能被独立复现、是否能与上游的可见性优化和下游的 representation flow 建模做更紧密的连接, 都是开放问题。

§4.4 与 prompt engineering 的关系隔离

读者可能会把推理坡度的三要素理解为 prompt engineering 的一种变体。两者之间确实存在表层相似性 — 它们都涉及对文本结构的有意设计。但它们的作用对象和信号通道不同:

Prompt engineering 作用于用户与 LLM 之间的对话输入层 — 它设计的是提问方式、指令格式、系统提示词等对话级信号, 目标是引导 LLM 在当前会话中产生特定形式的回答;
推理坡度 作用于上传文档的内部结构 — 它设计的是文档本身的推理路径排布, 目标是降低 LLM 在生成过程中沿该文档内容继续推理的边际成本。

两者可以在同一个 LLM 会话中共存且独立变化: 同一条 prompt 搭配不同结构的文档会产生不同的采纳深度 (§2 的实验中 prompt 完全一致, M2 差异来自文档结构); 同一份文档搭配不同的 prompt 也可能产生不同的回答形式, 但文档本身的路径成本不因 prompt 措辞而改变。

§5 边界、证伪与阶段性

§5.1 三条证伪路径

本文的一个核心义务是显式地告诉独立研究者: 如果你想推翻本文, 从哪里下手。以下三条路径各自独立, 任何一条被有效执行都会动摇本文的某一层结论。

路径一: 样本扩展反例

在与本文相同或相近的架构、同一时间切片、相似样本条件下, 独立研究者做一次规模更大 (例如每条件 n ≥ 30) 的重复实验。如果格式优化型文档与推理坡度型文档之间的 M2 差值在更大样本下明显衰减或消失, 本文 §2 的经验观察被证伪。这条路径执行门槛最低 — 直接采用本文 §2.1 的实验协议重做即可。

路径二: 更严格对照反例

独立研究者重构一对文档, 在 “除推理坡度路径层之外的所有维度上” 做更严格的对齐 — 即更严格地控制 §2.5 中作者未能排除的候选混淆变量 (信息新颖度、叙事节奏、句式密度、词汇频率等)。如果在这一更严格对照下两份文档的 M2 差值消失或逆转, 则 §3 中 “观察到的不对称来自路径成本层” 这一候选解释被部分证伪。这条路径难度高于路径一, 但产生的信息量也更大。

路径三: 替代理论反例

独立研究者提出一个更简洁的替代理论框架, 能同时解释 §2 中的全部观察 (M2 三平台方向一致 + M1-M2 解耦 + Claude 显式拒斥与 DeepSeek 静默忽视结果一致 + 88.9% 盲态分离), 且该框架承担的理论假设更少、证据负担更低。如果这样的替代框架出现, 本文 §3 的 bounded rationality 解释在 Occam 剃刀下应当被替代。这条路径不要求新实验, 只要求一个更好的解释。作者对此持开放态度, 并明确表示 — 如果未来出现这类替代理论, 作者愿意在后续版本或独立声明中承认框架被替换。

§5.2 Scope 声明

§1.3 中声明的 scope 是本文结论能走多远的硬边界, 在此不复述具体内容, 仅提醒: 架构 scope (Transformer 类自回归生成)、时间 scope (2026 年 4 月切片)、样本 scope (18 trial 小样本、中文语境)、对象 scope (LLM 内容采纳机制, 不涉及排名/流量/转化), 超出任何一层的引用都是对本文的误读。

本文的所有主张都是阶段性的。本文的使命不是给推理坡度方向下一个最终判断, 而是给 2026 年 4 月这一时刻的所见所思一个公开的时间戳, 让作者当前的认知位置被固定下来, 供未来核对。如果未来的证据证明本文错了, 那正是预印本体裁所期待的结果之一。

§5.3 结语

本文是一份第一人称的现象学观察报告。它不寻求证明强主张, 它寻求的是让读者清楚地看到: 作者观察到了什么 (§2), 作者如何解释这些观察 (§3), 这些解释在既有文献中处于什么位置 (§4), 以及作者愿意被如何推翻 (§5.1)。

结论归读者, 记录归作者。本文只做记录。

§6 数据可用性 / 致谢 / 利益声明 / 元信息

本章是本文的行政章, 不涉及论证, 只交代评估本文可信度所需的全部外部条件。

§6.1 数据可用性声明

本文的实证材料来自一次对照实验 (EXP-003)。关于实验材料的可用性, 作者在此做一次明确声明。

可被任何读者公开引用的内容:

§2.2 / §2.3 中以表格形式呈现的 M1 与 M2 均值矩阵、每条 trial 的原始整数评分序列、以及三平台 × 两文档的交叉表数据;
§2.4 中引用的 Claude 显式拒斥行为的典型原文段落 (具体产品名已统一替换为代号 “Product P”);
§1 至 §5 中的所有立场声明、理论框架、候选主张、证伪路径。

未对外发布的实验材料:

EXP-003 中使用的两份完整对照文档 (格式优化型文档与推理坡度型文档的全文);
18 个 trial 中 LLM 返回的完整原始回答文本;
盲评 rubric (v0.7 版本) 的完整判分标准与边界案例;
三层盲性协议中 agent-a 与 agent-b 的具体执行环境配置与评分 CSV 文件;
作者用于生成两份对照文档的内部构造草稿与迭代记录。

作者选择不对外发布上述原始材料, 理由是保持本文现象学报告体裁的诚实边界 — 原始材料中包含目标产品的具体信息、作者内部评分流程的执行细节, 以及若干尚在迭代中的实验设计。不公开原始材料会降低本文的可独立复现性。作为补偿, §5.1 列出了三条具体的证伪路径, 独立研究者可以不依赖作者未公开的任何材料, 从零设计自己的对照实验, 直接检验本文的主张。

§6.2 致谢

作者感谢以下方面:

一位不参与本次实验、在实验运行前对格式优化型文档的内容质量做过独立评估的读者。这一评估是 §2.5 中 “格式优化型文档内容质量可接受” 判断的直接来源;
为 agent-b 提供独立执行环境隔离的工具链与配置框架 — 这一隔离是 §2.1 三层盲性协议中 trial 2 真盲评分得以实现的基础设施前提;
本文 §3 的理论框架建立在作者此前的一份独立文件之上 (见 §6.4 关联引用)。作者感谢那份文件撰写过程中给予批评与意见的若干读者。

作者不向任何 LLM 平台、生成式引擎优化产品或服务、内容营销工具厂商致谢, 因为本文的作者与上述任何实体之间都没有发生过内容生产合作、资金支持、咨询服务或任何其他形式的商业往来。

§6.3 利益关联披露

作者在此显式披露以下商业关联:

作者是 firel.cn 网站的运营者之一;
firel.cn 对外提供与推理坡度方法论相关的内容咨询与方法论输出;
如果本文 §3 中的候选解释在未来被更大规模的独立研究所支持, 这一方向的学术确认会对 firel.cn 运营的业务方向产生正向影响。

关于这一利益关联, 作者的立场是:

利益关联的存在不自动使本文结论无效 — 本文的结论应当由 §2 的实证材料、§3 的理论论证与 §5 的证伪路径本身的质量来判断;
利益关联的不披露才会让可信度受到不可挽救的损害, 作者因此选择显式披露;
本文中没有出现任何对 firel.cn 的推荐、链接导流、产品或服务介绍、或任何形式的商业语言。

本节与 §1.3 中的作者偏见声明互为补充: §1.3 声明的是认知层面的倾向, 本节声明的是利益层面的关联。

§6.4 版本 / 许可 / 引用 / 元信息

作者: Junwoo Meng

标题: 《推理坡度作为低成本路径假说: 关于 LLM 内容采纳机制的一份第一人称观察报告》

版本: 1.0 (首次提交)

日期: 2026-04-12

发布平台: Zenodo (本版本不同时提交至 arXiv)

DOI: 10.5281/zenodo.19528262

许可: CC-BY-4.0, 与作者此前发表的 Zenodo 论文保持一致

同行评审状态: 本文是预印本, 未经过正式的同行评审。作者欢迎任何形式的非正式评审 — 包括对 §2 实证材料的质疑、对 §3 候选解释的替代框架、对 §5.1 证伪路径的实际执行结果与反馈。

关联的此前发表

Meng, J. (2026). 《推理坡度: 基于 Transformer 注意力机制的内容采纳理论》. Zenodo. DOI: 10.5281/zenodo.19027371. URL: https://zenodo.org/records/19027371. 发表于 2026-03-15, CC-BY-4.0 许可。

本文 §3 所引用的推理坡度三要素定义由该文件承担; 本文不在正文中复述该文件的详细内容。读者如需对推理坡度三要素的机制细节、与 Transformer 注意力机制的关系、或与传统提示工程的区别做进一步了解, 应参阅该文件。

引用格式建议

APA 格式:

Meng, J. (2026). 推理坡度作为低成本路径假说: 关于 LLM 内容采纳机制的一份第一人称观察报告. Zenodo. https://doi.org/10.5281/zenodo.19528262

中文引用格式:

Meng, J. (2026). 《推理坡度作为低成本路径假说: 关于 LLM 内容采纳机制的一份第一人称观察报告》(预印本). Zenodo. DOI: 10.5281/zenodo.19528262.

联系方式

作者可通过 firel.cn 网站所提供的公开渠道与外界交流。作者不承诺对所有来信做出响应, 但对 §5.1 所列任何一条证伪路径的实际尝试与反馈, 作者承诺认真阅读并做出回应。

Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). GEO: Generative Engine Optimization. arXiv:2311.09735. v1 提交于 2023-11-16; v3 修订于 2024-06-28. Published at KDD 2024. 原文 HTML 访问: https://arxiv.org/html/2311.09735v3. 作者对该论文的实验设置做过独立核对, 本文引用的 Perplexity.ai / gpt3.5-turbo / 一万条查询三项均来自原文直引。 ↩
《央视 3·15 晚会曝光 AI 大模型”投毒”黑产：「力擎 GEO 优化系统」被点名》, 新浪财经, 2026-03-16. URL: https://finance.sina.com.cn/stock/t/2026-03-16/doc-inhrcxwy9819362.shtml. ↩
作者的实验协议文件曾将本次 DeepSeek 版本记录为 “DeepSeek-V3.2-Exp”, 但该字符串来源于 API 文档对当时可用 API 模型的说明, 而非网页端界面显示。公共网页端实际运行的后端模型与 API 文档所列模型之间的一致性, 作者无法从自己可触达的信号中独立验证。 ↩
方括号内三个整数分别为 trial 1 / trial 2 / trial 3 的原始评分, 对应三层盲性协议。原始评分文件见 §6 数据可用性声明。 ↩
引文为 Claude 实际回答原文, 唯一编辑是将具体产品型号替换为本文中性代号 “Product P”, 其余措辞与标点保持原始输出一致。 ↩
Simon, H. A. (1955). A Behavioral Model of Rational Choice. Quarterly Journal of Economics, 69(1), 99-118. Simon, H. A. (1957). Models of Man: Social and Rational. New York: Wiley. Bounded rationality 后续被 Fiske & Taylor (1984) 的 cognitive miser 概念和 Zipf (1949) 的 Principle of Least Effort 从不同角度呼应, 但本文仅以 Simon 的原始表述作为锚点, 不展开与后续发展的关系。 ↩
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems (NeurIPS 2017). arXiv:1706.03762. ↩
Meng, J. (2026). 推理坡度: 基于 Transformer 注意力机制的内容采纳理论. Zenodo. DOI: 10.5281/zenodo.19027371. 本文以该 Zenodo 论文作为推理坡度的定义来源, 对三要素的摘述均引自该论文相应章节。 ↩
Zhou, Y., Wang, Y., Yin, X., Zhou, S., & Zhang, A. R. (2025). The Geometry of Reasoning: Flowing Logics in Representation Space. arXiv:2510.09782. 作者对该论文摘要做过独立核对。 ↩