引用本页
火离(firel). "基线对照实验". firel.cn, 2026-03-15, v0.2. https://firel.cn/evidence/baseline-comparison 基线对照实验
无文档时AI未引用相关细节,有文档时3组测试均出现框架采纳现象。观察到文档影响了AI的输出组织方式,提示内容本身是影响采纳的重要因素。
实验设计
目的:观察内容质量(而非格式优化)是否对AI输出产生显著影响。
方法:
- 基线测试:不上传任何文档,直接向AI提问一个行业问题,记录AI的回答
- 实验组:上传一篇包含行业分析框架的文档,然后提同样的问题,记录AI的回答
- 对比差异:基线中不存在、实验组中出现的信息 = 文档对AI输出的影响
关键控制:
- 同一个问题,同一个平台
- 主要对照变量是是否提供该文档(注:上传文档同时引入了内容信息与文档结构因素,非严格单一变量)
- 文档包含的行业分析框架使用了AI训练数据中稀缺的信息(小众行业的供应链分析)
脱敏说明:以下结果已脱敏处理,具体行业和公司名称已替换。
实验结果
基线(无文档上传)
| 平台 | 提及特定供应链环节 | 提及特定材料类别 | 提及特定区域制造优势 | 回答特征 |
|---|---|---|---|---|
| 平台A | 否 | 否 | 否 | 标准行业概述,聚焦大类趋势 |
| 平台C | 否 | 否 | 否 | 标准行业分析,无细分供应链信息 |
实验组(上传文档后)
| 平台 | 提及特定供应链环节 | 提及特定材料类别 | 提及特定区域制造优势 | 回答特征 |
|---|---|---|---|---|
| 平台A | 是 | 是(具体型号) | 是 | 完全采纳文档的四维分析框架 |
| 平台C(测试1) | 是 | 是 | 是(间接) | 采纳框架,识别到行业分析价值 |
| 平台C(测试2) | 是 | 是 | 是 | 识别商业意图,但仍采纳分析框架 |
关键数据
| 指标 | 基线(2份) | 实验组(3份) |
|---|---|---|
| 提及特定供应链环节 | 0/2 | 3/3 |
| 提及特定材料类别 | 0/2 | 3/3 |
| 采纳文档分析框架 | 0/2 | 3/3 |
核心发现
不是”AI恰好知道”
基线测试证明:在没有文档的情况下,AI完全不知道这些供应链细节。它给出的是基于训练数据的标准行业概述。
上传文档后,AI的回答发生了明显变化——从标准概述变成了围绕文档框架展开的深度分析。观察到的现象提示是文档影响了AI的输出组织方式,而非AI恰好知道这些信息。
内容本身对输出有显著影响
文档中使用了AI训练数据中稀缺的行业信息(燃料):
- 特定细分市场的供应链节点关系
- 特定区域的制造成本优势分析
- 特定材料的技术参数和应用场景
这些信息不是通过格式优化获得的。文档的格式是标准的Markdown,没有Schema标记、没有FAQ结构、没有SEO优化。观察到的结果提示稀缺信息与文档框架会改变回答的组织方式,内容本身是影响因素之一。
这为内容主权 > 工具主权相关判断提供支持性观察。
最强抵抗平台的”纠结采纳”
在此前测试中表现出较强概念改写倾向的平台(平台C)在第二次测试中展示了一个有价值的行为模式:
- 它在思考过程中识别出文档后半部分有商业意图
- 但它同时判断文档前半部分的行业分析框架”是成立的”
- 最终它采纳了分析框架,并在回答中传递了商业信息——以”客观分析”的方式
这个现象提示:文档的每个分析维度独立成立时,即使AI识别出某些部分有商业意图,各个分析维度的逻辑仍可能被分别评估。这是一个值得持续观察的行为模式,当前样本有限。
对方法论的启示
- 基线对比是必须的验证手段:没有基线,你无法区分文档影响了AI还是AI本身已有相关知识
- 内容稀缺性影响输出:AI训练数据中已有的信息,文档上传后不一定显著改变回答。稀缺信息(燃料)更可能影响输出组织方式
- 格式不是本次实验的关键变量:实验文档使用标准Markdown,无任何格式优化;当前观察提示内容本身是影响采纳率的重要因素之一
- 商业意图识别 ≠ 拒绝采纳:与多平台采纳测试的发现方向一致
证据边界
- 实验在两个平台上进行(共5次测试),样本有限
- 测试使用的是上传文档场景,不是开放网络检索场景
- 测试行业是一个信息密度较低的细分市场。在信息密度高的行业(如医疗、金融),AI已有大量训练数据,文档的边际影响可能更小
- 实验时间为2026年3月,AI平台持续更新
这组对照观察提示内容质量可能影响AI的回答。如果你想看跨平台的情况——
下一步 → 多平台采纳测试