产品图 AB 测设计指南

产品图 AB 测想不白测，得过四关：单变量（一次只换一个元素，否则没法归因）、样本量（按基础 CTR 算每组曝光量）、时间窗口（最少跨完一周避开周末差异）、显著性（95% 置信区间或 p 值小于 0.05）。禾石把这四关拆开讲。

大多数卖家的 AB 测，其实是在自我安慰

跨境圈现在流行一句话：「不 AB 测就别上主图」。话没错，但执行起来九成走样——找设计师做两版主图，各跑三天，看哪张点击率高就留下，然后宣布「数据驱动」。听上去很科学，实际上从头到尾没一步站得住。禾石给跨境卖家交付主图的过程里，复盘过客户自己跑过的 AB 测，归纳出四个高频错误：

多变量同时改。A 版是「白底 + 正面角度 + 无文字」，B 版是「场景底 + 45 度角 + 加 promo 文字」。最后 B 赢了，到底是底色赢的、角度赢的，还是文字赢的？根本说不清。下一次想复用经验，无从下手。
样本量太少。每组只跑了几百次曝光，CTR 差 0.5 个点，看着像有差，其实完全在随机波动范围里。换一周跑同样的两张图，结果可能反过来。
时间窗口太短。跑 48 小时就下结论，等于只测了工作日某两天。跨境流量周末工作日差异非常大，再叠上某条短视频突然带流量，结论可能完全是偶然。
不会判断显著性。看到 A 版 CTR 是 3.2%、B 版是 3.5%，直接宣布 B 赢。但这 0.3 个点的差，在样本量不够的前提下，可能 60% 概率是噪声。

这四个错误叠在一起，做出来的所谓「测试结论」，跟掷硬币的差别不大。卖家以为自己在用数据决策，其实只是把直觉决策套了个数据的壳。这篇把四关挨个拆，给一套真正能用的 AB 测设计框架——不一定要变成统计学家，但至少要懂哪几条红线不能踩。

关 1 · 单变量原则：一次只换一个元素

这条是所有 AB 测的地基：A 版和 B 版之间，只能有一个差异点，其他全部锁死。换句话说，B 是 A 复制一份之后只动一个变量得来的。这条不守，后面三关都白搭——因为你算出再漂亮的显著性，也归因不到具体是哪个改动起的作用。

哪些是「一个变量」的合法范畴

产品图层面，常见可测变量大致几类：背景（白底 vs 浅灰、纯色 vs 场景）、角度（正面 vs 45 度、整体 vs 特写）、人物（有无手模、模特身材类型）、文字图层（有无、长短、位置）、道具（有无、单个 vs 多个）、色调（暖冷、饱和度）。整理成一张速查表方便挑变量：

变量名	常见假设	适用品类	改动成本
背景色（白 vs 浅灰）	浅灰底质感更高，转化更好	3C、家居、美妆	低（修图改）
是否加人物 / 手模	有人比例尺，点击率高	3C 小件、首饰、穿戴	中（要重拍）
拍摄角度（正面 vs 45 度）	45 度更立体，吸引点击	家电、箱包、鞋类	中（重拍或换机位）
主图加促销文字	有文字点击高，但平台可能限制	仅独立站，亚马逊主图禁文字	低（设计图层）
道具有无	有道具说明用法，转化高	家居、美妆、户外	中（要搭场景）
色调风格（暖 vs 冷）	暖调更温馨，特定品类高转化	母婴、家居、餐厨	低（调色改）
局部特写 vs 整体	特写显细节，整体显尺寸	3C、首饰、工具	低（裁切改）

这张表的用法是：每次只挑一行，做出 A、B 两版，其他六行的状态在两版里完全一样。下次想测别的，再单挑一行，一行一行测。听起来慢，但这是唯一能积累有效结论的路径。

一次改一个 vs 一次改多个的差别

举个例子。一个手机壳卖家同时改了三处：背景从纯白换成浅灰、加了手持、角度从正面换成 45 度。新图 CTR 从 2.8% 涨到 3.6%。卖家很开心，新品复用同样套路，结果 CTR 反而跌了。为什么？因为他根本不知道 0.8 个点的涨幅是哪一项贡献的——可能浅灰底贡献 +1.2，45 度角实际上 -0.4，加手持中性。换个产品视觉特性变了，三项的账重新洗一遍，总账可能就负。

这就是多变量同测的代价：你拿到的不是经验，是巧合。统计上叫「无法归因」，落地上叫「下次不一定能复现」。专业 CRO 领域有多变量测试 MVT 这一类方法，但对样本量的要求是普通 AB 测的几倍甚至几十倍，普通卖家的流量根本撑不起。守住单变量这条底线，是流量小卖家唯一可行的路。

关 2 · 样本量怎么定：基础 CTR 越低，需要的曝光越多

这一关是最反直觉的——不是「跑得越久越准」，而是「样本量不够，跑多久都不准」。统计学里有一套样本量公式，决定要看见两个 CTR 差异有显著意义，每组至少需要多少次曝光。

核心规律：基础 CTR 越低，样本越多

简单说一个直觉：如果你的基础 CTR 本来就是 10%，那 10% 涨到 12% 这种变化很容易在小样本里看出来；但如果基础 CTR 只有 1%，1% 涨到 1.2% 几乎淹没在噪声里，必须海量样本才能区分得清。

下面这张表是按业界公认的样本量计算逻辑（95% 置信度、80% 统计功效、要检测相对 10% 的提升），给到不同基础 CTR 下每组所需的大致曝光量。不是精确值，是数量级参考：

基础 CTR	想检测的相对提升	每组所需曝光量（近似）	常见对应场景
1%	+10%（即升到 1.1%）	约 15 万 - 16 万	低流量类目主图、搜索结果靠后位
3%	+10%（即升到 3.3%）	约 5 万 - 6 万	主流类目搜索结果首页
5%	+10%（即升到 5.5%）	约 3 万 - 3.5 万	表现较好的关键词首页 listing
10%	+10%（即升到 11%）	约 1.5 万	品牌词、复购页
20%	+10%（即升到 22%）	约 7000	详情页内部 A+ 模块、加购位

看这张表能得出两个直接结论。第一，对绝大多数跨境产品主图来说，CTR 在 1% 到 5% 之间，每组至少要 3 万到 15 万曝光才能拿到有效结论。第二，如果你想检测的不是 10% 的相对提升，而是更小的提升比如 5%，所需样本量大约要乘四倍——10% 涨 5% 相当于绝对值涨 0.05 个点，这种小幅度差异需要的样本量很容易跑到几十万。

流量小怎么办

很多中小卖家看完这张表会绝望——一个 listing 每天就几百曝光，三万曝光要等几个月。三条出路：延长周期（用时间换样本，但要承担季节性风险）、降低显著性要求（接受 90% 甚至 80%，比拍脑袋强）、只测大改动不测细节（纯白底 vs 全场景这种大变化几千曝光就能看出来，「字体颜色调浅一点」这种 1% 级差异流量永远验不出来）。禾石最常给客户的建议是第三条：流量小就别测精细颗粒，专心测能拉开档次的大改动。AB 测对小卖家的意义是排除明显错误的方向，不是把每个像素调到最优。

关 3 · 测多久：最少跨一个完整周

样本量决定一个下限，时间窗口决定另一个下限。两个下限同时满足，测试才跑得到位。

最短 7 天，理想 14 天

业界共识基本一致：AB 测最短跑满一个完整业务周期，也就是 7 天。电商流量在一周内的波动非常大，周末和工作日的转化人群属性差异显著。只跑周一到周三，结论代表的只是工作日白天浏览习惯，周末休闲购物人群根本没采样到。更保守的做法是跑 14 天跨完两周，平掉「这一周比较特殊」的偶然性。Amazon 自家的 Manage Your Experiments 默认实验周期就是 4 到 10 周，远比卖家直觉里「三天就能跑完」要长得多。

流量水平	建议最短时长	理由
大流量（每周曝光 > 10 万）	7 - 10 天	样本量够，跑满一周避开周末工作日差异
中等流量（每周曝光 1 万 - 10 万）	14 - 21 天	需要两到三周累积出有效样本
小流量（每周曝光 < 1 万）	21 - 42 天	样本积累慢，需要长周期堆量

避开促销日、节庆、突发流量

选时间窗口还要避开几类污染源：

大促日。Prime Day、黑五、网一期间流量结构和平时完全不同——价格敏感型买家、比价行为、冲动消费集中爆发，测出的图片偏好和日常不是同一个市场。非要在大促期间测，结论只能用于下次大促。
季节切换 / 突发流量。夏装冬装拍法逻辑完全不同，测试最好控制在同一季节里；某条短视频突然带量、KOL 提及、亚马逊算法临时推首页这种非常规流量会扭曲基线 CTR，期间出现最好作废重测。
新品冷启动期。新 listing 前两周亚马逊在做算法试探，流量结构不稳定，测什么都不准。等流量曲线稳定下来再开测。

关 4 · 显著性判断：差几个点不一定真有差

这一关是最容易凭感觉踩坑的——看到 A 版 3.2%、B 版 3.5%，立刻得出「B 版赢 0.3 个点」的结论。但 0.3 个点是不是真有差，取决于样本量和波动范围，不能直接看数字。

什么是 95% 置信区间

通俗解释：跑出来的 CTR 数字本身就带误差。每组只跑了 5000 曝光的 3.5%，跟每组跑了 50 万曝光的 3.5%，可信程度完全不一样。统计学用「置信区间」量化这个误差——「B 版 CTR 是 3.5%，95% 置信区间 [3.2%, 3.8%]」意思是真实 CTR 有 95% 概率落在这个区间。

判断 A 和 B 是不是真有差，看两边的置信区间重叠情况：完全不重叠（如 A [3.0%, 3.2%] vs B [3.4%, 3.6%]）确定 B 更好；有重叠但差距明显需要算 p 值，p 值小于 0.05 才算显著；大幅重叠（如 A [2.8%, 3.5%] vs B [3.0%, 3.7%]）大概率没真实差异，不要轻易宣布 B 赢。p 值小于 0.05 表示这种差异由偶然产生的概率不到 5%。绝大多数 AB 测工具会自动算，看一眼就行。

常用 AB 测工具

工具	适用场景	主要特点
Amazon Manage Your Experiments	已品牌备案的亚马逊卖家测主图、A+、标题、五点描述	官方免费，要求品牌备案、一定流量、专业卖家账户，达到 95% 显著性自动判胜
Shopify Rollouts	独立站 Shopify 主题级 AB 测	2026 年 Winter Edition 推出的原生功能，所有套餐免费，服务器端分流不闪屏
第三方专业工具（VWO、Convert、ShopLift 等）	独立站精细化 AB 测	支持人群分群、多变量、按元素拆测，功能强但月费较高
PickFu 等付费用户调研	样本量小、想快速预筛图片	付费招募调研对象快速给反馈，不是真流量 AB，仅供参考
Excel 手算 + 自定义流量分流	极小卖家、定制场景	免费但费时，自己控分流逻辑，容易引入误差

Amazon 的 Manage Your Experiments 是亚马逊卖家做主图 AB 测的首选——直接对接平台流量，分流逻辑由亚马逊保证，显著性判断系统自动做。门槛是必须完成品牌备案、ASIN 有足够流量、账户是专业卖家计划。Shopify 的原生 Rollouts 优点是服务器端分流——访客看不到「先加载错版本再切对」的闪烁，但边界在主题板块级别，不能动 checkout 和 Liquid 模板。

真实测试的六步执行流程

把四关的原则串成可执行的步骤，禾石给客户做主图 AB 测时按以下流程走：

定假设。先一句话写清楚你想验证什么。比如「把白底换成浅灰底，能让 CTR 提升 10% 以上」。没假设的测试都是浪费样本。
挑变量。对照前文的可测变量表，只动一项，其他全部锁死。明确写出 A、B 两版的差异点。
算样本量。根据当前 listing 的基础 CTR，对照样本量表估算每组所需曝光。算出来低于 5000 就先想办法蓄流量再测。
选时间窗口。最短 7 天，理想 14 天。查日历避开促销和节庆，确认期间没有运营动作（不上新、不调价、不投流量结构变化）。
跑测试 + 持续观察。过程中只看不动，不要中途换图，不要中途调价，更不要因为前三天 A 版领先就提前停掉。提前停的 AB 测在统计上叫「peeking」，会大幅推高假阳性率。
判读结果。测试到期后看显著性数字。p 值小于 0.05 或置信区间不重叠才能下结论。如果不显著，结论是「差异不显著，保持原图」，而不是「B 版略胜，换 B」——不显著就是没差，不能凭感觉胜出。

这六步看上去严格，但执行下来一点不慢。AB 测真正花时间的是跑测试本身，前期设计阶段多花一小时定假设、算样本，能避免后面浪费两周时间跑无效测试。

写在最后

跨境圈对 AB 测的态度有两个极端：要么神化，认为不测就是凭感觉乱来；要么不屑，觉得就是玄学。都不对。AB 测是统计工具，用对了给你决策依据，用错了反而强化错误判断——0.3 个点的差距其实是随机噪声，你以为是真实信号，按这个信号做升级，等于把噪声当真相复用。

这篇拆的四关——单变量、样本量、时间窗口、显著性——是把 AB 测从仪式感变成真工具的最低门槛。守住这四条，每次测试不一定都能拿到有用结论（很多结果就是「不显著」，这本身也是有效信息），但至少决策是基于数据的，不是基于错觉的。禾石给跨境卖家拍主图的过程里，越来越觉得拍摄本身只是上半场，下半场是看哪张图真的能在市场里拉动转化。如果你正在做一组新主图，先别急着上线，把这四关挨个对一遍——一次设计周期里多花两小时想清楚怎么测，可能比加预算多投流量更划算。

产品图 AB 测设计指南：变量、样本量、出图节奏