产品图 AB 测想不白测,得过四关:单变量(一次只换一个元素,否则没法归因)、样本量(按基础 CTR 算每组曝光量)、时间窗口(最少跨完一周避开周末差异)、显著性(95% 置信区间或 p 值小于 0.05)。禾石把这四关拆开讲。
大多数卖家的 AB 测,其实是在自我安慰
跨境圈现在流行一句话:「不 AB 测就别上主图」。话没错,但执行起来九成走样——找设计师做两版主图,各跑三天,看哪张点击率高就留下,然后宣布「数据驱动」。听上去很科学,实际上从头到尾没一步站得住。禾石给跨境卖家交付主图的过程里,复盘过客户自己跑过的 AB 测,归纳出四个高频错误:
- 多变量同时改。A 版是「白底 + 正面角度 + 无文字」,B 版是「场景底 + 45 度角 + 加 promo 文字」。最后 B 赢了,到底是底色赢的、角度赢的,还是文字赢的?根本说不清。下一次想复用经验,无从下手。
- 样本量太少。每组只跑了几百次曝光,CTR 差 0.5 个点,看着像有差,其实完全在随机波动范围里。换一周跑同样的两张图,结果可能反过来。
- 时间窗口太短。跑 48 小时就下结论,等于只测了工作日某两天。跨境流量周末工作日差异非常大,再叠上某条短视频突然带流量,结论可能完全是偶然。
- 不会判断显著性。看到 A 版 CTR 是 3.2%、B 版是 3.5%,直接宣布 B 赢。但这 0.3 个点的差,在样本量不够的前提下,可能 60% 概率是噪声。
这四个错误叠在一起,做出来的所谓「测试结论」,跟掷硬币的差别不大。卖家以为自己在用数据决策,其实只是把直觉决策套了个数据的壳。这篇把四关挨个拆,给一套真正能用的 AB 测设计框架——不一定要变成统计学家,但至少要懂哪几条红线不能踩。
关 1 · 单变量原则:一次只换一个元素
这条是所有 AB 测的地基:A 版和 B 版之间,只能有一个差异点,其他全部锁死。换句话说,B 是 A 复制一份之后只动一个变量得来的。这条不守,后面三关都白搭——因为你算出再漂亮的显著性,也归因不到具体是哪个改动起的作用。
哪些是「一个变量」的合法范畴
产品图层面,常见可测变量大致几类:背景(白底 vs 浅灰、纯色 vs 场景)、角度(正面 vs 45 度、整体 vs 特写)、人物(有无手模、模特身材类型)、文字图层(有无、长短、位置)、道具(有无、单个 vs 多个)、色调(暖冷、饱和度)。整理成一张速查表方便挑变量:
| 变量名 | 常见假设 | 适用品类 | 改动成本 |
|---|---|---|---|
| 背景色(白 vs 浅灰) | 浅灰底质感更高,转化更好 | 3C、家居、美妆 | 低(修图改) |
| 是否加人物 / 手模 | 有人比例尺,点击率高 | 3C 小件、首饰、穿戴 | 中(要重拍) |
| 拍摄角度(正面 vs 45 度) | 45 度更立体,吸引点击 | 家电、箱包、鞋类 | 中(重拍或换机位) |
| 主图加促销文字 | 有文字点击高,但平台可能限制 | 仅独立站,亚马逊主图禁文字 | 低(设计图层) |
| 道具有无 | 有道具说明用法,转化高 | 家居、美妆、户外 | 中(要搭场景) |
| 色调风格(暖 vs 冷) | 暖调更温馨,特定品类高转化 | 母婴、家居、餐厨 | 低(调色改) |
| 局部特写 vs 整体 | 特写显细节,整体显尺寸 | 3C、首饰、工具 | 低(裁切改) |
这张表的用法是:每次只挑一行,做出 A、B 两版,其他六行的状态在两版里完全一样。下次想测别的,再单挑一行,一行一行测。听起来慢,但这是唯一能积累有效结论的路径。
一次改一个 vs 一次改多个的差别
举个例子。一个手机壳卖家同时改了三处:背景从纯白换成浅灰、加了手持、角度从正面换成 45 度。新图 CTR 从 2.8% 涨到 3.6%。卖家很开心,新品复用同样套路,结果 CTR 反而跌了。为什么?因为他根本不知道 0.8 个点的涨幅是哪一项贡献的——可能浅灰底贡献 +1.2,45 度角实际上 -0.4,加手持中性。换个产品视觉特性变了,三项的账重新洗一遍,总账可能就负。
这就是多变量同测的代价:你拿到的不是经验,是巧合。统计上叫「无法归因」,落地上叫「下次不一定能复现」。专业 CRO 领域有多变量测试 MVT 这一类方法,但对样本量的要求是普通 AB 测的几倍甚至几十倍,普通卖家的流量根本撑不起。守住单变量这条底线,是流量小卖家唯一可行的路。
关 2 · 样本量怎么定:基础 CTR 越低,需要的曝光越多
这一关是最反直觉的——不是「跑得越久越准」,而是「样本量不够,跑多久都不准」。统计学里有一套样本量公式,决定要看见两个 CTR 差异有显著意义,每组至少需要多少次曝光。
核心规律:基础 CTR 越低,样本越多
简单说一个直觉:如果你的基础 CTR 本来就是 10%,那 10% 涨到 12% 这种变化很容易在小样本里看出来;但如果基础 CTR 只有 1%,1% 涨到 1.2% 几乎淹没在噪声里,必须海量样本才能区分得清。
下面这张表是按业界公认的样本量计算逻辑(95% 置信度、80% 统计功效、要检测相对 10% 的提升),给到不同基础 CTR 下每组所需的大致曝光量。不是精确值,是数量级参考:
| 基础 CTR | 想检测的相对提升 | 每组所需曝光量(近似) | 常见对应场景 |
|---|---|---|---|
| 1% | +10%(即升到 1.1%) | 约 15 万 - 16 万 | 低流量类目主图、搜索结果靠后位 |
| 3% | +10%(即升到 3.3%) | 约 5 万 - 6 万 | 主流类目搜索结果首页 |
| 5% | +10%(即升到 5.5%) | 约 3 万 - 3.5 万 | 表现较好的关键词首页 listing |
| 10% | +10%(即升到 11%) | 约 1.5 万 | 品牌词、复购页 |
| 20% | +10%(即升到 22%) | 约 7000 | 详情页内部 A+ 模块、加购位 |
看这张表能得出两个直接结论。第一,对绝大多数跨境产品主图来说,CTR 在 1% 到 5% 之间,每组至少要 3 万到 15 万曝光才能拿到有效结论。第二,如果你想检测的不是 10% 的相对提升,而是更小的提升比如 5%,所需样本量大约要乘四倍——10% 涨 5% 相当于绝对值涨 0.05 个点,这种小幅度差异需要的样本量很容易跑到几十万。
流量小怎么办
很多中小卖家看完这张表会绝望——一个 listing 每天就几百曝光,三万曝光要等几个月。三条出路:延长周期(用时间换样本,但要承担季节性风险)、降低显著性要求(接受 90% 甚至 80%,比拍脑袋强)、只测大改动不测细节(纯白底 vs 全场景这种大变化几千曝光就能看出来,「字体颜色调浅一点」这种 1% 级差异流量永远验不出来)。禾石最常给客户的建议是第三条:流量小就别测精细颗粒,专心测能拉开档次的大改动。AB 测对小卖家的意义是排除明显错误的方向,不是把每个像素调到最优。
关 3 · 测多久:最少跨一个完整周
样本量决定一个下限,时间窗口决定另一个下限。两个下限同时满足,测试才跑得到位。
最短 7 天,理想 14 天
业界共识基本一致:AB 测最短跑满一个完整业务周期,也就是 7 天。电商流量在一周内的波动非常大,周末和工作日的转化人群属性差异显著。只跑周一到周三,结论代表的只是工作日白天浏览习惯,周末休闲购物人群根本没采样到。更保守的做法是跑 14 天跨完两周,平掉「这一周比较特殊」的偶然性。Amazon 自家的 Manage Your Experiments 默认实验周期就是 4 到 10 周,远比卖家直觉里「三天就能跑完」要长得多。
| 流量水平 | 建议最短时长 | 理由 |
|---|---|---|
| 大流量(每周曝光 > 10 万) | 7 - 10 天 | 样本量够,跑满一周避开周末工作日差异 |
| 中等流量(每周曝光 1 万 - 10 万) | 14 - 21 天 | 需要两到三周累积出有效样本 |
| 小流量(每周曝光 < 1 万) | 21 - 42 天 | 样本积累慢,需要长周期堆量 |
避开促销日、节庆、突发流量
选时间窗口还要避开几类污染源:
- 大促日。Prime Day、黑五、网一期间流量结构和平时完全不同——价格敏感型买家、比价行为、冲动消费集中爆发,测出的图片偏好和日常不是同一个市场。非要在大促期间测,结论只能用于下次大促。
- 季节切换 / 突发流量。夏装冬装拍法逻辑完全不同,测试最好控制在同一季节里;某条短视频突然带量、KOL 提及、亚马逊算法临时推首页这种非常规流量会扭曲基线 CTR,期间出现最好作废重测。
- 新品冷启动期。新 listing 前两周亚马逊在做算法试探,流量结构不稳定,测什么都不准。等流量曲线稳定下来再开测。
关 4 · 显著性判断:差几个点不一定真有差
这一关是最容易凭感觉踩坑的——看到 A 版 3.2%、B 版 3.5%,立刻得出「B 版赢 0.3 个点」的结论。但 0.3 个点是不是真有差,取决于样本量和波动范围,不能直接看数字。
什么是 95% 置信区间
通俗解释:跑出来的 CTR 数字本身就带误差。每组只跑了 5000 曝光的 3.5%,跟每组跑了 50 万曝光的 3.5%,可信程度完全不一样。统计学用「置信区间」量化这个误差——「B 版 CTR 是 3.5%,95% 置信区间 [3.2%, 3.8%]」意思是真实 CTR 有 95% 概率落在这个区间。
判断 A 和 B 是不是真有差,看两边的置信区间重叠情况:完全不重叠(如 A [3.0%, 3.2%] vs B [3.4%, 3.6%])确定 B 更好;有重叠但差距明显需要算 p 值,p 值小于 0.05 才算显著;大幅重叠(如 A [2.8%, 3.5%] vs B [3.0%, 3.7%])大概率没真实差异,不要轻易宣布 B 赢。p 值小于 0.05 表示这种差异由偶然产生的概率不到 5%。绝大多数 AB 测工具会自动算,看一眼就行。
常用 AB 测工具
| 工具 | 适用场景 | 主要特点 |
|---|---|---|
| Amazon Manage Your Experiments | 已品牌备案的亚马逊卖家测主图、A+、标题、五点描述 | 官方免费,要求品牌备案、一定流量、专业卖家账户,达到 95% 显著性自动判胜 |
| Shopify Rollouts | 独立站 Shopify 主题级 AB 测 | 2026 年 Winter Edition 推出的原生功能,所有套餐免费,服务器端分流不闪屏 |
| 第三方专业工具(VWO、Convert、ShopLift 等) | 独立站精细化 AB 测 | 支持人群分群、多变量、按元素拆测,功能强但月费较高 |
| PickFu 等付费用户调研 | 样本量小、想快速预筛图片 | 付费招募调研对象快速给反馈,不是真流量 AB,仅供参考 |
| Excel 手算 + 自定义流量分流 | 极小卖家、定制场景 | 免费但费时,自己控分流逻辑,容易引入误差 |
Amazon 的 Manage Your Experiments 是亚马逊卖家做主图 AB 测的首选——直接对接平台流量,分流逻辑由亚马逊保证,显著性判断系统自动做。门槛是必须完成品牌备案、ASIN 有足够流量、账户是专业卖家计划。Shopify 的原生 Rollouts 优点是服务器端分流——访客看不到「先加载错版本再切对」的闪烁,但边界在主题板块级别,不能动 checkout 和 Liquid 模板。
真实测试的六步执行流程
把四关的原则串成可执行的步骤,禾石给客户做主图 AB 测时按以下流程走:
- 定假设。先一句话写清楚你想验证什么。比如「把白底换成浅灰底,能让 CTR 提升 10% 以上」。没假设的测试都是浪费样本。
- 挑变量。对照前文的可测变量表,只动一项,其他全部锁死。明确写出 A、B 两版的差异点。
- 算样本量。根据当前 listing 的基础 CTR,对照样本量表估算每组所需曝光。算出来低于 5000 就先想办法蓄流量再测。
- 选时间窗口。最短 7 天,理想 14 天。查日历避开促销和节庆,确认期间没有运营动作(不上新、不调价、不投流量结构变化)。
- 跑测试 + 持续观察。过程中只看不动,不要中途换图,不要中途调价,更不要因为前三天 A 版领先就提前停掉。提前停的 AB 测在统计上叫「peeking」,会大幅推高假阳性率。
- 判读结果。测试到期后看显著性数字。p 值小于 0.05 或置信区间不重叠才能下结论。如果不显著,结论是「差异不显著,保持原图」,而不是「B 版略胜,换 B」——不显著就是没差,不能凭感觉胜出。
这六步看上去严格,但执行下来一点不慢。AB 测真正花时间的是跑测试本身,前期设计阶段多花一小时定假设、算样本,能避免后面浪费两周时间跑无效测试。
写在最后
跨境圈对 AB 测的态度有两个极端:要么神化,认为不测就是凭感觉乱来;要么不屑,觉得就是玄学。都不对。AB 测是统计工具,用对了给你决策依据,用错了反而强化错误判断——0.3 个点的差距其实是随机噪声,你以为是真实信号,按这个信号做升级,等于把噪声当真相复用。
这篇拆的四关——单变量、样本量、时间窗口、显著性——是把 AB 测从仪式感变成真工具的最低门槛。守住这四条,每次测试不一定都能拿到有用结论(很多结果就是「不显著」,这本身也是有效信息),但至少决策是基于数据的,不是基于错觉的。禾石给跨境卖家拍主图的过程里,越来越觉得拍摄本身只是上半场,下半场是看哪张图真的能在市场里拉动转化。如果你正在做一组新主图,先别急着上线,把这四关挨个对一遍——一次设计周期里多花两小时想清楚怎么测,可能比加预算多投流量更划算。