Title: 实验设计 Locale: zh URL: https://sensorswave.com/docs/experiments/experiment-design/ Description: 学会设计科学严谨的 A/B 实验 科学的实验设计是获得可靠结论的基础。本文将介绍如何从问题出发,设计一个严谨的 A/B 实验,包括假设提出、指标选择、实验周期确定等关键环节。 ## 实验设计五步法 ### 第一步:明确问题和假设 **问题识别** 明确您想解决什么问题: - 转化率低:结账流程是否过于复杂? - 点击率低:按钮设计是否不够醒目? - 留存率低:新用户引导是否不够清晰? - 收入增长慢:定价策略是否需要调整? **提出假设** 基于问题提出可验证的假设: **好的假设**: - 具体:明确指出要改变什么 - 可测量:有明确的指标 - 有预期:预期提升幅度 **示例**: | 问题 | 假设 | |------|------| | 结账转化率只有 20% | 将结账流程从 5 步简化为 3 步,能将转化率提升到 25% | | 加购按钮点击率低 | 将按钮颜色从蓝色改为红色,能提升 10% 的点击率 | | 推荐点击率不理想 | 使用深度学习算法能将推荐点击率提升 15% | | VIP 转化率低 | 年费从 299 元降到 249 元,能提升 30% 的购买转化率 | ### 第二步:选择实验指标 实验指标分为三类: #### 主要指标(Primary Metric) 核心关注的指标,用于判断实验成败: - **转化类指标**:点击率、注册率、支付转化率 - **收入类指标**:人均消费金额、总收入、ROI - **参与类指标**:活跃天数、使用时长、内容消费量 **选择原则**: - 与业务目标直接相关 - 可以准确测量 - 对用户行为变化敏感 **示例**: | 实验类型 | 主要指标 | |---------|---------| | 结账流程优化 | 支付转化率 | | 按钮颜色测试 | 按钮点击率 | | 推荐算法对比 | 推荐点击率 | | 定价策略测试 | 购买转化率、总收入 | #### 次要指标(Secondary Metrics) 辅助观察的指标,帮助全面理解实验效果: - **用户体验指标**:页面停留时长、跳出率 - **下游指标**:加购率、收藏率、分享率 - **长期指标**:次日留存率、7 日留存率 **示例**: 结账流程优化实验: - 主要指标:支付转化率 - 次要指标:平均结账时长、放弃率、订单金额 #### 保护指标(Guardrail Metrics) 确保实验不会对关键指标造成负面影响: - **技术指标**:页面加载时间、错误率、崩溃率 - **用户满意度**:NPS、投诉率、卸载率 - **收入保护**:ARPU(人均收入)、总收入不下降 **重要性**: - 防止优化一个指标的同时,损害其他重要指标 - 例如:提升点击率的同时,确保转化率不下降 **示例**: | 实验类型 | 保护指标 | |---------|---------| | 推荐算法对比 | 加购转化率、总收入、页面加载时间 | | UI 改版 | 页面加载时间、错误率、用户投诉率 | | 定价策略测试 | 总收入、用户满意度、流失率 | ### 第三步:确定实验变体 #### 双变体实验(推荐) **对照组 vs 实验组**: - 对照组:当前方案(基准) - 实验组:新方案 **优点**: - 结果解读简单 - 样本量需求小 - 实验周期短 **适用场景**: - 验证单一优化假设 - 对比两种明确方案 #### 多变体实验 **对照组 vs 多个实验组**: - 对照组:当前方案 - 实验组 A:方案 A - 实验组 B:方案 B - 实验组 C:方案 C(可选) **优点**: - 一次实验对比多个方案 - 节省时间和流量 **缺点**: - 样本量需求大(需要更长周期) - 多重比较问题(需要调整显著性水平) **适用场景**: - 定价策略测试(对比 3-4 个价格点) - 设计方案选择(对比多个设计) **注意事项**: - 变体数量不宜过多(建议不超过 4 个) - 每个变体需要足够的用户参与 ### 第四步:确定实验周期 #### 推荐实验周期 **工作日 vs 周末差异**: - 电商:周末流量和转化率可能更高 - B2B 产品:工作日流量和活跃度更高 **建议**: - 至少运行一个完整的周(7 天) - 跨节假日时需要延长周期或避开节假日 **特殊时期**: - 大促期间(双十一、黑五):避免运行实验,或单独分析 - 营销活动期间:可能影响实验结果,需要剔除或单独分析 #### 实验周期表 | 流量规模 | 推荐周期 | 说明 | |---------|---------|------| | 大流量(日均 > 10 万) | 1-2 周 | 样本量充足,快速得出结论 | | 中流量(日均 1-10 万) | 2-4 周 | 需要足够时间收集样本 | | 小流量(日均 10%,且统计显著(p < 0.05),保护指标无负面影响 - **失败**:点击率提升 < 5%,或保护指标下降 ``` --- ## 相关文档 - [核心概念](core-concepts.mdx):理解 A/B 实验的工作原理 - [创建和配置](create-and-configure.mdx):在控制台创建实验 - [分流策略](targeting-and-allocation.mdx):深入理解分流机制 - [指标与分析](metrics-and-analysis.mdx):分析实验结果 --- **最后更新时间**:2026 年 1 月 29 日