Title: 实验设计
Locale: zh
URL: https://sensorswave.com/docs/experiments/experiment-design/
Description: 学会设计科学严谨的 A/B 实验
科学的实验设计是获得可靠结论的基础。本文将介绍如何从问题出发，设计一个严谨的 A/B 实验，包括假设提出、指标选择、实验周期确定等关键环节。

## 实验设计五步法

### 第一步：明确问题和假设

**问题识别**

明确您想解决什么问题：

- 转化率低：结账流程是否过于复杂？
- 点击率低：按钮设计是否不够醒目？
- 留存率低：新用户引导是否不够清晰？
- 收入增长慢：定价策略是否需要调整？

**提出假设**

基于问题提出可验证的假设：

**好的假设**：
- 具体：明确指出要改变什么
- 可测量：有明确的指标
- 有预期：预期提升幅度

**示例**：

| 问题 | 假设 |
|------|------|
| 结账转化率只有 20% | 将结账流程从 5 步简化为 3 步，能将转化率提升到 25% |
| 加购按钮点击率低 | 将按钮颜色从蓝色改为红色，能提升 10% 的点击率 |
| 推荐点击率不理想 | 使用深度学习算法能将推荐点击率提升 15% |
| VIP 转化率低 | 年费从 299 元降到 249 元，能提升 30% 的购买转化率 |

### 第二步：选择实验指标

实验指标分为三类：

#### 主要指标（Primary Metric）

核心关注的指标，用于判断实验成败：

- **转化类指标**：点击率、注册率、支付转化率
- **收入类指标**：人均消费金额、总收入、ROI
- **参与类指标**：活跃天数、使用时长、内容消费量

**选择原则**：
- 与业务目标直接相关
- 可以准确测量
- 对用户行为变化敏感

**示例**：

| 实验类型 | 主要指标 |
|---------|---------|
| 结账流程优化 | 支付转化率 |
| 按钮颜色测试 | 按钮点击率 |
| 推荐算法对比 | 推荐点击率 |
| 定价策略测试 | 购买转化率、总收入 |

#### 次要指标（Secondary Metrics）

辅助观察的指标，帮助全面理解实验效果：

- **用户体验指标**：页面停留时长、跳出率
- **下游指标**：加购率、收藏率、分享率
- **长期指标**：次日留存率、7 日留存率

**示例**：

结账流程优化实验：
- 主要指标：支付转化率
- 次要指标：平均结账时长、放弃率、订单金额

#### 保护指标（Guardrail Metrics）

确保实验不会对关键指标造成负面影响：

- **技术指标**：页面加载时间、错误率、崩溃率
- **用户满意度**：NPS、投诉率、卸载率
- **收入保护**：ARPU（人均收入）、总收入不下降

**重要性**：
- 防止优化一个指标的同时，损害其他重要指标
- 例如：提升点击率的同时，确保转化率不下降

**示例**：

| 实验类型 | 保护指标 |
|---------|---------|
| 推荐算法对比 | 加购转化率、总收入、页面加载时间 |
| UI 改版 | 页面加载时间、错误率、用户投诉率 |
| 定价策略测试 | 总收入、用户满意度、流失率 |

### 第三步：确定实验变体

#### 双变体实验（推荐）

**对照组 vs 实验组**：
- 对照组：当前方案（基准）
- 实验组：新方案

**优点**：
- 结果解读简单
- 样本量需求小
- 实验周期短

**适用场景**：
- 验证单一优化假设
- 对比两种明确方案

#### 多变体实验

**对照组 vs 多个实验组**：
- 对照组：当前方案
- 实验组 A：方案 A
- 实验组 B：方案 B
- 实验组 C：方案 C（可选）

**优点**：
- 一次实验对比多个方案
- 节省时间和流量

**缺点**：
- 样本量需求大（需要更长周期）
- 多重比较问题（需要调整显著性水平）

**适用场景**：
- 定价策略测试（对比 3-4 个价格点）
- 设计方案选择（对比多个设计）

**注意事项**：
- 变体数量不宜过多（建议不超过 4 个）
- 每个变体需要足够的用户参与

### 第四步：确定实验周期

#### 推荐实验周期

**工作日 vs 周末差异**：
- 电商：周末流量和转化率可能更高
- B2B 产品：工作日流量和活跃度更高

**建议**：
- 至少运行一个完整的周（7 天）
- 跨节假日时需要延长周期或避开节假日

**特殊时期**：
- 大促期间（双十一、黑五）：避免运行实验，或单独分析
- 营销活动期间：可能影响实验结果，需要剔除或单独分析

#### 实验周期表

| 流量规模 | 推荐周期 | 说明 |
|---------|---------|------|
| 大流量（日均 > 10 万） | 1-2 周 | 样本量充足，快速得出结论 |
| 中流量（日均 1-10 万） | 2-4 周 | 需要足够时间收集样本 |
| 小流量（日均  10%，且统计显著（p < 0.05），保护指标无负面影响
- **失败**：点击率提升 < 5%，或保护指标下降
```

---

## 相关文档

- [核心概念](core-concepts.mdx)：理解 A/B 实验的工作原理
- [创建和配置](create-and-configure.mdx)：在控制台创建实验
- [分流策略](targeting-and-allocation.mdx)：深入理解分流机制
- [指标与分析](metrics-and-analysis.mdx)：分析实验结果

---

**最后更新时间**：2026 年 1 月 29 日