Title: 最佳实践
Locale: zh
URL: https://sensorswave.com/docs/experiments/best-practices/
Description: 总结实验设计和执行的最佳实践
本文总结了 A/B 实验从设计、实施到分析的最佳实践，帮助您避免常见错误，获得可靠的实验结论。

## 实验设计原则

### 1. 一次只测一个假设

**原则**：单一变量原则，确保实验结果可归因。

**正确做法**：
```
实验：测试按钮颜色对点击率的影响
变量：只改变按钮颜色（蓝色 vs 红色）
其他元素保持不变：文案、大小、位置
```

**错误做法**：
```
实验：优化加购按钮
同时改变：颜色、文案、大小、位置
结果：无法确定哪个因素导致了变化
```

### 2. 确保实验数据充足

**原则**：每组至少 1000 个用户，最好 5000+。

**推荐做法**：
- 设置实验最短周期（至少 1 周）
- 数据不足时延长实验周期

**避免做法**：
- 过早结束实验（每组用户 < 500）
- 看到实验组领先就立即推广

### 3. 实验周期完整

**原则**：至少运行一个完整的周（7 天），包含工作日和周末。

**考虑因素**：
- 工作日 vs 周末：用户行为可能不同
- 节假日影响：避开重大节假日或延长周期
- 营销活动：避免在促销期间运行实验

**推荐周期**：
- 常规实验：2-4 周
- 高流量产品：1-2 周
- 低流量产品：4-8 周

### 4. 设置保护指标

**原则**：防止优化一个指标的同时，损害其他重要指标。

**保护指标示例**：

| 实验类型 | 保护指标 |
|---------|---------|
| UI 改版 | 页面加载时间、错误率、用户满意度 |
| 推荐算法 | 用户留存率、总收入、内容多样性 |
| 定价策略 | 用户生命周期价值（LTV）、流失率、品牌认知 |
| 结账流程 | 支付成功率、总收入、用户投诉率 |

---

## 命名规范

### 实验命名

**格式**：`模块_功能_目的`

**推荐**：
- `cart_button_color_test`
- `checkout_flow_optimization`
- `recommendation_algorithm_comparison`
- `pricing_strategy_test`

**避免**：
- `test1`、`experiment_new`（不够语义化）
- `按钮测试`（使用中文）
- `cart-button-test`（使用短横线，建议用下划线）

### 变体命名

**推荐**：
- 对照组：`control`
- 单实验组：`treatment`
- 多实验组：`treatment_a`、`treatment_b`

**避免**：
- `v1`、`v2`（不够语义化）
- `old`、`new`（容易混淆）

### 变量命名

**使用 snake_case**：
- `button_color`
- `checkout_steps`
- `recommendation_count`

**避免**：
- `color`（太泛化）
- `buttonColor`（camelCase）
- `颜色`（中文）

---

## 流量管理

### 1. 重要实验优先分配流量

**流量分配示例**：

```
总流量：100%
├─ P0 实验（结账流程优化）：40%
├─ P1 实验（推荐算法测试）：30%
├─ P2 实验（文案优化）：10%
└─ 预留流量（未来实验）：20%
```

**原则**：
- 优先级高的实验获得更多流量
- 预留 10-20% 流量给紧急实验
- 核心流程实验优先

### 2. 避免同时运行相互影响的实验

**冲突类型**：

**功能冲突**：
- ❌ 实验 A：优化结账流程
- ❌ 实验 B：优化结账页布局
- ✅ 解决：先运行实验 A，结束后再运行实验 B

**指标冲突**：
- ❌ 实验 A：提升加购率（主要指标）
- ❌ 实验 B：提升详情页停留时长（次要指标：加购率）
- ✅ 解决：分开运行，或使用不同用户群体

### 3. 预留流量给未来实验

**建议**：
- 大流量产品：预留 15-20%
- 中流量产品：预留 10-15%
- 小流量产品：预留 5-10%

---

## 数据质量

### 1. 验证曝光日志正常上报

**检查步骤**：

实验发布后，立即检查曝光日志：

```
事件：$ABImpress
筛选条件：experiment_key = 'your_experiment_key'
时间范围：最近 1 小时
```

**验证要点**：
- ✅ 曝光事件正常上报
- ✅ 每个用户只记录一次曝光
- ✅ 流量分布均匀（偏差 < 5%）

### 2. 关注数据异常

**异常类型**：

| 异常 | 可能原因 | 处理方式 |
|------|---------|---------|
| 曝光量骤降 | 代码错误、实验暂停 | 检查代码和实验状态 |
| 流量分布不均 | 分流条件过于苛刻 | 检查定向条件 |
| 转化率异常高 | 数据错误、作弊 | 检查数据质量 |
| 转化率异常低 | Bug、体验问题 | 暂停实验，排查问题 |

### 3. 定期检查分流均匀性

**频率**：实验运行前 3 天，每天检查一次。

**方法**：

在实验详情页查看各变体的进组流量数据，确认分流比例符合预期。

**预期结果**（50/50 分配）：

| 变体 | 进组用户数 | 占比 |
|------|-----------|------|
| control | 约 5,000 | 约 50% |
| treatment | 约 5,000 | 约 50% |

---

## 决策规范

### 1. 等待充足的实验数据

**不要过早下结论**：

```
❌ 错误：
第 1 天：实验组领先 10%，立即推广
结果：长期效果不佳，浪费资源

✅ 正确：
等待 2 周，确保每组有足够用户（每组 5000 用户）
确认统计显著性（p < 0.05）
全局观察所有指标
做出决策
```

### 2. 依赖统计显著性

**判断标准**：

```
p < 0.05：结果显著，可以推广
p ≥ 0.05：结果不显著，需要更多数据或放弃假设
```

**避免误读**：

```
❌ 错误：
转化率提升 5%，p = 0.12
结论：实验成功，推广方案

✅ 正确：
转化率提升 5%，p = 0.12（不显著）
结论：提升可能是偶然产生的，需要延长实验或放弃假设
```

### 3. 全局考虑

**观察所有指标**：

```
✅ 推荐：
主要指标：点击率 +15%（p = 0.001）
次要指标：转化率 +8%（p = 0.02）
保护指标：总收入 +12%（p = 0.005）
结论：全面成功，推广方案

❌ 避免：
主要指标：点击率 +15%（p = 0.001）
次要指标：转化率 -5%（p = 0.03）
保护指标：总收入 -10%（p = 0.01）
错误结论：实验成功（只看主要指标）
正确结论：实验失败（点击率提升但转化率和收入下降）
```

### 4. 记录决策过程

**建立实验档案**：

每个实验都应该有完整的记录：
- 实验假设
- 实验设计
- 关键数据
- 决策依据
- 后续行动

**用途**：
- 团队回顾学习
- 避免重复实验
- 积累实验经验

---

## 配合使用功能开关

### 先功能开关，再 A/B 实验

**推荐流程**：

```
阶段 1：功能开关验证稳定性（1-2 周）
- 验证技术指标：错误率、响应时间、崩溃率
- 灰度发布：1% → 10% → 50% → 100%

阶段 2：A/B 实验验证效果（2-4 周）
- 验证业务指标：转化率、留存率、收入
- 随机分组：50% vs 50%
- 统计显著性检验

阶段 3：全量发布
- 应用获胜方案
- 清理代码
```

**优点**：
- 技术风险可控
- 数据驱动决策
- 可以快速回滚

详见 [功能开关与 A/B 测试](../feature-gates/gates-vs-experiments.mdx)。

---

## 常见错误和解决方案

### 错误 1：实验数据不足

**问题**：实验运行 3 天，每组 200 用户，就得出结论。

**后果**：结果不可靠，容易受偶然因素影响。

**解决方案**：
- 设置最短周期（至少 1 周）
- 确保每组有足够用户参与后再分析

### 错误 2：忽视统计显著性

**问题**：只看提升幅度，不看 p-value。

**示例**：
```
转化率提升 5%（p = 0.15）
错误结论：实验成功
正确结论：结果不显著，可能是偶然波动
```

**解决方案**：
- 同时关注提升幅度和 p-value
- p < 0.05 才认为结果显著

### 错误 3：一次改变多个变量

**问题**：同时改变按钮颜色、文案和大小。

**后果**：无法确定哪个因素导致了变化。

**解决方案**：
- 一次只测一个假设
- 如果必须改变多个变量，设计多臂实验

### 错误 4：过早停止实验

**问题**：看到实验组领先，立即停止并推广。

**后果**：
- 短期波动不代表长期效果
- 新奇效应消失后，指标可能回落

**解决方案**：
- 等待实验运行充分的周期
- 运行完整周期
- 关注长期指标（留存率、LTV）

### 错误 5：忽视保护指标

**问题**：只关注主要指标，忽视其他指标。

**示例**：
```
主要指标：点击率 +20%（成功）
保护指标：总收入 -15%（严重下降）
错误决策：推广方案
正确决策：放弃方案（虽然点击率提升，但收入下降）
```

**解决方案**：
- 设置保护指标
- 全局观察所有指标
- 避免"虚荣指标"

---

## 实验检查清单

在发布实验前，使用以下检查清单：

### 实验设计

- [ ] 假设明确且可验证
- [ ] 一次只测一个变量
- [ ] 实验周期足够长（≥ 1 周），每组有足够用户参与
- [ ] 流量分配合理（总和 = 100%）

### 指标选择

- [ ] 主要指标与业务目标一致
- [ ] 设置了次要指标
- [ ] 设置了保护指标
- [ ] 所有指标可以准确测量

### 配置检查

- [ ] 实验 Key 正确且唯一
- [ ] 变体命名规范
- [ ] 分流规则配置正确

### 代码集成

- [ ] SDK 已开启 A/B 测试功能
- [ ] 代码集成正确
- [ ] 在测试环境验证通过
- [ ] 异常处理完善

### 上线准备

- [ ] 准备了回滚方案
- [ ] 团队成员了解实验内容

---

## 相关文档

- [实验设计](experiment-design.mdx)：学习科学的实验设计方法
- [典型案例](use-cases.mdx)：通过真实案例学习最佳实践
- [常见问题](faq.mdx)：查看常见问题的解答

---

**最后更新时间**：2026 年 1 月 29 日