A/B测试与持续优化

开篇：不要凭感觉做决策

"我觉得这个Prompt更好"、"用户应该喜欢这个功能"——这些是主观判断，没有数据支撑。

A/B测试用真实数据告诉我们哪个方案更好。

A/B测试原理

**什么是A/B测试？** 将用户随机分组，每组看到不同版本（A组：当前版本，B组：新版本），比较两组的指标差异。

**核心原则**：

**1. 随机分组** - 每个用户有相同概率进入各组 - 分组与用户特征无关 - 保证统计有效性

**2. 对照实验** - A组是对照基线 - B组是实验变量 - 同时运行，排除时间干扰

**3. 统计显著** - 样本量足够 - 差异具有统计显著性 - 排除随机波动

**AI应用中的A/B场景**： - Prompt A vs Prompt B：哪种回答更好？ - 模型A vs 模型B：性能和成本对比 - 界面A vs 界面B：用户转化率 - 流程A vs 流程B：完成率和耗时

💡 A/B测试通过随机对照实验，用真实数据验证假设，避免主观决策。

实验设计步骤

**Step 1：定义假设** "使用更短的系统提示，用户满意度会提升10%"

**Step 2：选择指标** - 主要指标：用户满意度评分 - 次要指标：响应时间、Token成本 - 防护指标：API调用量（确保不会下降）

**Step 3：确定样本量** 根据期望提升幅度和置信度计算： - 期望提升10% - 置信度95% - 计算得到需要10000个用户

**Step 4：随机分组** - 使用一致性哈希 - 固定分组（用户每次进入同一组） - 分组比例：A组50%，B组50%

**Step 5：运行实验** - 同时运行两个版本 - 收集指标数据 - 监控异常情况

**Step 6：分析结果** - 计算差异的置信区间 - 判断是否统计显著 - 检查防护指标

代码示例：A/B分组实现

实现用户随机分组：

python

import hashlib

class ABTestManager:
    def __init__(self, experiment_id: str, group_weights=None):
        self.experiment_id = experiment_id
        self.group_weights = group_weights or {"A": 0.5, "B": 0.5}

    def get_group(self, user_id: str) -> str:
        """根据用户ID获取分组（一致性哈希）"""
        # 使用用户ID和实验ID生成哈希
        hash_input = f"{self.experiment_id}:{user_id}"
        hash_value = hashlib.md5(hash_input.encode()).hexdigest()

        # 将哈希值转换为0-1的数字
        hash_num = int(hash_value[:8], 16) / (2**32 - 1)

        # 根据权重分配分组
        cumulative = 0.0
        for group, weight in self.group_weights.items():
            cumulative += weight
            if hash_num < cumulative:
                return group

        return list(self.group_weights.keys())[-1]

    def get_config(self, group: str) -> dict:
        """获取分组对应的配置"""
        configs = {
            "A": {"model": "gpt-3.5-turbo", "prompt": "简短Prompt"},
            "B": {"model": "gpt-3.5-turbo", "prompt": "优化Prompt"},
        }
        return configs.get(group, configs["A"])

# 使用示例
ab_test = ABTestManager(experiment_id="prompt_optimization_v1")

def handle_chat_request(user_id: str, query: str):
    # 获取用户分组
    group = ab_test.get_group(user_id)

    # 获取对应配置
    config = ab_test.get_config(group)

    # 记录实验事件（用于分析）
    log_event({
        "experiment_id": ab_test.experiment_id,
        "user_id": user_id,
        "group": group,
        "event": "chat_request",
        "query": query
    })

    # 使用配置处理请求
    return call_llm_api(query, **config)

结果分析与决策

**统计检验方法**：

**1. t检验** - 适用于连续变量（如满意度分数） - 比较两组均值差异 - 前提：数据正态分布

**2. 卡方检验** - 适用于分类变量（如点击/未点击） - 比较两组比例差异

**3. Bootstrap** - 不假设数据分布 - 计算差异的置信区间 - 适用范围广

**决策规则**：

✅ **采用B版本**： - 主要指标显著提升 - 防护指标不下降 - 置信区间全部在正值范围

❌ **保留A版本**： - 主要指标无显著提升 - 或者防护指标下降

⚠️ **继续实验**： - 数据量不足 - 置信区间跨零（不确定）

**示例结果**： ``` 指标 A组 B组提升置信区间显著性满意度 4.2 4.5 +7.1% [3%, 12%] ✅显著响应时间 1.2s 1.3s +8.3% [2%, 15%] ❌变慢 ``` 决策：B版本提升满意度但响应变慢，需要权衡

实战：Prompt优化A/B测试

**实验目的**：优化系统提示，让回答更简洁。

**实验设计**： - A组（基线）："你是一个有用的AI助手" - B组（实验）："你是一个有用的AI助手。回答要简洁，不超过200字"

**结果**： ``` 指标 A组 B组变化用户满意度 3.8 4.1 +7.9% Token成本 150 85 -43.3% 响应时间 1.2s 0.8s -33.3% ```

**决策**：采用B版本 - 满意度显著提升 - 成本降低43%（减少Token） - 响应更快

**后续**： - 全量发布B版本 - 继续监控指标 - 计划下一步实验（尝试更短的限制）

避免常见错误

不要过早停止实验：需要足够样本量才有效。不要同时测试多个变量：一次只改一个因素，否则无法知道是哪个因素带来的效果。