【数据分析】02- A/B 测试:玩转假设检验、t 检验与卡方检验

一、背景:当“审判”成为科学

1.1 虚拟场景——法庭审判

想象这样一个场景:有一天,你在王国里担任“首席审判官”。你面前站着一位嫌疑人,有人指控他说“偷了国王珍贵的金冠”。但究竟是他干的,还是他是被冤枉的?你需要做出审判。

• 如果只是听到“民众都说他很可疑”,就随便判有罪,也许冤枉了一个无辜的人;

• 如果因为证据不够充分,放任他走了,而真凶恰好就是他?那可怎么办?

这时候,作为审判官,你要收集证据(证人证言、现场线索),并进行理性分析。你不会轻易下结论,而是先假设他无罪(原假设),然后看证据有多强。若证据足够强大,说明在“嫌疑人无罪”的情况下,这么极端的指纹、目击等线索出现简直是“小概率事件”,于是你认定他“极可能有罪”,就推翻了无罪假设。

这便是“假设检验”的核心思想:我们总是先假设“没有差异”“没有效应”(就像嫌疑人无罪),然后让数据“自己说话”,看要不要推翻这个假设。


1.2 假设检验的现代发展

• 过去:统计学家费雪(Fisher)等人在 20 世纪初确立了这套“原假设 vs. 备择假设 + p 值 + 显著性水平”的理论框架。

• 现在:在大数据时代,我们依然需要这种方法来对数据做严谨推断,比如互联网产品的A/B 测试、医药领域的疗效分析、金融风控决策等等。

• 原因:不论数据多庞大,随机性和噪声总在,所以我们要有一把“判定差异是否超越随机”的尺子,这就是假设检验


二、假设检验:原理、角色与流程

2.1 原假设、备择假设

1. 原假设(Null Hypothesis

默认都是原假设,即罪人没有罪,需要p值低于阈值的时候我们才会推翻(拒绝)我们的原假设

• 嫌疑人无罪;

• 两个方案无差异;

• 新药无显著疗效……

一般总是表示“没有改变、没有差异、没有效果”。


2. 备择假设(Alternative Hypothesis 

• 嫌疑人有罪;

• 两个方案的确有差异;

• 新药确实起了作用……


2.2 p 值:出现极端证据的概率

• p 值(p-value)是指:在原假设为真的前提下,获得我们这么极端(或更极端)观测结果的概率。

• 如果 p 值很小,比如 < 0.05(这就是显著性水平 的常用阈值 0.05),就意味着:

• “在没有差异的情况下,居然还能看到这么极端的数据,太小概率了吧?!”

• 所以我们倾向于说,“估计是原假设不对”,即拒绝原假设

就是他是好人的情况下,出现这些不利(极端)证据,概率也太小了吧,所以我们认为他是坏人


2.3 Type I 与 Type II 错误

Type I 错误:错把一个无罪的人判了死刑(原假设其实对,但被我们拒绝)

Type II 错误:把真正的罪犯当好人放了(原假设其实不对,但我们没拒绝)

• 做实验或统计分析时,我们也要小心平衡:(Type I 错误率)和 (Type II 错误率),别因极度谨慎而漏掉真差异,也别因过度敏感而冤枉“无差异”的情况。


三、A/B 测试:让你的产品决策更像“法庭审判”

3.1 你在做的,正是“统计审判”!

互联网里,每当你想更换按钮颜色、重新设计界面布局,或者改进推荐算法时,却不确定是不是更好——就能用A/B 测试来模拟“法庭审判”流程:

1. 原假设:新方案和老方案在关键指标(点击率、转化率等)上“无差异”;

2. 备择假设:新方案有更好的表现;

3. 随机分配:把用户随机分成两组,一部分看 A,另一部分看 B;

4. 观察结果:收集一段时间数据,看 B 组指标是否明显高于 A 组;

5. 检验:若差异明显到“原假设难以成立”,就说明新方案的确优于旧方案,推翻原假设。


3.2 常见陷阱

样本量过小:就好比证据太少,判案没把握;

多重测试:一次试验比较很多方案,就像同时审好几个案子,可能在某个案件里意外得到“极端证据”;

外部干扰:如果不是随机分组、A/B 组用户画像差别太大,就像找了一群偏见法官,对审判结果会有偏颇。


四、t 检验:如何量化“均值上的差异”?

4.1 t 检验的来龙去脉

场景:我想知道“两个组的平均值”到底差多少,比如“男性与女性的平均身高差异”,或者“A 组人群的日均观看时长 vs. B 组人群的日均观看时长”。

原理

• 分子是“两个平均值之间的差”,分母是“这俩差值可能出现的标准误(综合了方差和样本量)”。

• 若这个 t 值很大,表明相对随机波动而言,均值差距太明显,p 值就会小。


4.2 适合场合

1. 数据近似正态分布,或者样本量足够大(中心极限定理可以帮忙);

2. 数值型指标,且你关心“平均值”本身的差异;

3. 如果两组是独立样本,就用“独立样本 t 检验”;若是一组人自己前后对比,则用“配对 t 检验”。


4.3 t 检验代码

案例分析

案例1:独立样本t检验

问题描述:比较男性和女性的平均身高是否存在显著差异。

import numpy as np
from scipy import stats

# 生成模拟数据
np.random.seed(0)
male_heights = np.random.normal(175, 7, 100)  # 男性身高(cm)
female_heights = np.random.normal(165, 6, 100)  # 女性身高(cm)

# 进行独立样本t检验
t_stat, p_value = stats.ttest_ind(male_heights, female_heights)

print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')

# 结果解读
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设,认为男性和女性的平均身高存在显著差异。")
else:
    print("无法拒绝原假设,认为男性和女性的平均身高无显著差异。")

输出: 


案例2:独立样本t检验

问题描述: 在A/B测试中,评估新版本(B)是否显著提升了转化率。

import numpy as np
from scipy import stats

# 生成模拟数据
np.random.seed(0)
control = np.random.binomial(1, 0.10, 1000)  # 控制组转化率10%
treatment = np.random.binomial(1, 0.12, 1000)  # 试验组转化率12%

# 计算转化率
control_rate = np.mean(control)
treatment_rate = np.mean(treatment)

print(f'控制组转化率: {control_rate:.2%}')
print(f'试验组转化率: {treatment_rate:.2%}')

# 进行独立样本t检验
t_stat, p_value = stats.ttest_ind(treatment, control)

print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')

# 结果解读
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设,认为新版本显著提升了转化率。")
else:
    print("无法拒绝原假设,认为新版本未显著提升转化率。")

输出:


案例3:药物疗效的配对样本t检验

问题描述: 评估某药物在治疗前后患者的血压变化,判断药物是否有效。

import numpy as np
from scipy import stats

# 生成模拟数据
np.random.seed(0)
pre_treatment_bp = np.random.normal(150, 10, 30)  # 治疗前血压
post_treatment_bp = pre_treatment_bp - np.random.normal(10, 5, 30)  # 治疗后血压

# 进行配对样本t检验
t_stat, p_value = stats.ttest_rel(post_treatment_bp, pre_treatment_bp)

print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')

# 结果解读
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设,认为药物显著降低了血压。")
else:
    print("无法拒绝原假设,认为药物未显著降低血压。")

输出:


五、卡方检验:处理“分类变量”就靠它

5.1 当你的证据是“频数”而非“均值”

• 如果你拿到的是“买 or 不买”这样的分类标签,或者“一共投票给 A/B/C 的人数分别是多少”,就不能简单地比较平均值。

• 这时要用卡方检验(Chi-Square),因为它专门对“观察到的频数”和“期望的频数”做比较。


5.2 原理简述


5.3 卡方检验代码

import numpy as np
from scipy.stats import chi2_contingency

# 构建列联表
# 行:性别(男、女),列:购买(是、否)
data = np.array([[30, 10],
                 [20, 20]])

# 进行卡方检验
chi2, p, dof, expected = chi2_contingency(data)

print(f'卡方统计量: {chi2:.2f}')
print(f'p值: {p:.4f}')
print('期望频数:')
print(expected)

# 结果解读
alpha = 0.05
if p < alpha:
    print("拒绝原假设,认为性别与购买决策存在关联。")
else:
    print("无法拒绝原假设,认为性别与购买决策无关联。")

输出: 


六、再回到法庭:如何让判决更高效?

1. 注意样本量:别审太少证据就想定罪,也别没完没了地搜证耽误时间。

2. 明确检验方法:是要比较数值平均?还是比较分类频数?选对 t 检验 or 卡方检验。

3. 控制误差率: 设多少?怎么平衡漏判与冤判?

4. 多重比较调整:若你要审好几件案子(或 A/B 测试好多种版本),要做相应方法调整,避免“捡到极端结果就说差异大”。


七、总结:只要有决策,就可能需要假设检验

从审判一个嫌疑人是否有罪,到互联网 A/B 测试中判断“新老方案孰优孰劣”,再到科研里探讨“实验组与对照组”效果差异,我们都能看到假设检验的身影。它让我们在随机干扰中保持理性,用t 检验检查数值均值,用卡方检验衡量分类差异,用A/B 测试来做商业产品优化。


文章小结

1. 假设检验:就像法庭审案,“无罪”假设先行,数据若够极端就能推翻;

2. A/B 测试:互联网“快速试验”神器;

3. t 检验:比较“两组均值”时最常用;

4. 卡方检验:用来判断分类/频数的差异或关联度。


希望通过这个“法庭审判”比喻,让你更好理解为何需要假设检验,以及如何把它用在各种实际场景上。本文若能带给你启发或快乐,请不吝在 一键三连(点赞、收藏、关注)并评论分享哦!让更多人知道,“统计思维”才是我们在复杂世界里做出理性决策的秘密武器。


参考阅读

• Fisher, R. A. (1925). Statistical Methods for Research Workers.

• Montgomery, D. C. (2017). Design and Analysis of Experiments.

• Pearson, K. (1900). On the criterion… (The seminal paper on Chi-Square test).

—— 全文完 ——

感谢阅读,期待你的点赞 + 关注 + 评论 + 收藏 + 转发,我们下期见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/956349.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

3dmax LOGO的符号、意义和历史,渲染100邀请码1a12

Autodesk 3ds Max 是一款 3D 建模、动画和渲染软件&#xff0c;由 Autodesk, Inc. 于 1996 年开发&#xff0c;其功能是能够创建复杂的数字场景和视觉效果&#xff0c;被专业建筑师、设计师和视频游戏创作者广泛使用&#xff0c;提供了七种语言的 Windows 版本&#xff0c;没有…

线段树优化dp,abc389F - Rated Range

目录 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 二、解题报告 1、思路分析 2、复杂度 3、代码详解 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 F - Rated Range 二、解题报告 1、思路分析 考虑定义 f(i, j) 为 初始分…

青少年CTF练习平台 EasyMD5解题思路

题目 EasyMD5 PHP弱类型/弱等于的判断 翻译 上传之后网页提示&#xff1a;Not a PDF! angry!!! get out from my page 修改文件后缀为pdf 再次上传&#xff0c;答案出来了 s878926199a s155964671a 成功获取flag

Amazon MSK 开启 Public 访问 SASL 配置的方法

1. 开启 MSK Public 1.1 配置 MSK 参数 进入 MSK 控制台页面&#xff0c;点击左侧菜单 Cluster configuration。选择已有配置&#xff0c;或者创建新配置。在配置中添加参数 allow.everyone.if.no.acl.foundfalse修改集群配置&#xff0c;选择到新添加的配置。 1.2 开启 Pu…

SW - 钣金零件保存成DWG时,需要将折弯线去掉

文章目录 SW - 钣金零件保存成DWG时&#xff0c;需要将折弯线去掉概述笔记备注END SW - 钣金零件保存成DWG时&#xff0c;需要将折弯线去掉 概述 如果做需要弯折的切割件&#xff0c;最好做成钣金零件。 最近做了几个小钣金(将钣金展开&#xff0c;建立新草图&#xff0c;在2…

深度学习 Pytorch 基本优化思想与最小二乘法

在正式开始进行神经网络建模之前&#xff0c;我们还需要掌握pytorch中最核心的基础数学工具——autograd(自动微分)模块。虽然对于任何一个通用的深度学习框架都会提供许多自动优化的算法和现成的loss function&#xff0c;但如果想更深入理解神经网络&#xff0c;对深度学习的…

Ceph与RAID在存储中的协同工作过程

本文将结合架构图&#xff0c;详细讲解Ceph与RAID如何在存储环境中相互配合&#xff0c;共同提供高效且可靠的存储服务。 架构概述 从上图中可以看到&#xff0c;Ceph的架构主要分为四个层次&#xff1a; 客户端和服务接口层&#xff1a;这一层包括客户端访问存储应用的接口…

PyTest自学-认识PyTest

1 PyTest自学-认识PyTest 1.1 PyTest可以用来做什么&#xff1f; PyTest是一个自动化测试框架&#xff0c;支持单元测试和功能测试&#xff0c;有丰富的插件&#xff0c;如&#xff0c;pytest-selemium, pytest-html等。 1.2 安装pytest 使用pip install -U pytest。 1.3 py…

【MathType】mathtype在word中格式问题

【MathType】mathtype在word中格式问题 1. 问题解决方法效果 2.新的问题解决方法效果 1. 问题 mathtype在word中格式显示不全 解决方法 CtrlC&#xff1a;选中全部——>段落——>设置为单倍行距 效果 已经可以全部显示出来&#xff0c;但是还有新问题&#xff01;…

当设置dialog中有el-table时,并设置el-table区域的滚动,看到el-table中多了一条横线

问题&#xff1a;当设置dialog中有el-table时&#xff0c;并设置el-table区域的滚动&#xff0c;看到el-table中多了一条横线&#xff1b; 原因&#xff1a;el-table有一个before的伪元素作为表格的下边框下&#xff0c;初始的时候已设置&#xff0c;在滚动的时候并没有重新设置…

华为AI培训-NLP实验

中文分词、命名实体识别、语义词性标注、语句逻辑推理、文本摘要、机器翻译、文本情感分析、内容创作 1 实验介绍 1.1 实验背景 中文分词、命名实体识别、语义词性标注、语句逻辑推理是自然语言处理领域中的重要任务。中文分词是将连续的汉字序列切分成有意义的词语序列…

一文大白话讲清楚webpack基本使用——4——vue-loader的配置和使用

一文大白话讲清楚webpack基本使用——4——vue-loader的配置和使用 1. 建议按文章顺序从头看是看 第一篇&#xff1a;一文大白话讲清楚啥是个webpack第二篇&#xff1a;一文大白话讲清楚webpack基本使用——1——完成webpack的初步构建第三篇一文大白话讲清楚webpack基本使用…

【从零开始入门unity游戏开发之——C#篇46】C#补充知识点——命名参数和可选参数

考虑到每个人基础可能不一样&#xff0c;且并不是所有人都有同时做2D、3D开发的需求&#xff0c;所以我把 【零基础入门unity游戏开发】 分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。 【C#篇】&#xff1a;主要讲解C#的基础语法&#xff0c;包括变量、数据类型、运算符、…

< OS 有关 > 阿里云:轻量应用服务器 的使用 安装 Tailscale 后DNS 出错, 修复并替换 apt 数据源

VPS 配置 主机&#xff1a;vCPU x2, 512MB, 20GB位置&#xff1a;阿里云&#xff0c;日本.东京OS&#xff1a; ubuntu24.20 原因&#xff1a; 这篇是操作过程的记录文章。 2 个月前&#xff0c; 在阿里云买了台 vps 。当时本想放到韩国&#xff0c;因为它离北京近。 但最便…

第6章 ThreadGroup详细讲解(Java高并发编程详解:多线程与系统设计)

1.ThreadGroup 与 Thread 在Java程序中&#xff0c; 默认情况下&#xff0c; 新的线程都会被加入到main线程所在的group中&#xff0c; main线程的group名字同线程名。如同线程存在父子关系一样&#xff0c; Thread Group同样也存在父子关系。图6-1就很好地说明了父子thread、父…

力扣刷题—爬楼梯

文章目录 一、题目二、示例三、解析四、代码 一、题目 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢&#xff1f; 二、示例 输入&#xff1a; n 2输出&#xff1a; 2三、解析 用f(x)表示爬到第x级台阶的方…

Python(十七)excel指定列自动翻译成英文

前言 本章主要讲述在excel的指定列后面添加一列&#xff0c;并翻译成英文 一、效果图 二、代码 实际需求&#xff1a; # -*- codeing utf-8 -*- # time: 2025/1/16 16:32 # Author : Mikasa # # Aim&#xff1a;自动将客户发的货物清单里的商品名称&#xff0c;翻译成英文…

JavaEE

一.web开发概述 1.服务器 解释1&#xff1a;服务器是一款软件&#xff0c;可以向其他发送请求&#xff0c;服务器会做出一个响应。可以在服务器中部署文件&#xff0c;让其他人访问。 解释2&#xff1a;也可以把运行服务器软件的计算机称为服务器 2.安装服务器 Tomcat官方…

基于海思soc的智能产品开发(高、中、低soc、以及和fpga的搭配)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 市场上关于图像、音频的soc其实非常多&#xff0c;这里面有高、中、低档&#xff0c;开发方式也不相同。之所以会这样&#xff0c;有价格的因素&am…

w~深度学习~合集5

我自己的原文哦~ https://blog.51cto.com/whaosoft/13083433 #Agile But Safe 足式机器人领域又一次迎来创新&#xff01;CMU 与 ETH Zurich 团队联合研发了一个名为 「敏捷但安全」&#xff08;ABS&#xff0c;Agile But Safe&#xff09;的新框架&#xff0c;为四足机器…