本文概述
如果你想了解有关电子表格中统计信息的更多信息, 请参加srcmini的电子表格中统计信息课程。
1900年, 卡尔·皮尔森(Karl Pearson)开发了有关χ2检验的论文, 该论文被认为是现代统计学的基础之一。在本文中, Pearson研究了拟合优度的检验(来源)。卡方检验是一种非参数检验(非参数统计检验是一种其模型未指定有关抽取样本的总体参数的条件的检验。)它用于识别分类变量和由χ2表示的关系。
卡方检验通常由误差平方和或样本方差构成。这是一种统计假设检验, 其中, 当零假设成立时, 检验统计量的样本分布为卡方。它来自独立的, 正态分布的数据的假设。
在本教程中, 你将学习卡方检验, 并且将涵盖以下主题:
- 卡方检验
- 术语
- 合身性
- 卡方检验示例
- 在电子表格中执行卡方检验
- 利弊
- 用例
- 总结
卡方检验
卡方检验是一种统计检验, 可用于确定在一个或多个类别(来源)中观察到的频率与预期频率有何显着不同。在数学表达式中, 它是基于某些假设的实验观察到的结果/频率(O)与理论上期望的结果(E)之比, 或者通过将观察到的和期望的频率的总体偏差除以期望的频率来计算。
如果观测频率与预期频率没有差异, 则卡方值为零。如果存在差异, 则卡方值将大于零。
在将计算值与表格值进行比较时, 必须计算自由度。然后, 你将可以比较并得出结论。
卡方概率分布图:图片来源:
卡方检验共有三种类型:
- 合身性
- 独立性测试
- 均匀性测试
术语
- 列联表:这是一个交叉表或双向表。你可以在一行中显示一个变量, 在列中显示另一个变量及其频率计数。它是分类变量的频率分布表的一种。
- 观测频率:是根据实验数据进行计数。换句话说, 你观察发生的数据并进行测量。 (资源)
- 预期频率:是使用概率理论计算的计数。计算列联表中每个单元的预期频率。
其中
- Eij:第i行和第j列的预期频率
- Ti:第i行的总计
- Tj:第j行总计
- N:总计
或者, 你可以将其视为(行总数*列总数)/总计
- 零假设(H0):表明总体中两个交叉表变量之间不存在关联。因此, 变量在统计上是独立的。例如, 如果你比较两种方法A和B的优缺点, 或者哪种方法更好, 并且假设两种方法都同样好, 则此假设称为零假设。
- 替代假设(HA):它提出两个变量与总体有关。如果你从两种方法中假设, 方法A优于方法B或方法B优于方法A, 则此假设称为替代假设。
- 自由度:构成统计量的独立变量的数量称为该统计量的自由度。
其中
- r =行数
- c =列数
这将用于独立性测试和同质性测试, 而不是用于拟合优度。
- 卡方检验统计量:卡方统计量是一个单一的数字, 它告诉你观察到的计数之间存在多少差异, 以及如果总体中没有任何关联, 你会期望得到多少计数。
- 卡方P值:卡方P值将告诉你测试结果是否重要。
卡方检验的类型
拟合优度:卡方拟合优度检验是一种非参数检验, 用于发现给定现象的观测值与预期值有何显着差异。在此测试中, 你只有一个总体(源)中的一个变量。
- 零假设(H0):在卡方拟合优度检验中, 零假设假设观察值与期望值之间没有显着差异(来源)。
替代假设(Ha):在卡方拟合优度检验中, 替代假设假设观察值与预期值之间存在显着差异(来源)。
例如, 让我们举一个简单的例子, 你将一个公平的6面骰子滚动了120次并获得了观察到的频率。
因此,
H0 =机会等于以相同的频率获得所有数字, 或者数据与期望的数字一致。
p1 = p2 = p3 = p4 = p5 = p6 = 1/6
Ha =至少一个p不等于1/6, 或者数据与预期的p不一致。
- 准则和决策规则:拒绝区域始终使用(k-1)自由度的χ2分布右尾。 (k =类别数)如果χ2计算的结果>χ2表计算的DOF = k-1, 则拒绝H0
独立性测试使用此功能测试两个分类变量是否独立。例如性别与意见独立性。
H0:行变量独立于列变量, 或者变量之间没有显着关系Ha:关系很重要。
标准和决策规则:拒绝区域始终使用具有(r-1)(c-1)自由度的χ2分布右尾。 (r =行数, c =列数)
如果χ2校准>χ2校准, 则拒绝H0
自由度=(r-1)(c-1)
- 同质性测试:每当你要测试不同总体的那些频率是否相同分布时, 就可以进行测试。在这种情况下, 你将执行同质性测试。让我们考虑一个示例, 以更实际地掌握它。在一项调查中, 你询问收入是低, 中还是高。在这项调查中, 男性和女性这两种人群都是不同的。在这种情况下, 你需要对同质性进行卡方检验, 以确定男性和女性的收入是否存在显着差异。
H0:总体中的频率计数是相同的。哈:整个人群的频率计数是不同的。
标准和决策规则:拒绝区域始终使用具有(r-1)(c-1)自由度的χ2分布右尾。 (r =行数, c =列数)
如果χ2校准>χ2校准, 则拒绝H0
自由度=(r-1)(c-1)
卡方检验示例
假设你希望根据缺陷的类型和生产转移对制造工厂生产的家具中的缺陷进行分类。总共记录了390个家具缺陷, 并将缺陷分类为A, B, C和D四种类型之一。同时, 根据生产转移来识别每件有缺陷的家具。
资料来源:工程统计书
解决方案:你需要查看缺陷类型是否取决于生产班次。因此, 让我们使用excel解决此问题。
使用电子表格中的卡方检验解决示例
首先, 将这些数据放入电子表格
定义原假设和替代假设
在上一节中定义原假设和替代假设。主要目的是检查家具缺陷是否与生产班次无关:
- H0 =缺陷类型和制造转移是独立的
- Ha =缺陷类型和制造转移取决于
计算的预期频率
- 在计算预期频率之前。首先, 使用SUM()函数计算每行的逐行项目总和和每列的逐列项目总和, 分别称为行总计和列总计。另外, 计算行总数和列总数。行和列的总数将相同。
- 如你所知, 期望频率=(行总数*列总数)/总数
应用公式时, 请不要忘记将单元格设为绝对, 这样你就可以复制并粘贴所有期望值的公式。
计算统计值
现在, 在计算Chi –统计值或p值之前, 首先要假设显着性水平。这意味着你想知道答案的重要性级别。假设显着性水平α= 0.05。同样, 自由度将为=(r-1)(c-1)=(3-1)(4-1)= 6。
现在有两种方法可以通过公式χ^ 2 = ∑(O-E)^ 2 / E来计算卡方统计值, 或者使用excel函数获得卡方统计值。
首先, 使用公式进行计算。为此, 你需要使用excel计算∑(O-E)^ 2 / E。这可以通过以下步骤完成–
你可以通过复制此公式并将其粘贴到所有单元格中来获取所有值。
为了使χ^ 2值取所有值的总和, 这将给我们提供卡方统计的计算值。
根据列表和计算得出的值, 你可以得出结论, 缺陷类型和移位时间是相关的。
现在, 让我们使用excel函数进行计算。 CHISQ.TEST()函数将给出p值, 可以将其直接与显着性水平进行比较以得出结果。
基于p值, 你可以得出结论, 缺陷取决于制造班次。
利弊
优点:
- 它更容易计算。
- 它也可以与名义数据一起使用。
- 它不假设任何有关数据分发的信息。
缺点:
- 观察次数应大于20。
- 数据必须是频率数据。
- 假设是随机抽样。这意味着应该随机选择样本。
- 它对小频率很敏感, 这会导致错误的结论。
- 它也对样本大小敏感。
总结
恭喜, 你已完成本教程的结尾!
在本教程中, 你涵盖了卡方检验的许多细节。你已经了解了什么是卡方, 卡方检验中使用的术语, 卡方检验的类型, 卡方检验的示例以及有关如何在电子表格中解决卡方检验的示例。此外, 你还查看了它的优缺点。
希望你现在可以使用卡方概念来检验假设。感谢你阅读本教程!
如果你想了解有关电子表格中统计信息的更多信息, 请参加srcmini的电子表格中统计信息课程。
评论前必须登录!
注册