当前位置:首页 AP/IB学习 AP统计三种经典概率分布解析
发布时间:2020-09-23 关键词:AP统计三种经典概率分布解析
摘要:首先对看到这篇文章的同学们提一个问题:从小到大你们有没有因为某几次考试考得不好而怀疑自己不是学习的料?今天我们来科普一下在概率论当中非常典型的三种概率分布:分别叫做伯努利分布、二项分布以及正态分布。
AP统计三种经典概率分布解析,首先对看到这篇文章的同学们提一个问题:从小到大你们有没有因为某几次考试考得不好而怀疑自己不是学习的料?今天我们来科普一下在概率论当中非常典型的三种概率分布:分别叫做伯努利分布、二项分布以及正态分布。通过这三种分布的关系来跟大家分析一下考试好坏到底何天赋有何关系。这三种分布同样也会出现在AP统计的考试当中,但是作为科普文,今天只重点讨论三种分布之间的关系,而不会涉及到过多的计算和证明。
伯努利分布
我们先来从伯努利实验谈起。如果一次实验只有2种结果:成功或者失败,每次实验成功的概率都是p,且每次实验的结果之间互相不影响,我们就称作这种实验为伯努利实验。
举个例子,一个什么都不会的学生去做五选一的选择题就属于伯努利实验。因为猜对答案就相当于成功,成功概率为1/5. 并且题是否蒙对和第二题是否蒙对互相不影响。
那么什么叫做分布呢?用大家熟知的直方图来去表示一下。假设一道题目做对得1分,做错得0分。就可以画出一个这样的直方图,横坐标为得分,纵坐标为得分对应的概率。这个就叫做分布
二项分布
刚才我们说到了伯努利实验,那么二项分布其实就是重复多次伯努利实验之后的结果分布了。我们依旧以做单选题来去举例子,假设一套卷子有100道题,那么猜对100道题的概率就是 如果猜对2道题呢?是么?。
显然不是,因为100道题中我可以猜对题第二题或者第二题第四题。那么到底有多少种100道题中猜对2道的情况呢?一共有种(这个叫做binomial coefficient,今天的重点不是这个,因此我们不过多做讨论)。我们需要把刚才的在乘以种可能才可以得到答案。所以二项分布的概率见下图:
再给大家举个例子。假设小明同学参加考试,10道题全都不会做。那么他究竟能猜对几道题在考试成绩下来之前我们不得而知。因此统计学上把他能够做对的题目数量也称作随机变量。
正态分布
正态分布(normal distribution),也称作“常态分布”,是一种极为常见的连续性概率分布,也是一种极为常见常用的概率分布模型。如果随机变量X服从正态分布均值为μ,标准差为σ,那么随机变量X的概率密度曲线将会呈现钟形(中间高两边低)。
老师个人认为,正态与常态两种称呼都不太能够直观的显示出这个分布的特点,不如从当中各取一个字称作“正常分布”就很白话了,这正是正态分布的本质含义。
因为在生活当中,它太常见了。有非常多的数据分布形状会接近正态分布的钟形(即中间高,两边低的对称形态)。比如:正常人群的身高、体重、考试成绩等等。
到现在一定会有同学纳闷:明明老师刚才说的成绩分布服从二项分布,怎么到了这一段就变成成绩服从正态分布了?这要从一个装置说起:
高尔顿钉版
18世纪英国科学家弗朗西斯·高尔顿发明了一个机械装置,可以很好的展现正态分布产生的过程(如下图):
当小球撞到柱子的时候,会随机的选择向左走还是向右走,碰到下一个柱子继续随机选择左右。有多少层柱子就相当于多少小球随机进行了多少次选择,连续的执行了多次独立重复的实验。这就相当于重复多次伯努利实验产生的二项分布了。
当小球的数量非常多的时候,人们惊奇的发现这个二项分布的形状简直跟正态分布一模一样。
所以我们继续以考试为例,如果都是选择题,大家什么都不会全靠蒙,那么考试成绩一定会呈现一种正态分布。然而一定有同学会问:大家考试毕竟是靠真本事答题的,肯定不可能全部都蒙。那么这样成绩也会呈现正态分布吗?而且小球随机向左向右走的概率都是0.5,但是蒙五选一选择题时,蒙对的概率是0.2、四选一的选择题概率是0.25呀?
答案是:大致是这样的。因为同一道题,有的同学觉得简单,就一定会有同学觉得难。那放眼全部考生,就会涉及到一个概率问题了,比如说有60%的同学觉得简单,40%的同学觉得难。
假设觉得简单的同学一定能够做对题,统计学上就会认为这道题的正确率大致为60%,也就相当于每次实验成功(做对题)的概率为0.6,连续的执行了多次独立重复的实验(做了很多道题)。
但如果考生人数足够多,最后的分布形状也会近似于一个正态分布。因为统计学认为如果样本量(考生人数)满足一个叫做large count condition的条件的话,那么样本将会近似于一个正态分布。
large count condition是由前人的经验得来的,不存在证明的过程。先来看一下这个定义:
这个定义说到:如果样本量n非常大,那么只要二项分布实验成功的概率p满足np与n(1-p)都大于等于10,这个二项分布的分布形状就会近似于正态分布了。
当然,如果题目过于简单,比如某题99.999%的考生都能够做对的话,就会使得np或者n(1-p)中某一项不够10。那这时候就需要一些人为的干预手段(例如curve),来去进行调整了。
我们希望一场考试当中大部分人的成绩都在平均成绩附近,考超高分和超级低分的学生数量非常少。(考过SAT的同学应该知道数学部分的curve特别大,原因就在于此,因为本身知识点会比较简单,只能通过curve的形式让所有考生的成绩大致服从这样的分布。)
同样对于特别难的考试,也会通过curve来去平衡分数,使得总体成绩大致服从正态分布。这样的话才不会出现所有人都考不上大学或者所有人都去上藤校的情况。
看完了今天这篇科普文章,同学们一定了解了伯努利分布、二项分布以及正态分布的关系。简单来讲就是n次伯努利实验的结果会呈现二项分布,当实验次数n足够大,二项分布会近似于正态分布。
世界上大多数的事情都会服从正态分布,如果情况太极端,也会通过人为的某些手段来平衡整体使之达到正态分布。
往大的方面讲,社会的平衡也是如此。从我们身边的小事上来说,比如考试,稍显极端的情况可能是考试过于简单,但考试的形式可能会有所不同(比如线上考试,答案提交不成功,你懂的)。
大多数的我们,都是平凡的一颗小星星,希望同学们不要因为一次考试的结果就妄自菲薄或者气满志骄,调整好心态不断努力,才能够在每次考试当中取得优于别人的成绩。
新航道广州学校官网:https://gz.xhd.cn/
新航道广州学校官方客服微信:gzxhdliang