第二节 教育研究资料的描述统计

首页 > 图书 > 图书内容/[!--newstime--] / 加入收藏 / 阅读 [打印]
描述统计是通过对由实验或观察、调查所得到的数据进行整理并计算其特征数,以描述数据的分布特征,把握数据全貌的方法。一般地说,数据的整理是借助对数据的排序、分组、制作图表等方法进行的,而数据特征数的计算,是通过求数据的平均数、标准差、相关系数等以求了解数据的集中趋势、离散程度以及相关情况等。在教育研究中,有很多情况需要运用描述统计的方法,以便使研究科学合理地进行,得到正确的结论。

一、集中量数
集中量数是用来描述数据分布集中趋势的统计量。它能反映一组数据的分布中,大量数据向某一点集中的情况。常用的集中量数有算术平均数、中位数和众数,其中,在教育研究中,运用较多的是算术平均数。
(一)算术平均数
1.算术平均数的含义
算术平均数是所有观察数据的总和除以数据个数所得的商,简称为平均数或均数、均值。它反映某一现象的数量标志在一定条件下的一般水平,通常用符号 表示,读作x杠,有时也用M表示。它的计算公式为:
(11.1)
式中,N表示数据的个数;
X1,x2,…表示变量X的各次观测结果;
是希腊字母,表示连加求和。

2.算术平均数的计算
(1)原始数据求平均数
当一组数据是原始数据时,就把它们直接代入公式11.1来求平均数。
[例1] 已知5个4岁幼儿的身高(单位:cm)分别为:98,99,105,102,101,求他们的平均身高是多少?
解:将5个幼儿的身高代入公式(11.1)得:
(cm)
(2) 分组资料求平均数
如果一组原始数据编成了次数分布表,已经看不到原始数据,在这种情况下,一般采用的方法是:各组组中值乘以各组次数,求其和,再除以总次数,所的结果即为这组数据算术平均数的近似值。其计算公式为:
(11.2)

[例2] 请利用表11—2的资料计算算术平均值。
表11—2 某小班40个儿童身高的平均数计算表
身高

组中值

频数

组中值×频数

101~103

99~101

97~99

95~97

93~95

总和

102

100

98

96

94

3

4

14

13

6

40

306

400

1372

1248

564

3890


(3)加权算术平均数
在进行资料分析时,也会遇到这样的情况:一组同质数据中某些数多次重复出现,或参与计算平均数的每一个数据,在总体中的地位并不一样,即各个数据在其总体中所占的权重不同。这时,必须使用加权算术平均数。
所谓加权算术平均数,是指一组同质数据中每一数值与其对应权数乘积的总和,再除以权数总和所得之商。其公式为:

(11.3)

式中,Wi为相应的权重(=1、2、3…)。
[例3]某幼儿园有4个小班,一班45人,二班40人,三班有42人,四班38人。各班幼儿平均身高分别为78.5、79、80.75、82.5。问如何估计该幼儿园小班全体幼儿的平均身高?
解:因为已知各班人数以及各班的平均身高,估计全年级的总体水平要用加权算术平均数。

3.平均数的优点和缺点
算术平均数是最重要、最完善的集中量数,它具有以下优点:
(1)反应灵敏。观测数据中任何一个数值或大或小的变化,甚至细微的变化,在计算平均数时,都能反映出来。
(2)计算严密。计算平均数有确定的公式,不管何人在何种场合,只要是同一组观测数据,计算的平均数都相同。
(3)计算简单。计算过程只是应用简单的四则运算。
(4)简明易解。平均数概念简单明了,较少数学抽象,容易理解。
(5)适合于进一步用代数方法演算。在求解其他统计特征量时,如方差、标准差等的计算时,都要应用平均数。
(6)较少受抽样变动的影响。观测样本的大小或个体的变化,对计算平均数影响很小。在来自同一总体逐个样本的集中量数中,平均数的波动通常小于其他量数的波动,因此,它总是最可靠、最正确的量数。
但是,算术平均数也有一些缺点,在一定程度上限制了它的应用。比如,计算中,常常会因少数极端值的影响而大大改变其数值,削弱其代表性。有时,在计算平均数时除去极端值,对数据集中趋势的估计效果会更好,特别是数据不属于正态分布时,这种方法更为妥当。在实际生活中,大家常常会看到,在各种比赛中,计算某一选手的平均成绩时,往往是去掉一个最高分和一个最低分,然后再算平均值,这样的做法更科学。


(二)中位数
1.中位数的含义
中位数是按顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。这个数可能是数据中的某一个,也可能根本不是原有的数。中位数,简称中数。
中位数是根据全部观察数值数目确定的,简单明了,便于计算。一般用于下列情况:①由于中位数的计算不需要每个数据都参加,较少受极大值和极小值的影响。因此,当一组观测结果中出现两个极端数目时,往往采用中位数代表集中趋势;②当次数分布的两端数据或个别数据不清楚时,只能取数据的中位数作为集中趋势的代表值;③当需要快速估计一组数据的代表值时,也常用中位数。
但是,中位数不能用代数法计算,用中位数乘以总次数并不能得出原数值的总和。中位数不像平均数那样容易被人理解,其用处也不如平均数那么广泛。
2.中位数的计算方法
中位数的计算方法是,先把所有数据按照大小顺序排列并编号,然后分三种情况处理:
①当数据的个数n为奇数时,中位数就是正中位置的那个数,即位于第号的数。
②当数据的个数n为偶数时,中位数就是中间两个数值的平均数,即位于第和号的两数的平均数。例如,表11—3中有8个数据,因为n/2=8/2=4,n/2+1=8/2+1=5,故中位数为第4号和第5号数据的平均数,即56+74=65。

表11—3

数据

20

41

53

56

74

79

86

92

编号

1

2

3

4

5

6

7

8


(三)众数
众数是指一组数据中,出现频数最多的那个数的数值。用M0表示众数。
众数在工作中运用得比较少,主要在以下情况中使用:①需要快速而粗略地寻找一组数据的代表值时;②需要利用算术平均数、中位数、众数三者的关系来粗略地估计频数分布的形态时;③数据分布中有两极端的数值时。