统计数据分组的关键在于分组标志的选择和各组界限的划分。
(一)分组标志的选择
分组标志的选择是统计分组的核心问题,分组标志就是对统计总体进行分组的标准或依据。选择正确分组标志,是统计分组能充分发挥其作用的前提。总体单位一经分组,就突出了各单位在分组标志下的差异,同时则掩盖了总体单位在其他标志下的不同。所以,同一总体由于选择的分组标志不同,对其认识可能会得出不同甚至相反的结论。为了保证统计分组科学合理,选择分组标志必须遵循穷尽的原则、互斥原则和反映事物本质的原则。
(二)统计分组方法
分组标志一经选定,就要在分组标志变异范围内划定各相邻组间的性质界限和数量界限。根据分组标志的不同特征,统计总体可以按品质标志分组,也可以按数量标志分组。
1 按品质标志分组
按品质标志分组是按对象的属性特征分组,它又分简单品质分组和和复杂品质分组两种情况。
(1)简单的品质标志分组 简单的品质分组是指分组标志一经确定,组的名称和组数也就随之确定,而且各单位应分在哪一组也比较明确,不存在组与组之间界限区分的困难分组。例如,人口按性别分为男、女两组,具体到每一个人应该分在哪一组是一目了然的。
(2)复杂的品质标志分组 有些现象按品质标志分组是比较复杂的,如工业部门分类、人口职业分类等。对这些复杂问题的分组,统计学上称为分类。统计分类不仅涉及复杂的分组技术,而且涉及国家的政策和科学理论。为保证各种分类的科学性,统一性和完整性,便于各个部门掌握和使用,国家统计局会同有关部门制定了统一的分类目录,在全国范围内实行。如商品分类目录、工业产品分类目录、工业部门分类目录等。
在统计分类中,反映国民经济结构的基本分类主要有如下几种。
①经济形式分类,它是以生产资料所有制形式为基础的重要的经济分类。
②国民经济部门(行业)分类,我国采用部门、大类、中类和小类4级分类制。
③三次产业分类,它是在部门(行业)分类的基础上进行的。
④社会生产的甲乙部门分类。它是根据马克思再生产原理,按产品的主要经济用途进行分类的。
⑤工业部门分类。它是先把工业分为采掘业和制造业两大部分,然后再分为大类、中类、小类三个层次。
⑤隶属关系分类。它是按企业的业务隶属关系和行政领导关系进行的分类。
⑦地区分类。它是按我国现行的行政区划进行的分类。
⑧在业人口的职业分类。它是以在业人口本人所从事的工作性质的同一性进行的分类。
2 按数量标志分组
按数量标志分组是指选择反映事物数量差异的数量标志,根据其变异范围区分各组界限,将总体划分为若干个性质不同的组成部分。
例如,研究居民家庭贫富状态时,按恩格尔系数(即食品类支出占整个居民家庭消费支出的比重)分组,将其在60%以上的划分为贫困家庭;50%~60%的为温饱家庭;40%~50%为小康家庭;40%以下的为富裕家庭。
再如,我国在研究人的成长状况时,按年龄分组,0~6岁为婴幼儿;7~17岁为少年儿童;18~59岁为中青年;60岁(其中,女性为55岁)以上为老年。
数量标志反映的是事物特定内容的数量特征,其概念是具体明确的,但按数量标志分组,并不是单纯地确定各组间的数量差异,而是要通过分组体现的数量变化来确定现象的不同性质和不同类型。因此,根据变量值的大小来准确划分性质不同的各组界限并不容易,这要求在按数量标志分组时,首先分析总体中可能有多少种性质不同的组成部分,然后再研究确定各组成部分之间的数量界限。
根据总体各单位某一数量标志值的变动特征,可供选择的分组方式有单项式分组和组距式分组两种。
(1)单项式分组 单项式分组是指按每一个具体变量值对现象总体所进行的分组。
单项式分组一般适用于离散型变量,且变量值不多、变动范围较小的情况。当离散型变量变动范围比较大、总体单位数又很多的情况下,若采用单项式分组,把每一变量值作为一组,则必然会使分组的组数过多,各组次数过于分散,不能反映总体内部各部分的性质和差异,从而失去了统计分组的真正意义。至于连续型变量,由于其变量值无法—一列举,更不能采用单项式分组,因此在这些情况下就需要采用组距式分组方法。
(2)组距式分组 组距式分组是指按变量值的一定范围对现象总体所进行的分组。在现象总体的变动范围内,将其划分为若干个区间,各区间内的所有变量值作为一组,其性质相同,组与组之间的性质相异。与单项式分组相比较,各组的变量值不是某一具体的点值,而是一个区间。例如,某市职工家庭户平均收入分组情况如表3.2所示。
组距式分组一般在变量值变动幅度较大的条件下采用。在组距式分组中,涉及到组限、组距、组数、组中值等分组要素。
①组限 组限是用来表示各组之间界限的变量值,是决定事物质量的数量界限。其中,在每一组中最小的变量值为下组限,简称为下限;最大的变量值为上组限,简称为上限。
②组距 组距是指一组变量值的区间长度,也就是每一组的上限与下限之间的距离。即:组距=上限-下限。
组距式分组中,根据各组的组距是否相等可以分为等距分组和异距分组。各组组距都相等的分组称为等距分组,各组组距不相等的分组则称为异距分组,或称不等距分组。
③组数 组数即分组个数。在所研究总体一定的情况下,组数的多少和组距的大小是紧密联系的。一般说来,组数和组距成反比关系,即组数少,则组距大;组数多,则组距小。如果组数太多,组距过小,会使分组资料繁琐、庞杂,难以显现总体现象的特征和分布规律;如果组数太少,组距过大,可能会失去分组的意义,达不到正确反映客观事实的目的。在确定组距和组数时,应注意保证各组都能有足够的单位数,组数既不能太多,也不宜太少,应以能充分、准确体现现象的分布特征为宜。
④组中值 组中值即组距的中点数值,它是各组变量值的代表水平。在重合式组限的分组中,它是各组上限与下限的简单平均数;在非重合式组限的分组中,它是本组下限与后一组下限的简单平均数。
在组距式分组中,组距掩盖了分布在组内各单位的实际变量值,因此需要用组中值来代表该组的一般水平,这就是组中值在统计分析中被广泛采用的原因。