书城社会科学环境与人类心理
31348100000027

第27章 中国省级生态文明评价体系中的相对性指数设计及分析

刘洋

随着社会的发展和进步,生态文明的建设已经成为我国越来越重要的建设目标,生态文明的理论体系也成为中国特色社会主义理论的重要内容,成为与物质文明、政治文明、精神文明相并列的我国社会主义现代化建设总体布局的组成部分。

在生态文明的建设过程中,明确的目标及客观的评价体系是必不可少的支柱和基石。评价经历了从“测量时代”到“描述时代”再到“判断时代”,最后到今天的“多元时代”的过程。但不管在哪个时代,“合理、公正”始终是讨论的重点。在评价中有许多资料和指标是属于定性方面的,特别是在评价体系众多的数据中,以简单的级别来划分是无法满足进一步的分析需求的。假若仅仅停留在定性描述或等级化,则无法将两个或多个具有若干定性指标基本相同的个体进行比较。即使对有些定量的资料和指标,如果不进行技术处理,也很难将两个或多个具有相同定量指标的个体进行比较。

2008 年,北京林业大学生态文明研究中心承担了国家林业局林业公益性行业科研专项经费资助项目——“生态文明建设的评价体系与信息系统技术研究”,构建中国省级生态文明建设评价指标体系(Eco-Civilization Construction Indices,简称ECCI),根据ECCI及相应的算法,计算得出各省的生态文明指数(Eco-Civilization Index,简称ECI)。本研究主要针对中国省级生态文明建设评价指标体系(ECCI)统计算法研究中相对性指标的设计和分析。

在不同的指标体系中,指标的设计是很重要的方面,这其中不仅要考虑各指标之间的实际意义与整体结构关系,还要考虑指标的数据收集及后期的分析。很多体系因为指标设计过于复杂,或者是数据结构的复杂性,使其无法进行严谨的统计分析。在ECCI的研究过程中,通过大量的数据研究,发现可以通过对数据进行标准化处理,使分布杂乱(极端数值多,分布形态不均衡)的原始数据,整理为平均数3.5,标准差1的标准分数分布。通过此种数据的标准化转换,评价指标也成为相对化存在,即体系所计算的分差为各评价省市的相对分差而非绝对值差,构建了相对性的指标设计。本文即通过这种相对性指标的统计设计与分析,来探讨其在中国省级生态文明评价体系中的作用和意义。

环境与人类心理中国省级生态文明评价体系中的相对性指数设计及分析1ECCI的指标设计及数据类型特点:

由于生态文明建设涉及的领域非常广泛,涉及社会发展的各个层面,ECCI的评定指标主要通过分析评价生态文明建设中相对客观的器物和行为部分,进而对生态文明建设的总体状况进行评价。ECI坚持目标导向的基本设计思路:首先,明确生态文明建设四大方面的目标:生态充满活力,环境质量优良,社会事业发达,各个方面高度协调;其次,设立具体指标,以引导四大方面目标的实现。因此,ECI按照多指标综合评价法的要求,采用层次分析法(AHP),首先将生态文明建设评价总指标分解为四个核心考察领域:生态活力、环境质量、社会发展、协调程度,然后选取设立表现各个考察领域不同侧面的建设水平、具有显示度和数据支撑的若干具体指标,构建一个包括“总指标—考察领域—具体指标”三层的中国省级生态文明建设评价指标体系框架。

在ECCI的指标体系设置中,客观科学权威的数据是所有评价指标的基础。因此,在指标体系设计的过程中,就充分考虑了数据收集和后续统计算法的特点。如受权威数据缺失或不足的限制,一些重要的指标暂时未能纳入生态文明建设评价指标体系。

(ECI)生态活力森林覆盖率建成区绿化覆盖率自然保护区的有效保护30%正指标国家统计局正指标国家统计局正指标国家统计局环境质量地表水体质量环境空气质量水土流失率农药施用强度20%正指标水利部正指标国家统计局逆指标国家统计局逆指标国家统计局社会发展人均GDP服务业产值占GDP比例城镇化率人均预期寿命教育经费占GDP比例农村改水率20%正指标国家统计局正指标国家统计局正指标国家统计局正指标国家统计局正指标国家统计局正指标卫生部生态、资源、环境协调度生态、环境、资源与经济协调度工业固体废物综合利用率工业污水达标排放率城市生活垃圾无害化率环境污染治理投资占GDP比重单位GDP能耗单位GDP水耗单位GDP二氧化硫排放量30%正指标国家统计局正指标国家统计局正指标国家统计局正指标环境保护部、住房和城乡建设部逆指标国家统计局逆指标国家统计局、环境保护部逆指标国家统计局在上述选取的数据中,主要有着如下特点:

(1)数据权威性。选择客观权威的数据,是客观评价的基础。在收集的数据中,为了确保数据的权威性,所有数据均来自国家统计局《中国统计年鉴》、环境保护部《中国环境统计年鉴》、水利部《中国水资源质量年报》,卫生部以及住房和城乡建设部公布的国家级官方权威数据。在使用的过程中,根据统计法以及相应统计规则,全部数据没有经任何处理而直接引用。

(2)数据可持续性。为避免缺失数据以及非连续数据对指标的整体影响,所选取的指标数据都是由权威部门定期发布的,具有较好的持续性和发展性。目前评价结果涵盖了近四年的基本情况,但在可以对未来进行相应的预期。如果进行持续的测量和分析,本指标体系所测算出的每年每省每个领域的生态文明状况,将能反映出该省生态文明建设在长时间范畴内的变化趋势,能够更加客观、准确地预测该省未来的生态文明发展状况,在此基础上科学合理地制定生态文明建设对策。

(3)数据可量化性。本指标体系要对各省的生态文明建设状况进行客观评价,所选用的指标必须具有权威数据基础,且数据便于统计计算,最终得出客观的分数,以用于对各省的生态文明建设水平进行考核、排序。因此,在指标体系的基础上,为了进一步进行推断性统计分析,所有的数据全部选取连续性等比数据。称名数据、顺序数据和等距数据不便于计算和后续的统计推断,均没有采用。

2 原始数据分布特点及差异性

在来自于国家统计局的各类生态文明的原始数据中,由于各省市的实际差别巨大,因此,数据本身呈现出较强的分布不统一性,这给后续的统计计算带来了很大的困难。

原始分数的分布差异性主要有以下几个方面:

(1)原始分数存在单位,由于生态文明本身包含的内容就相当广泛,因此,为了综合评定各省的生态文明真实水平,就要尽量全面地从不同的角度收集相应的数据。在此情况下,数据越多,其各自的单位越多。如森林覆盖率、建成区绿化覆盖率等是直接的百分比率指标,地表水体质量的单位是分,农药施用强度的单位是吨/千公顷,人均GDP的单位的是元,人均预期寿命的单位是岁,单位GDP能耗的单位是吨标准煤/万元,等等,这些数据有着自己的单位,因此在进行分析的时候并不能直接加和,更不能进行复杂的计算。

(2)数据分布中的极端数值,使得原始分数无法通过平均数进行简单分析。同一组数据之间差异巨大,有些分数之间相差数千倍。以2007年为例,原始数据中最大值和最小值的倍率,森林覆盖率为21倍,农药使用为30倍,单位GDP水耗为45倍,单位GDP二氧化硫排放量为90倍。在这种情况下,使用平均数进行分析时,会出现很大的偏差。

(3)原始分数本身非正态分布。上述的极端数值的存在,本身就表明此类数据已经不是完全的正态分布。这种统计学称为长尾(long tail)的分布,即一些极端值(从数据整体分布情况观察)使得整体数据呈现正偏态(极小值)或是负偏态(极大值)。这些极大(小)值通常是某些省份的个别现象,代表性并不强,却对整个数据分布产生了相当大的影响,因为一组数据中的某一两个极值,将使得整个数据的离散度加大,并呈现单一偏态,标准差和平均数的位置也将出现相应的偏化。而很多高阶的统计分析(如相关或回归)的基本要求,就是数据分布必须是正态化的。如果无法进行高阶统计分析,对数据的分析就只能停留在简单的描述性分析层面,使整体指数报告的分析水平都偏低。

3 标准分数的含义及其在生态文明指标算法中的意义

对于任何一种指数的统计计算,其原则是为了将其内部所呈现的差异性体现出来,是一种通过量化的方式来体现实质性的差异。针对上述原始数据分布的特点,ECCI指数没有简单地对原始分数进行分析,而是在整体结果分析中,采用相对性数据进行分析,即对数据整体的标准化,采用完全正态化的标准分数来进行分析,基本上解决了上述的问题。处理后,所有的极端数值都经过修正,采用以各自数据的平均数和标准差为单位的标准分数,呈现出基本正态化的状态。其最终结果显示数据非原始数据,而是转换后的相对标准分数。

标准分数的推导,可以说是一种原始分数与平均数相比,其相对地位的推导。与原始分数相比,通过推导出来的标准分数有三个功能:其一,标准分数可反映原始分数在整体中的相对位置。原始分数(来自不同指标的具体数据)本身是不能体现其在总体中的相对位置的。单独就一个数据而言,其大小是没有意义的。指标数值的高低,需要将数据的值与其他原始分数进行比较。最常见的比较方式就是简单排名(按大小顺序),或是与平均数进行比较。而标准分数,可以将这两种比较的方式有效地结合起来。其二,采用标准分数记分,可以有效地比较不同类型(单位)间数据的关系。不同类型的数据,由于质的不同,若用原始分数,是不能比较的,而采用标准分数,因为已化成同质,因而可以拿不同学科的标准分进行比较,科学地反映出不同学科成绩的优劣。其三,采用标准分数记分,可以进行高阶统计分析。

3.1 标准分数与相对位置描述

一般来说,衡量总体水平的最重要的数值是平均数,但平均数并不能完全反映数据总体状况。当两组数据的平均数相同时,并不能表示这两组数据是完全一样的。可能一组数据分布较均衡,没有过高或者过低的极端数值,而另一组数据则出现较多的极端数值,但这两组数据的平均数是完全相同的。以2008年数据为例,其中人均预期寿命的各省数据分布比较平均,其平均数就能够说明其真实情况,而农药施用强度、水土流失率、单位GDP水耗等,由于各省实际差异巨大,导致数据分布呈现两极化,仅通过平均数就无法说明其真实情况。因此,在进行离中趋势的测量时,标准差能够反映数据的离散情况。标准差计算公式如下:

S=(X-X-)2N

从标准差的计算公式中我们可以看到标准差的数学含义:各原始分数X减去平均分,得出一个偏离平均分的偏差值;由于偏差有正数有负数,所以对各偏差值进行平方处理,将它们一律化为正数,这样,累加之后便得到一个各偏差值的平方之和。将这个总和除以原始分数的个数N,便得出各偏差值平方的平均值,这个值称为“方差”。最后将方差开方,使这个反映偏离平均数的程度的数值单位还原成与原始分数的单位一致(因为在各偏差值被累加之前作了平方处理),这就是标准差,也有些书称为均方差。显然,对于某一分数集合来说,若其各分数偏离平均分的程度越大,或者说两极分化的程度越大,那么其标准差就越大。

而标准分数,又称Z分数,是一种由原始分数推导出来的相对地位量数,用以刻画原始分数在所属团体分数中的相对位置。其公式为:

Z=X-X-S

其具体含义:标准分数=(原始分数-原始平均分)/标准差。由此可见,标准分数的含义指原始分数偏离平均分多少个标准差。这就能够体现原始分数与平均数比较后,其更为准确的相对位置。

如果某个省市的原始分数与平均数相等,则按公式计算,他的标准分数是0,这表明标准分数的零表示平均水平,大于零(正数)则高于平均水平,而小于零(负数)则低于平均水平。同时,某省市的分数所得的原始分数比平均分高,并不一定说明该省市的分数比其他省市高出很多。在该指标所处的范围内,若数据分布趋于两极分化,则原始分数的差的意义就不大。但是若按照标准分数来区分,则两极分化的数据,其标准差就会较大,因此该原始分数转化后的标准分数不会特别大。而在原始分数分布相对均衡的情况下,标准差相对较小,即原始分数差别不大,但其实际的相对差异大,其标准分数的差异仍然会比较大。

以2008年数据为例,城镇化率的平均值为48.20%,北京为84.91,上海为88.60,比平均数高了将近一倍,而贵州和西藏分别只有29.11和22.61,差别巨大。但是通过标准分数的比较,全国平均数为48.20%,标准差为14.90,转换为标准分数后,北京为2.46,上海为2.71,贵州为-1.28,西藏为-1.71,体现了更为准确的相对位置。

由此可见,不管总体的数据情况趋向于平衡还是趋向于两极分化,只要某省市的指标数据水平相对于总体水平保持不变,其标准分数便能基本保持不变。这样就可以对多次测量的结果进行相对性的比较。由此,就可将2005—1008年的数据直接进行比较,在此表中所出现的分数,均为整理后的相对分数,各省ECI排名仅说明该省份当年的生态文明建设水平在全国的相对位置,并非表示该省的生态文明建设水平的绝对高低。各省每年得分排名的变化,可能是因为该省在过去一年中生态文明建设力度、整体水平的变化,也可能是因为其他省份整体水平的相对变化。

3.2 通过标准分数对不同质数据进行加和

从数据的来源情况分析,由于生态文明的数据类型各有所不同,原始分数是无法进行加和的,而标准分数在处理的过程中消除了所有数据的相应单位,可以对不同质的分数进行加和——在已知各不同质的数据的次数分布基本为正态时,通过标准分数来表示观测值的总和与平均值,这样的方式标示了每一个数据在总体数据中的相对位置。

从统计原则角度出发,平均数的运算前提就是数据必须同质,不同单位的数据不能直接比较,否则会使平均数没有意义。在这种情况下,只有通过标准分数,才可以进行进一步的加合运算。同时,由于标准分数的换算,使得所有的原始分数标准化,其原始单位已经完全统一,在这种整合后数据的基础上,相应的高级统计运算(如相关,回归等)可以直接运行。

评价结果中的各项分数只是相对得分。每一项指标及总指标的最高分和最低分,分别是由当年各省每项三级指标的原始数据中的最高值(被赋予最高等级分6分)和最低值(被赋予最低等级分1分)确定的。根据这种相对评价算法,如果一个地区协调程度全部7项三级指标均名列全国第一,按协调程度占生态文明指数(ECI)30%的权重计算,协调程度指数得分上限为36分。如果一个地区协调程度全部7项三级指标均名列全国倒数第一,按协调程度占生态文明指数(ECI)30%的权重计算,协调程度指数得分下限为6分。

协调程度的总分包括工业固体废物综合利用率、工业污水达标排放率、城市生活垃圾无害化率、环境污染治理投资占GDP比重、单位GDP能耗、单位GDP水耗以及单位GDP二氧化硫排放量。这些指标本身都有着自己的单位,原始分数无法相加。而通过标准分数的统计换算,抵消了不同单位对数据整合的影响,这些指标构成了生态文明评价指标中的协调程度部分。

3.3 标准分数与正态化数据的高阶统计分析

将原始分数转化为以平均数和标准差为基础的标准分数后,更重要的意义是可以将离散的数据分数整理成为正态化的数据分布,为后一步的高阶统计运算提供重要的分析基础。

标准分数的运用是基于这样一个假设前提的:凡是人工进行的或与人工有关的各种测量,其结果都是呈正态分布。这个假设已为许多大规模的统计结果所证实。在标准分数的运用中,只要是存在足够多的数据,其结果基本上呈正态分布是不成问题的。

标准分数本身即为正态分布——高阶统计运算对于数据的要求也是相对较高的。不仅是数据类型需要等距或者等比的连续性随机数据,而且在数据形态分布上,也需要数据的类型基本符合正态化。非正态分布的数据在继续运算的过程中会受到很多的限制。正态分布函数是:

y=12πбe-(x-μ)2б2

这个函数值正是曲线下x轴上从-∞到X的面积。这个值恒大于0小于1(即0<(x)<1),它反映了从-∞到X的面积覆盖了总面积的百分比。由此可见,对于标准分数X,总有一个反映其在正态分布中所处的百分位的函数值与之对应。在进行了正态化整理后,才可以进行相关等高阶统计分析。相关关系是一种变量间非确定性的相互关联关系,表现为延着一条曲线两侧的一排点。相关系数(coefficient of correlation)即为表现相关关系的数值。

一般而言,相关用于两个测量的样本间相关程度的测定。将两个样本按观察数据的顺序进行配对,分别计算每个数据的秩,将两组样本的秩分别记录为U和V。如果两个测度完全一致,则U与V的差异应当为0.计算D=U-V的平方和,该值越大,表明相关性越差。

不同的数据类型有着不同的相关计算。常见的相关有皮尔逊积差相关(Pearson coefficient of correlation、斯皮尔曼等级相关(Spearman coefficient of correlation)、肯德尔W相关(Kendall W coefficient of correlation)、质与量相关等。在不同的相关算法中,皮尔逊积差相关系数是误差最小、精确度最高的,同时,也是对数据类型要求最严格的。只有符合正态分布的连续性数据,在大样本的情况下才能使用。指标体系中的原始数据很难符合其运算特点。而整理后的标准分数,就可以通过其来进行分析。

在指数的后期分析中,将各年度相应二级指标以及总指标分数和原始数据中的各指标分作线性相关分析。由于各指标数据个数(原始数据)大于30,同时整合的二级指标以及总指标数据个数大于30,且本指标所有标准分均满足正态的概率分布,满足相关计算的最严格要求。因此,选用皮尔逊(Pearson)积差相关,并采用更为严格的双尾(又称为双侧检验:Two-tailed)检验。双尾检验虽然有可能使得相关系数的敏感性(显著性)程度降低,但其结果更为严格,可信度也比单尾检验(又称为单侧检验:One-tailed)高。

以整体情况为例,通过分析2008年二级指标与总指标之间的关联度,发现协调程度、社会发展、生态活力这三个二级指标都与生态文明指数(ECI)有很高的关联度,而且4年的相关情况基本稳定,表现出这三个方面与生态文明建设之间的线性关系。

而环境质量与ECI的关联度表面上不高,显得相对独立。但经过分析可见,环境质量目前与生态活力有一定正相关,而与社会发展和协调程度都有一定负相关,它作为关系变量,通过影响其他三个二级指标来对总指标产生影响。因此,环境质量并非无关联变量,只不过它与ECI之间不是直接线性关系。

各个二级指标之间,除了社会发展与协调程度之间有比较高的正相关外,其他二级指标之间的相关度均不显著,而且4年的相关性状态基本稳定,这显示出二级指标一定程度的相对独立性。

关于社会发展与协调程度之间的高度正相关关系,需要说明的是,由于二者都受到经济发展水平(人均GDP)的重要影响,因此是难以避免的。但从生态文明建设的内涵来看,这两个方面又都是不可或缺的,也不可能相互替换,因此二者虽然关联度高,但都是相对独立的。总之,各二级指标均与ECI关联紧密,且相互之间相对独立,这说明指标体系的结构框架和权重分配是合理的,能够确保测评结果的客观性和准确性。

相关系数不仅能对整体指标进行分析,还能够对具体的指数进行细致的分析。以社会发展与ECI的关系来分析,2008年的数据分析中,社会发展与ECI总得分之间存在较高的正相关,社会发展与ECI总分之间的相关度高达。674,这突显了社会发展对生态文明建设的重要意义。特别是北京、上海、天津等直辖市,其较高的社会发展水平奠定了生态文明建设的坚实基础,而甘肃、山西、新疆、贵州等省份,生态文明建设明显受到社会发展程度的限制。

在采用了标准分数后,其相关分析不仅能进行系统内的分析,还可以和系统外的连续性随机数据进行分析,大大拓展了数据的联系性。

以人均GDP为例,这一指标是衡量国家和地区的经济水平和社会发展程度的核心指标,也是生态文明建设必须重点关注的指标。其数据本身也是符合皮尔逊相关条件的连续型正态分布。因此,在实际分析中,可将ECI总分以及各部分得分与人均GDP进行研究。

3.4 标准分数构建的类型分析

通过标准分数的转化,还可以进一步对三级指标进行等级划分,在此基础上,构建生态文明指数的类型分析。

在第三部分中国省级生态文明建设类型分析中,为了对三级指标进行细化的分析,对三级指标的分数进行了等级划分。

其划分的依据还是根据前面的临界值和等级分的划分标准。将原来的最高两级和最低两级合并,即第一等级为原标准分数6和5;在统计分析中,包括所有大于一个标准差的数据,出现的概率值约为16%。第二等级为原标准分数4,在统计分析中,包括所有大于平均数一个标准差之内的数据,出现的概率值约为34%。第三等级为原标准分数3,在统计分析中,包括所有小于平均数一个标准差之内的数据,出现的概率值约为34%。第四等级为原标准分数2和1,在统计分析中,包括所有大于一个标准差的数据,出现的概率值约为16%。

以此为依据,对整体性的分数进行了整体类型的划分。

ECCI这种采取多指标综合评价法的评价指标体系,20个指标都会对综合得分造成影响。一般来看,得分高的省份与得分低的省份,可能代表不同的生态文明建设类型。而ECI得分大致相当的省份,可能代表相同的生态文明建设类型,也可能代表不同的生态文明建设类型和具体内涵。

以社会发达型为例,这些地区主要包含了我国经济最发达的地区。毗邻东南沿海或长江三角洲,具有对外贸易、发展经济的有利地理条件,所以,它们的经济总量和人均国内生产总值均居于全国前列,城镇化、教育发展、农村改水等各项社会事业相对发达,社会发展程度在全国领先。同时,上述地区由于长期以来在过去的工业化进程中,重资源能源开发,轻资源生态保护造成的资源掠夺性开发和人为破坏,使当地的自然环境面临十分严峻的形势,环境污染和生态破坏日趋严重。这些地区在经济发展实现飞跃后也高度重视对生态环境的治理和反哺,环境污染治理的投资力度较大,努力在当地建设资源节约型、环境友好型社会,使得这些地区环境恶化的趋势得到有效遏制,生态破坏的趋势得到基本控制,突出的环境污染问题得到基本解决,环境质量持续改善,生态活力与环境质量都能居于全国的中游水平。这些地区对生态环境保护重要性的认识有了质的提高,“生态文明”、“生态经济”成为它们发展的主题,地区的主要污染物排放指标明显下降,单位GDP能耗、单位GDP水耗较我国其他省份更低,服务业产值占GDP比例也在全国居于领先位置,它们基本超越了工业化阶段,行业结构得到调整,率先实现产业结构转型升级,开始向高水平经济基础上的协调发展迈进,这类地区的生态文明建设整体情况较好。但是,这些地区由于较大的经济规模和较高的人口密度(上海、北京、天津、江苏、浙江的人口密度2008年底排名全国第1、2、3、4、8位),对生态环境形成的压力仍然较大,还需要继续加大对生态环境建设投入的力度,提高生态环境建设的质量,进一步升级完善产业结构,实现地区协调可持续发展。属于该类的地区有:北京、浙江、上海、天津、江苏。能够清晰地看到原始分数与标准分数以及等级分的相应换算。

4 相对性指数设计在生态文明评价体系中的意义

用各种指标体系对生态文明进行评价,其最终目的都是为了提供科学客观简明的体系以及相应的研究分析方式。

一个指标体系能否成为长期持久性的评估方式其中一个重要方面是,要看其评价指标的确定、量化特别是后期的统计算法。不同的评价体系所运用的指数及统计方式有着很大的差别。以城市可持续发展指标为例,其科学性主要包括三个方面的内容:(1)指标的选取和设计必须以相应理论以及经济理论、环境生态理论等为依据,能够证实反映城市经济、社会、资源、环境发展的协调状况,反映其发展水平、趋势以及可持续发展目标的实现程度;(2)指标的选择、指标权重和量度的确定、数据的收集和计算方法的确定均应以相关的统计报告、学术理论、管理科学等科学理论为依据;(3)指标的选取还要符合国家制定的有关标准,这样才能保证评价方法的科学性、评估结果的真实性和客观性。

而实际指标的呈现,不仅在于指标的选取,还在于选择的整体统计逻辑及相应的统计方法。以标准分数为代表的相对性指数统计方法,可以从不同的角度来进一步解决相应的问题。相对性指数评价方式的统计逻辑以及数据分析方法有着相对独立的意义,并且可以为进一步的数据推断统计分析提供有力的支持。

虽然生态文明的指标体系在目前已经引起了众多学者的关注,但仍有许多问题没有进行深层次的研究,也仍有问题没有解决。其涵义及具体表现会随着时间和地域的改变而更新,同样其指标体系也会更新,这就需要研究者不断探寻最合适的指标,也需要统计工作者提供数据的来源,这也是一项非常困难的工作。类似的问题还有很多,迫切需要更多的学者进行更深入的研究。