第一,测验功能具有单一性。测验工具所测得的往往是人的某一方面的心理特性,要对人作出全面的整体的评价,则需结合多种测验或其他研究方法,至今还未有能较全面测评人的测验工具。且测验所得的往往只能是“结果”,而很少能反映被试在测验过程中的特点,同时测验法也较难对被试进行定性分析。
第二,测验实施误差比较大。虽然测验有规范的程序可供遵照实行,较为方便,但对主试仍有严格的要求,且测验过程中的一些主客观条件也不可能做到完全一致,从而就会影响到测验结果的客观性。对主试的严格培训和对客观条件的严格控制,才可力求避免或降低测验的误差。
(三)多种方法的相互结合
在校本研究中,为了获取相关的信息资料,经常要用到测量。广义而言,诸如测验、调查、观察等方法都可以成为测量的手段。在具体的研究项目中,多种方法之间有着相通之处,关键在于这些方法是否符合研究需要,而不在于它们之间形式上的严格区分。不过,当把教育测量与调查、观察等并列为实证研究方法时,我们显然采用了狭义上的理解。其实,在校本研究的过程里,测验方法同其他方法相互结合、相互参照,才能使获得的信息更真实、更全面、更准确。
(四)提高主测人员素质,遵守测试道德
主测人员的素质不佳,或是由于使用测验不当甚至滥施测验,都会造成不良甚至严重的后果,所以对于测验的使用,切不可掉以轻心。
(第八节)教育测验的实施步骤
一般来说,测验主要有如下几个步骤:
一、明确测验目的
在编制测验时,主要的工作是确定测验内容和选择测验形式。而确定内容与测验形式的依据却是测验的目的,因此,编制测验的首要工作就是确定测验目的。其中,应先明确测验对象,这时需考虑的因素主要有性别、年龄、民族、受教育水平、社会文化背景等。在此基础上,需要明确测验的用途、测验目标。
测验可被用于描述对象的发展现状、评价和诊断发展中的进展和问题,还可以用于选拔人才、预测对象未来的发展状况。此外,还可以用于建立进一步研究的假设或者检验某一研究假设(如实验假设)。同一用途的测验,也可能针对不同的目标,如有的是用于测量学生的创造能力,有的则是用来测量其认知能力,还有的是用来测量其性格特征。
针对不同的对象、用途和目标,应考虑选择不同的测验类型。例如,若测验目的在于了解初中生在平面几何这一领域中的知识技能,就需要对所涉及的知识技能进行分析;所测验的目的在于预测高中生是否拥有将来从事某一领域工作的能力优势(如空间想象能力),就需要对所预测的行为特征、能力结构等进行分析。在这些分析的基础上,再确定测验的内容。
二、确定测验的内容
教育科研常常需要考察学生或教师某一方面的知识技能。在确定知识技能等方面的测验内容时,一般采用双向细目表,以作为测验计划。其中包括需要测量的知识技能的内容分类(一个方向或维度的区分),各部分内容的掌握程度(另一个方向或维度的区分),还包括每一部分内容在某一种掌握程度上的相对重要程度(以该部分内容占测验总分的比例表示)。
案例点击某阶段中学语文学习情况的测量
对于某阶段中学语文学习情况的测量,就可以采用下面这样的双向细目表。
中学语文学习效果测量双向细目表┏━━━━━━━━┳━━━━┳━━━━┳━━━━┳━━━━┳━━━━┳━━━━┳━━━━┓┃目标┃知识┃理解┃运用┃分析┃综合┃评价┃┃┃分值┃┃┃┃┃┃┃┃┃内容┃记忆┃能力┃能力┃能力┃能力┃能力┃总计┃┣━━━━━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━┫┃现代汉语知识┃┃┃┃┃┃┃┃┣━━━━━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━┫┃文学知识┃┃┃┃┃┃┃┃┣━━━━━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━┫┃现代文阅读┃┃┃┃┃┃┃┃┣━━━━━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━┫┃文言文阅读┃┃┃┃┃┃┃┃┣━━━━━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━┫┃作文 ┃┃┃┃┃┃┃┃┣━━━━━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━╋━━━━┫┃合计┃┃┃┃┃┃┃┃┗━━━━━━━━┻━━━━┻━━━━┻━━━━┻━━━━┻━━━━┻━━━━┻━━━━┛一般情况下,主要是依据课程标准、教学时间等来确定测验题目的数目、分数比例;由此形成的双向细目表,可以提供编题的依据,也可以在筛选题目、修订测验、经过标准化过程(见后文)之后用来检查测验是否遗漏了内容。在编制标准化的成就测验(学业成绩测验),时,这种双向细目表应有学科专家和有经验的教师参与设计,在仔细分析课程标准、教材内容和学生学习情况的基础上,经过集体研究决定。
三、确定测验形式
此时主要需要在如下几个方面作出选择:
①纸笔测验、口头测验或操作测验。对于陈述性知识,可以采用纸笔测验的形式;但若要考察学生及时辨析和重组信息的能力,可能口头测验更合适。此外,若要测量学生的实验能力,则操作测验更具优势。
②团体测验或个别测验。一般来说,个别测验结果更准确,但其花费更大。这需要根据研究目的、实际条件等来决定。例如,有的研究者在团体测验的同时,选择一些有代表性的对象进行个别测验。
③速度测验或难度测验。若要考察灵活性、敏捷性,如解答数学题、改错、翻译短文,可以采用速度测验;若要考察学生的思维深度、对相关知识技能掌握的程度,则宜采用难度测验。
④选择题或问答题(各自又可细分为更多形式,如多重选择题和是非选择题,简答题和论述题)。这就要根据测量的内容、目标等因素来具体考虑。
四、编制测验题目
这可分为如下几个步骤:
①写出题目初稿。一般应有题目计划数目的2—3倍数量;②预测。将题目施测于跟预期测量对象同质的其他对象,然后根据施测结果,考察测验题目的难度、区分度;如有可能,还应考察测验整体的信度、效度;③修订。根据对预测情况的分析,选出难度合适、有足够区分度的题目,删去那些质量不高的题目。
编制测验题目,一定要注意其难度与区分度。
①难度。难度是题目难易程度的指标。在计算客观题的难度时,它就是受测者在回答该题目时正确回答的人数在全体受测者中所占的比例;当题目的分数为多值时(包括主观题或一些分步骤解答的题目),难度就是全体平均分与题目满分的比例。
②区分度。区分度是指测验题目能够鉴别受测者水平的程度,也就是指测验对不同水平的被测者能“拉开距离”,显示出其区别。测试题的区分度同测试的信度、难度相关。
五、标准化过程
这一过程的目的就是要控制与测验目的无关的因素对测验分数的影响。对于一组接受测验的学生或教师来说,分数的差异可能由种种因素引起,包括受测、施测者、指导语、时间、评分过程等差异。一般来说,标准化过程就是使所有的受测者在完全相同的条件下获取测验分数的过程。标准化过程通常涉及如下几个方面:①内容。内容一致是实现标准化测量的最基本前提,多数测验的内容一致性是不言而喻的。但也有两种情况需要注意,其一,对受测者实行个别抽签式考察,此时,每个受测者的测验内容若不一致,就不能算是标准化测验;其二,在一次测验中采用不同的测验版本,包括A、B卷的形式,此时,对每个版本应进行等值性检验,确保它们具有较高的一致性。
②施测。为使所有受测者处于相同的条件,需要有相同的指导语和时限。
③评分。为保证评分的一致性,应注意准确、完整地记录受测者的反应或回答,同时要根据明确的标准进行评分。例如,词语解释,达到什么情况就可以记为满分、一半的分数或0分,应有明确的规定和示例。
④常模。同样客观、可靠的分数,并不一定能得到正确的解释,不能确保这些分数被赋予相同的含义。例如,在不同测验中获得85分,可以被解释为“优”、“中”,也可以被解释为“差”。为保证对测验分数作出合理解释,需要建立常模。常模可以通过对全体受测者测验成绩的统计而计算出,也可以通过对受测者的一个代表性样本进行统计分析而获得。
六、编写测验指导书
为了使测验能合理地实施与应用,应编写规范的测验指导书。其中,应对如下问题予以说明:①测验的目的和功用。
②编制测验的理论背景及选择题目的依据。
③测验的实施方法、时限及注意事项。
④测验的标准答案和评分方法。
⑤常模资料。
⑥信度、效度资料。
上述过程也可以表示成下面的图:
(第九节)选择合适的教育测量工具
测量工具是对被测对象进行测定的器具和手段。用什么工具对被测者实施测量,需要根据测量的目的以及可能的条件认真进行选择,在校本研究中常用的测量工具有:各种标准化的量表、教师自己编制的各类测试题、问卷、数量化的观察记录等。
一、对测量工具的要求
任何测量工具都应当具有一定的效度、信度、难度、区分度。这里着重谈效度与信度。
(一)效度
效度是指测量的有效性和正确性,即测量能准确地测出它意欲测验的属性或特征的程度。
教育测量固然是为了测量出被试的某些品质或教育活动的某些结果,但一个测量是否真的就达到了它预期的测量目的呢?效度就是衡量一个测验达到测量目的的程度的指标;它反映的是测量的准确性和有效性。简单地说,测量效度与这类问题有关:“这个测量是否达到了测量个性(禀赋或其他特征)的目的?”一个测验对于有些情况效度高,对另一些情况却未必效度高。例如,一份数学试卷在测量学生的数学能力时效度高,但在测量逻辑推理能力、发散思维能力时效度就未必同样高,因为数学能力并不等同于逻辑推理能力、发散思维能力,虽然它们之间可能有很大关系。效度又具体分为内容效度、准则效度和结构效度三种类型。
效度的指标往往用相关系数表示,称为效度系数。它通常是用测验的分数与效标之间的相关来衡量。相关系数的值越大,表示相关程度强,效度也就高,反之亦然。在学校的各种测验中,教师对每个学生的评定值可以作为效标。如果测验结果与教师平时对学生观察和评定的结果一致性很高,就说明这个测验具有较高的效度。
(二)信度
信度是指测验分数对于被测者真实水平的体现程度,也就是指测量结果的前后一致性程度。信度反映测量工具的稳定性和可靠性。如果一次测验对同一个人施测多次,多次测量的分数基本相同,则可认为这个测验是稳定可靠的,即信度较高。反之,如某个测验对学生施测多次,同一个人每次测量的得分变化不定,有升有降,则这个测验的信度就较低。
测量要具有科学研究的价值,一个起码的条件就是测量所得的结果是可靠的、客观的。但是,对于教育测量来说,这一要求并非很容易达到。习一个学生,在用内容一致、难度相同的两份试卷测验时,往往难以做到两次测验成绩完全相同(假设学生在测验时保持的状态没有变化)。不过,只要两次测验分数没有大的差别,我们就会觉得很正常;反之,若有显著的差别,我们就会觉得这两次测验的成绩不一致——那么,两次测验之间究竟有多大的一致性呢?或者说,用这种试卷进行测验时,前后测验之间是否保持稳定、可靠呢?为了解决这一类问题,人们采用了信度这一指标进行考察。
信度的种类较多,常用的有再测信度(重测信度)、复本信度(等值信度)、分半信度(两分信度)、同质信度,等等。每一种信度说明了测验不同方面的稳定性和可靠性,具有不同的意义。信度和效度一样,其指标用相关系数来表示,称为信度系数(或信度值),通常是利用同一组受测者得到两组数据资料来计算其相关。相关系数的值越大,表示测量的一致性程度越高,则信度越高,反之亦然。
效度和信度的关系是:效度高的测验信度一定也高,但信度高的测验效度不一定高。好的测验要求信度和效度都要高。
测验还要求测量工具具有适当的难度与区分度,这在前边已有所涉及,不再赘述。
二、教育测量工具的获得
在校本研究中,教育测量工具的获得主要靠研究人员自编测试题和选择呈合需要的量表。
(一)教育测验题的编制
1.测验试题编制的一般过程
测题编制的一般过程有以下几步:第一,确定测验的目的类型;第二,制定测验大纲,包括测验目的、对象、要求、试卷结构、测验时间、项目、得分比例、测量、答案要求等;第三,编制双向细目表;第四,编制测题;第五,组织试测及修改试题。
2.测验题的设计要求
第一,要明确测验的目的及特殊用途。任何测验都是针对一定目的和用途编制的,不同目的和用途的测验,其内容范围、难度、题量等要求也不同,如选拔性测验和水平测验是两种目的和用途不同的测验。
第二,要明确测验欲测量的目标范围。测验欲测量的目标范围,决定于测量对象目标的定义,如果测量对象目标的定义不明确,那么就无法确定测验内容的范围。
第三,测验题目要有代表性。测验试卷是要测量的内容和目标的一个样本,试题取样时要把深度取样和广度取样结合起来,一般要编制双向细目表。
第四,确定适当的题型和题量。根据不同的测量内容和目标,可以采用不同的题型。测验中的题型一般分为客观性试题和主观性试题。客观性试题主要是正误题和选择题等,主观性试题主要是论述题、计算题、证明题等,两种题型各有所长和所短。由于客观性试题较小,所以题量可以较大,试题的覆盖面大;主观性试题回答费时,试题量小,试卷覆盖面小,同时又由于两种题型适合测量的内容目标具有互补性,因此,实践中我们应将二者结合起来使用。
第五,恰当的难度。测验应有恰当的难度,各试题的难度要和测验的性质、目的要求一致,整个测验各题难度所构成的分布也应恰当。
3.测验题的类型