教育观察法可信度的已能或所能评估到的程度,取决于观察方法所属的类型。现场研究——大大优于调查或实验,也大大优于任何其他方法,可能的例外是文献研究——一般是个人努力的事,由于通常仅由一个单个的观察人员研究一个单个的群体或文化,就没有什么办法就评估可信度作必要的对比了。而且,现场研究强调研究人员的主观理解,这种主观理解一般不是以数量表示的,从而无助于评估可信度的所必须的资料分析方式。
然而,在用结构式观察形式——或在自然场所或在实验室场所——进行研究中,对教育观察法的可信度的评估容易得多。在教育研究尤其在一单个的研究中使用大量的观察人员时,这种试图评估观察研究的可信度的努力,一直是受到重视和鼓励的。这种评估表明,如果进行观察研究的总的指导路线被实现了,在结构式观察中就没有理由达不到更高的可信度(75%或更高)了。
对观察人员和检验(类别)可信度这两者的评估所作的一项研究,就是上面谈到过的西尔斯等人1965年所作的研究。他们在该项研究的第一周的最后一天,在开始正式搜集资料前,第五周的最后一天和第六周的最后一天,对观察人员作了对比。总共有4个观察人员,每一对都在为时3个或4个10分钟的观察时间内,观察同一个孩子。总共搜集到了63对10分钟的对比资料,包括10个半小时的记录行为。总的可信度,如对所对比的两个观察人员一致性的百分比所测量的,是81%。这是所有行为形式和所有时期的一个总计。整个时期增加的可信度,在第一周内为72%,到第5周为82%,到第6周为87%。
对各种行为类型也作了对比。总共有29个类别,包括4个组。这4个组的可信度分别为:成人角色为86%,依赖性为78%,反社会的侵犯性为70%,亲社会的侵犯性为61%。总的百分比之所以高达81%,仅仅因为所有记录的行为大多数在成人角色组(86%的可信度),而仅23个低度有效度的亲社会侵犯性行为被记录了。这清楚地表明,可信度在整个时期增加着,而有较多记录的类别的可信度更大。这也证明,有经验的观察人员比无经验的较为可信。
这也说明,观察资料是否正确和可靠,观察者是主要的决定因素之一。因此。教育研究中观察研究法对观察人员提出了严格的要求,它不仅要求观察人员具有认真的态度和优秀的品质,还要求观察人员掌握技术与技巧。
2.教育观察法的有效度
教育研究中观察法最重要的特征是它的效度。所谓效度,就是一个观察对于它所要观察的行为特征观察到什么程度。一个观察如果没有效度就无价值可言。或者可以说,一个观察的内容须与它的名称相符。例如对一组儿童智商情况的观察研究,应纯粹是智商方面的。所以,观察的资料编制好后,检验其效度是极其重要的步骤。在鉴定一个观察效度时,必须以该观察的目的为依据,因为一种观察对于某一特定的目的有效,而对其他的目的可能缺少有效性。
效度和信度一样,是高度相对的概念。我们在前面已经讲过,观察的信度是在某种情况下,用某种样组对所得的观察结果一致性的估计。在效度上也是如此。有效度着重讨论的问题是:(1)观察的目的,也可以说观察什么东西;(2)观察对于它所观察的东西达到多么良好的程度。这两个问题就是观察的有效度的基本问题。
如果人们针对任何特定的观察,笼统提出“它有效吗?”这将是一个无法明确回答的问题。要是提出“它对什么有效呢”?这样问法才是准确的。必须从该观察的目的与特殊的功能着眼考虑观察的效度。一个观察所得的结果,必须符合特定的观察目的,才能成为正确而有效的观察资料。
危害直接观察的有效度的可能因素,大部分已在前文提及,现分几个重要的方面加以叙述。
①直接观察的有效度
缺乏匿名性。前已述及,教育研究中书面的调查研究对搜集敏感性资料比访谈研究更为有效,因为前者的回答者对匿名性得到较大保证。除了应用较有限的隐蔽的观察性研究(例如用单向镜)外,观察通常是个面对面的过程,其中,被观察的人很当心地以一种被认可的(合法的)方式行动。这样,对敏感性资料,邮寄问卷表可能会比观察更为有效,因得到匿名保证的人可能会承认他不会让任何人观察的行动。
②社会现实作为思维构成物,既是一套具体的现象,部分地也是思维的构成物,而被观察的东西部分地是一幅关于事实上存在的东西的图画,同时也部分地是一幅关于观察人员期待的图画,它总的说来是以过去的观察为基础的。这样,在一定程度上,每一个观察人员不完全是无偏见的,在他所期待看到的(但不一定是他想要看到的)方面是有偏见的。如有人交给某人一份用他不熟悉的外语写成的一段正确表述的材料和一份同一段的含有一些打字错误的打字材料,这个人能十分容易地发现其中的不一致之处。因为他的观察力并未由于事先的期待而产生偏见,由于他不懂该语言,脑子里没想过期待看到什么。但是,若这个人拿到是一份自己非常熟悉的文字材料,那么他将很难于发现其中的错误,因为他事先知道他将要看到的是什么,因而看不出有不一样的地方。
③在观察手段上缺乏结构。这一因素同前述的因素紧密相关。上面我们谈到一个人容易看到所期待看到的东西,即使它不在那儿,这样就产生了偏见,这是选择性知觉(selectiveperception)的一例。不过,相反的情况即完全没有关于将要观察到什么的期待,也可导致无效度。现场研究方法的阐述者避开结构式的类别设置,他们发现,如果结构是由被观察的人们从内部而非由研究人员从外部强加的,则他们的研究就较为有效。
这个作法虽可行,但研究的时间就要增长,以便使这样一个土生土长的观察结构出现。在研究开始时,若观察环境中有许多东西可观察到,有许多事情在当时发生,但观察人员没有集中注意的具体特征,则所观察到的将是整个环境的一个一般的或偶然的观察样本,而对一些特性即使他曾经集中注意过它们,他也会丧失掉他可能曾经注意过的这些细节。
为了具体说明问题,我们试举一例。某校有学生数千人,课外活动时间,学生们纷纷来到校园操场上,不同的年级、不同的相貌、各自进行着不同的活动,从事教育研究的观察人员若没有一个具体观察对象作为观察目标,就会这儿看到一点,那儿看到一点。他只会得到一个关于学生们进行课外活动的总的印象,而失掉一个训练有素的专家会准确看到的许多具体项目。不过,训练有素的专家要看到这些预定目标,是以牺牲其他为代价的。就是说,他会集中精力于看一个项目而对其他项目则只浏览一下。
④人的感觉器官的适当性。教育研究人员在进行观察中,他的感觉器官难免出差错。必须注意所被观察的现象可能影响我们的测量手段(我们的感觉,尤其是视觉和听觉)的适当性。例如,当你从黑暗的电影院走到晴朗的阳光下,你的瞳孔就自动地缩小以便让阳光进入得少些。这种对环境的适应性是非随意的。人的听觉也是易于失真的,因一个人确定一个声音来源的能力主要依靠声音发出时一个人所面对的方向。这些都是使观察受影响的因素。
除此之外,其他一些因素诸如疲劳、紧张和饥饿等也能影响感觉的接受质量。而最大的因素之一自然是吃惊。许多犯罪行为的目击者之所以不能清楚地认出可疑分子,原因就在于恐惧加吃惊,他们根本未将注意力集中在可疑分子身上。一个曾受雇于犯罪组织的杀人犯供认,他最成功的谋杀之一是在一次阳光灿烂的午餐时分在一家拥挤的饭店里施行的。他有意采用的是一支非常响的手枪,令人惊恐的响声使目击者不是将注意力集中于对他的识别上,而是集中于迅速钻到桌子底下以保护自己。
(2)间接观察的有效度
腐损测量和累积测量,是直接观察的两个主要的无偏见的特征,源自它们的无反应性。①没有任何观察人员使被观察的人们产生偏见;②没有任何人工的观察结构使资料产生偏见。但腐损测量产生偏见的可能性,仍存在于可能有的反应倾向的形式中。例如,一个百货商店可将一个楼梯归为上楼梯,而将另一个楼梯归为下楼梯。上楼之较大的磨损可能不是由于较多人的通过,而只是由于人们坚持认为在向上走时对台阶的压力比向下走为大,从而导致增加磨损。
不同物品的不同寿命能力也可在磨损测量中导致偏见。一个商店的楼梯比另一个商店的楼梯磨损较大,这一事实不是意味着磨损较大的那个楼梯生意较兴隆,而仅仅因为它的楼梯是用较软的木料制造的。或者说这栋楼房较旧,已经受到一个较长时期的磨损。
累积测量也有潜在的偏见,其主要问题之一也是不同材料的不同抗损能力。这个问题显然是随着所要研究的事件发生以来的时间的长度而增加的。例如,一个城市人类学家通过察看放在路旁的垃圾箱内的东西,检查阅读报刊的习惯,可通过察看那些被扔掉的报刊,得到关于杂志和报纸被阅读的类型和数量的概念。可是,如果他察看的是一个被遗弃的时间长达50年之久的城市的垃圾,他可从装在金属和玻璃的容器内的食品和饮料研究其消耗习惯,可他关于阅读习惯的研究会遭到挫败,因为纸制品时间长了难以抵挡住自然环境的侵蚀。