时间是可信的,如果下周汽车到达的时间分别是7:35、7:10、7:45、7:55和7:05,那么我们就可以说在那一周汽车的到达时间是非常不可信的。
在科学领域中,一个操作性定义的信度以类似的方式来评估。如果我们多次测量同一概念得到的结果是近似的,那么我们就说测量工具表现出较高的信度。如果在同一星期的周一、周三和周五,用同一IQ测验的不同版本测量同一个人的智力,得到的分数分别是110、109、110,那么我们可以说这一IQ测试是非常有信度的。相反,如果三个测试分数分别是89、130和105,那么我们就可以说这一IQ测试没有显示出高的信度。有一些专门的统计方法可以评估不同类型的测量工具的信度,所有标准的方法论入门教材中都有介绍。
但是请记住,信度仅仅是指前后一致,而不包括其他内容。对于一个操作性定义而言,仅有信度是不够的,信度是一个必要而非充分条件。作为一个好的操作性定义,操作必须被证明对于概念来说是有效的测量。“结构效度”这个术语是指一个测量工具(操作性定义)是否测量了它本应测量的内容。保罗·考兹比教授(Cozby,2006)在其所著的方法论教材中为我们讲述了一个只有信度而没有效度的搞笑例子。假设你想测测自己的智力,测试者让你站到一个类似鞋码器的测试仪器上,然后仪器给出一个读数。当然,你会认为这是一个笑话。但是请注意,这个测量工具可以显示许多类型的信度,而这些信度在方法论教材中都会讨论到。这个仪器在星期一、星期三和星期五会呈现出相当一致的读数(这称之为“重测信度”),并且无论谁操作它,它都会给出一样的读数(称之为“评分者信度”)。
用鞋码器来测量智力,其问题不在于信度(这是有信度的),而在于效度。它不是一个测量它本应测量的概念(智力)的合理方式。断定它不是测量智力的有效方式的证据之一,就是我们发现它和其他一些被认为与智力相关的变量无关。鞋码器的测量结果与学业成就无关,与脑功能的神经生理学测量无关,与职场成功无关,与认知心理学家提出的信息加工效率的指标无关;相反,真正的智力测验与所有这一切都有关(Deary,2000;Geary,2005;Lubinski,2004)。在心理学领域,真正的智力测验要兼顾效度与信度,而智力的鞋码器测验只有信度而没有效度。
在这一点上,你可能想知道信度和效度的其他组合方式是否可行。因此,让我来重申一下我们的立场。在操作性定义中,我们寻求信度和效度兼备,因此高信度和高效度结合才是理想的目标。我们刚刚讨论了鞋码的IQ测试,目的是论证高信度和低效度是没用的。第三种情况是低信度和低效度,这绝对没有用,因此不值得讨论。但是你可能想知道第四种,也就是最后一种可能的组合方式:如果高效度和低信度又怎么样呢?答案是,和低效度和高信度的例子(鞋码器例子)一样,这种组合也是没用的。事实上,更准确的说法是,这类情况压根儿不可能出现。因为,如果不能进行可信的测量,你根本无法宣称测量是有效的。
概念和可观测的操作之间的联系,在直接和间接性程度上变化很大。很少有科学概念几乎完全是通过可观测的操作来定义的。大部分概念的定义采用更为间接的方式。例如,一些概念的使用既取决于一系列的操作,又取决于它和其他概念之间的特殊关系。最后,还有一些概念不通过可观测的操作直接定义,而是通过它与另外一些概念间的关系来定义的。这种概念有时被称为“潜在概念”,在心理学中非常普遍。
举个例子来说,许多研究关注所谓的A型行为模式,因为它与冠心病的发病率有关(Austin&Deary,2002;Cu