第一章 总论
1.中国古代的心理测验思想
A孔子:把人分为中人、中人以上、中人以下三个类别,“中人以上,可以语上也;中人以下,不可以语上也”。(相当于现代测量学中的命名量表和次序量表)
B孟子:“权,然后知轻重;度,然后知长短。物皆然,心为甚。”明确指出了心理能力和心理特征与物理现象一样,具有可测量的特性。
C(南朝)刘勰:世界上最早的“分心测验”,认为一心不能二用。
D(南北朝)颜之推:周岁试儿,其是1925年格塞尔婴儿发展量表的前导。
E“七巧板”又称益智图、唐图,为当代多数智力测验和创造力测验所使用。
F隋炀帝科举制度的开端,被认为是世界上最早的心理测验的实践。当时的考试方法:贴经和对偶,类似于现代西方言语测验中常见的填字和类比。
G中国古代心理测验的思想,包含着典型的东方文化特点:
a他们都是描述性的,没有定量的标准;
b往往将心理特点与道德观念联系起来(局限性)
2.科学心理测验产生的原因
A对智力落后着分类和训练的早期关注
a心理测验产生的最初原因:对智力落后和精神病人治疗的需要。
b法国医生埃斯克罗:1838年出版了两卷本著作,第一次明确地对智力落后与精神病人作出了区分,他认为精神病是以情绪障碍为标志。
c法国医生塞国恩:训练智力落后者的先驱。
B实验心理学的发展
a冯特:1879年他在德国莱比锡大学建立了心理学史上第一个实验室,引发了个别差异的研究。
b实验心理学的诞生和发展,给心理测验带来了另一个副产品:严格的标准化程序。
3.心理测验的发展
A高尔顿:英国生物学家和心理学家高尔顿是倡导测验运动的主要人物。他设计了测量差异的方法,虽不是正式的心理测验,但可视为心理测验的开端。他还是评定量表和问卷法应用的先驱,他的另一个重要贡献是为心理测验奠定了统计学基础,并第一个提出了相关的概念。
B卡特尔:美国心理学家,从师冯特。1890年,卡特尔在《心理》杂志上发表“心理测验与测量”,这是心理测验第一次出现于心理学文献中。
C世界上第一个智力测验:比内与助手西蒙在《心理学年报》上发表了一篇文章,题为:“诊断异常儿童智力的新方法”,是世界上第一个正式的心理测验。比内-西蒙量表自1905年发表后,在1908年修订,1908年量表题目总数达到了59个,所有测题按年龄分组,组别从3-13岁,测验的结果用“智力水平”表示,但其通常翻译和提法为“智力年龄”。后又经1911年修订一次。
D心理测验的蓬勃发展:
a操作测验的发展:理论上的缺陷和实际上的需要,所以就有操作测验的问世和发展。
b团体智力测验的发展:这是心理测验方式的极大进步,也扩大了测验的应用范围。
c能力倾向测验的发展:韦克斯勒所编的学前儿童、学龄儿童、成人智力量表。
d人格测验的发展:心理测验的另一领域是涉及情感或行为等非智力方面的人格评估,通常包括对性格、气质、情绪状态、人际关系、动机、兴趣和态度的测量。
e现代西方心理测验的发展,受到计算机的产生和发展,以及统计方法的改进的极大影响。
4.现代心理测验在中国的发展:以1949年中华人民共和国成立为分期
A中华人民共和国成立前心理测验的发展
a1916年,樊炳清先生首先介绍了比内-西蒙智力量表;
b1920年,廖世承和陈鹤琴在南京高等师范学校开设心理测验课,并用心理测验试测投考该校的学生,这便是中国正式开始的科学心理测验;
c1921年,他俩正式出版《心理测验法》一书,成为中国最早的心理测验专著;
d1922年,中华教育改进社聘请美国教育心理测验专家麦考尔来华讲学,并主持编制心理测验事宜;
e1924年,陆志韦发表了《订正比内西蒙智力测验说明书》,30年代又与吴天敏再次做了修订;
f1931年,由艾伟、陆志韦、陈鹤琴、萧孝嵘等倡议,组织并成立了中国测验学会;
g1932年,《测验》杂志创刊。
B中华人民共和国成立后心理测验的发展
a1979年,林传鼎、张厚粲等以国外资料为参考,编制了少年儿童学习能力测验;
b1989年,成立中国心理学会心理测验专业委员会,标志着中国心理测验已进入了一个新的高速发展时期。
5.测量
A测量的定义:测量就是根据一定的法则,用数字对事物加以确定。
a一定的法则:是指测量行为发生时采用的规则或方法。
b事物:是指我们要测量的感兴趣的事物的属性或特征。
c数字:可以表示数量,也可以不表示数量。
d通常人们所说的测量,指的是给事物确定出一种数量化的价值。
B测量的要素:一是参照点,二是单位
a参照点:一种是绝对的零点;一种是相对参照点,是认为确定的。最理想的参照点是绝对零点,心理测验中所用的参照点都是相对的,因而测量的结果常常不能以“倍数”的方式解释。
b理想的单位的条件:有明确的意义和有相等的价值。
C测量的量表:量表就是有参照点和单位的连续体。斯蒂文斯将量表由低到高依次为:
a命名量表:是水平最低的一种测量量表,用数字来代替事物或对事物进行分类;
b顺序量表:不仅表明类别,还能表明不通类别的大小等级,或具有某种属性的程度;
c等距量表:不仅有大小关系,而且又有相等的单位,因此可以加减运算,但没有绝对零点,所以不能做乘除运算;
d比例量表:是最精确的测量,既有相等的单位,又有绝对零点。
D心理量表的性质:一般来说,心理测量是在顺序量表上进行的。
6.心理测验
A心理测验的要素
a行为样本:对少数经过慎重选择的样本进行观察,来间接推知被试的心理特征。
b标准化:是指测验编制、实施、记分以及测验分数解释程序的一致性,标准化的量一个重要步骤是建立有代表性的常模。
c客观性:在不受被试主观判断支配的范围内,测验的实施、评分、解释应是客观的,要尽量减少主试和被试的随意程度。客观性另一个主要方面是测题或整个测验的难度水平的确定必须客观。神经心理测验客观性最高,智力测验较高,人格问卷次之,投射测验的客观性较低。
B定义:心理测验即是依据一定的心理学理论,使用一定的操作程序,给人的行为确定出一种数量化的价值。
C心理测验的性质
a心理测验的间接性;
b心理测验的相对性;
c心理测验的客观性:心理测验标准化包括:
①测验用的项目或作业、实测说明、实测者的言语态度及实测时的物理环境等,均经过标准化。
②评分记分的原则和手续经过了标准化,对反应的量化是客观的。
③分数转换和解释经过了标准化,对结果的推论是客观的。
D心理测验的种类
a按测验功能分类:
①智力测验:比内-西蒙智力测验、韦克斯勒儿童和成人智力量表。
②特殊能力测验:如音乐、绘画等
③人格测验:明尼苏达多项人格调查表(MMPI)、16种人格因素问卷(16PF)、艾森克人格问卷(EPQ)、罗夏墨迹测验、主题统觉测验(TAT)。
b按测验材料的性质分类:
①文字测验:言语作为刺激。MMPI、EPQ、16PF及韦克斯勒儿童和成人智力量表中的言语量表部分。
优点:实施方便,团体测验多用,有肢体残疾而无言语困难的病人只能用此。
缺点:受被试文化程度的影响。
②操作测验:也称非文字测验。罗夏墨迹测验、主题统觉测验、瑞文测验及韦克斯勒儿童和成人智力量表中的操作量表部分。
优点:不受文化因素的限制。
缺点:大多不宜团体实施,在时间上不经济。
c按测验材料的严谨程度分类:客观测验和投射测验
d按测验的方式分类:
①个别测验:优点:主试可以仔细观察被试的言语情绪,并有充分的机会与被试合作,所以其结果正确可靠。缺点:时间不经济,不能在短时间呢您收集到大量的资料。
②团体测验:优点:时间经济,主试不必接受严格的专业训练即可担任。缺点:主试对被试的行为不能作切实的控制,所得结果不及个别测验正确可靠。
E心理测验的功能:最基本的功能是测量个体差异或行为反应。
a从实际应用角度看:
①人才选拔;
②岗位安置
③临床诊断;
④教育评价;
⑤心理咨询和治疗
b从理论研究角度看:
①搜集材料:心理测验是收集个体差异资料最快捷的办法。
②提出和验证假设
③实验分组
F错误的测验观
a测验万能论
b测验无用论:
①某些人格测验侵犯了个人隐私;
②测验为宿命论和种族歧视提供了心理学依据。
c心理测验即智力测验
G正确的测验观
a重要的心理学研究方法和决策的辅助工具:心理测验法的出现是心理科学发展史上的一大进步,是心理学研究中不可缺少的研究方法之一。
b作为研究方法和测量工具尚不完善:过分夸大心理测验的科学性和准确性是不对的。
c科学地看待心理测验,防止乱用测验:
①测验使用者必须具备一定的资格;
②慎重选择测验量表;
③与被试建立良好的协调关系;
④正确解释测验结果;
⑤注意测验的保密。
第二章心理测验的编制
7.心理测验的对象:首先要明确测量的对象,也就是测验编成后要用于哪些团体。
A年龄
B教育水平:在编制儿童测验时,要同时考虑教育水平和年龄的影响。在承认测验中,一般只考虑教育水平的影响。
C文化背景
8.测验的目的:测验的目的分为显示和预测,由此测验分为:
A显示性测验:是指测验题目和所要测量的心理特征相似的测验。
古德纳夫又将其分为:样本测验和标记测验。
B预测性测验:指预测一些没被测量的行为的测验。
9.测验的目标:是指编制的测验是测什么的,即用来测量什么样的心理变量或行为特征。目标分析以测验不同而异,一般分为三种情况:
A工作分析:主要任务是对所预测的行为活动作具体分析,我们称之为任务分析或工作分析。
B对特定概念下定义:如果测验是为了测量某种特殊的心理品质或特点,那么测验编制者就必须给所要测量的心理或行为特质下定义,然后必须发现该特质所包含的维量将通过什么行为表现出来或怎样进行测量。
C确定测验的具体内容:如果测验是描述性的显示测验,它的目标分析的主要任务则是确定显示的内容和技能。
10.测题的编写技术
A搜集有关资料:题目的有关来源
a已出版的标准测验
b理论和专家的经验
c临床观察和记录
B命题的原则及编写要领
a命题的原则(理解):
○1内容方面:符合测验的目的,取样有代表性,相互独立,互不牵挂;
○2文字方面:准确,简明扼要,少使用双重否定句;
○3理解方面:不要超出受测团体的知识水平和理解能力,不要有争议误解;
○4社会敏感性方面:应尽量避开社会敏感性问题,如涉及社会禁忌或个人隐私的题目不应使用。
菲利普对于涉及社会敏感性问题,怎样鼓励被试作出真实回答的策略:
◇1命题时假定被试具有某种行为,使他不得不在确实没有该行为时才否定,可避免否定过多的倾向。
◇2命题时假定规范不一致。
◇3指出该行为是常见的,虽然是违规的。
b测题的编制要领:根据被试的要求不同分为
○1提供型:要求被试给出正确答案。
○2选择题:要求被试在有限几个答案中选择正确的答案。由题干和选项构成。
题干:呈现一个问题的情境,一般由直接问句或不完全的陈述句构成。
选项:问题的多种可能答案,常常是包含一个正确答案,若干(一般是1~5个)错误答案,其中的错误的答案叫做“诱答”。
11.测题的编排
A一般原则:
a测题的难度排列易逐步上升;
b尽可能将同类型的测题组合在一起;
c各种类型测题本身的特点;
B常见试题排列方式:
a并列直进式
b混合螺旋式
第三章测验的信度
12.信度
A定义:指同一被试在不同时间内用同一测验(或用另一套相等的测验)重复测、
量,所得结果的一致程度。
a理论定义:传统的信度理论认为,每一个测验的实得分数(X)总是由真实分数(T)和误差(E),两个部份构成的,公式为:
X=T+E(公式3-1)
讨论一组测验分数的特性时,可用方差导标具体分数,公式:
(测验实得分数的方差)=(测验真分数的方差)+(测验误差的方差)(3-2)
b操作定义:一组测量分数的真分数方差与总方差(实得分数的方差)的比率,或者是真实分数方差占总方差的的百分比。计算公式:
(公式3-3)
由于真实分数的方差是无法统计的,因此公式3-3可转化为:
(公式3-4)
B信度的指标
a信度系数:大部分情况下,信度是信度系数为指标,它是一种相关系数。理论上说就是真分数方差与实得分数的方差的比值,公式是:
(公式3-5)
b信度指数:是真分数标准差与实得分数的标准差的比值,公式是:
信度指数的平方就是信度系数(公式3-6)
c标准误:指出个人测验分数的变异量。信度系数表示一组测量的实得分数与真分数的符合程度,标注误表示个人测验分数的变异量。
用一组被试两次测量结果来代替同一个人反复实测,有了信度的另一个指标:
(公式3-7)
测量标准误。测量的标准误与信度之间呈反比关系:标准误越小,信度越;标准误越大,信度越低。
C信度与测验分数的解释
a解释真实分数与实得分数的相关:信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。
b比较信度可以接受的水平:一般的能力测验和成就测验的信度系数都在0.90以上;人格测验、兴趣、态度、价值观等测验的信度一般在0.80-0.85。一般原则是:当<0.70时,测验不能用于对个人作出评价或预测,而且不能作团体比较;当0.70≤<0.85时,可用于团体比较;当≥0.85时,才能用来鉴别或预测个人成绩或作为。
c解释个人分数的意义:从信度可以解释个人分数的意义,这是测量标准误的应用。它有两个作用:一是估计真实分数的范围;二是了解实得分数再测时可能的变化情形。
例题:假设在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次他的分数将改变多少?已知该智力测验的标准差是15,信度系数为0.89,则其IQ的测量标准误和可能范围分别为:
SE=15=5.0
IQ=100±1.96x5=100±9.8≈90~110
我们可以说这个被试的真实IQ有95%的可能性落在90与110之间。即若再测一次,他的智商低于90、高于110的可能性不超过5%。
d比较不同测验分数的差异:测量标准误和测验信度在评价两个不同测验的分数是否有明显差异时也非常重要。这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。
例题:某被试在韦氏成人智力测验中言语智商为102,操作智商为108。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.97和0.93。问其操作智商是否显著高于言语智商呢?
首先计算出差异分数的标准误:
在统计上,经常要求两个分数的差异程度达到0.05的显著水平,才能承认不是
误差的影响。因此,将差异标准误(4.74)乘以1.96,结果为9.29,这表明个体在韦氏测验两半得分的差异高于大约10分,才能达到0.05显著水平。上述被试的分数差异(108-102=6)是不显著的。
D信度的类型及估计方法
a重测信度:又称稳定性系数。他的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试前后施测两次测验,求两次得分间的相关系数。
○a最适宜的时距随测验的目的、性质和被试特点而异,一般是两周到四周较宜,间隔时间最好不超过六个月。
○b前提假设:○1所测量的特性必须是稳定的;○2每个人对前一次反应的遗忘程度相同;○3在时间间隔中没有学习另外的与测验有关的东西,或者说每人学习其他东西的程度都一样。
b复本信度:又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试在两个测验上得分的相关系数,这个相关系数就代表了复本信度的高低。复本信度反映的是测验在内容上的等值性,故称等值性系数。
○a复本信度的高低关键取决于复本测验的选择。
○b如果两个复本的施测相隔一段时间,则称稳定与等值系数。稳定与等值系数既考虑了测验在时间上的稳定性,也考虑了不同题目样本反应的一致性,因而是更为严格的信度考察方法,也是应用较为广泛的方法。
○c在实际应用时,为了抵消施测顺序的效应,应该有半数的被试先作A本再作B本,另一半被试先作B本再作A本。
c内不一致性信度
○a分半信度:指采用分办法估计所得的信度系数。这种方法估计信度系数只需
一种测验形式,实施一次测验。通常是在测验实施后将测验按奇、偶数分为等
值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关
系数。
○1常见的是将测题按其序列号的奇偶分半,这种分法的前提是:测题并非随机排列,而是按某种顺序(如难度)排列;如果随机排列的题目,则必须是所有题目平等的(要么难度相等,要么性质一样);如果测验有多个分量表,应该在分量表内部排好顺序,再把各分量表分两半组合起来求相关。
○2常用的修正公式是:斯皮尔曼-布朗公式:
例题:某测验分为两半后求得的相关系数为0.524,则测验在原长度时的度估计值为:
=斯皮尔曼-布朗公式为经验公式,他的假设条件是两半测验分数的变异数相等,但实际资料有时未必完全符合这一条件。当假设不成立时,可采用:弗朗那根公式或卢伦公式中的任一一个。
○b同质性信度:指测验内部所有题目间的一致性。当各个测题的得分有较高
的正相关时,不论题目的内容和形式如何,测验即为同质的;若所有题目看
起来好像测量的是同一特质,但相关很低或为负相关时,测验即为异质的。
对于一些复杂的、异质的心理学变量,采用单一的同质性测验是不行的,因
而常常采用若干相对异质的分测验,并使每个分测验内容具有同质性,这样
每个分测验就能用来预测异质效标的某一方面。同质性信度的公式主要有:库德-理查逊公式:常用的是K-R20公式,在个各测题难度相同或近似的情况下,还可采用计算更为简便的K-R21公式。
克伦巴赫α系数
d评分者信度:用于测量不同评分者之间所产生的误差。为了衡量评分者之间的信度高低,可随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据美分测验卷的两个分数计算相关,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。当多个评分者评定多个对象,并以等级法记分时,可采用肯德尔和谐系数作为评分者信度的估计。
e各种信度系数相应误差方差的来源
信度系数类型误差方差来源
重测信度时间取样
复本信度(连续施测)内容取样
复本信度(间隔施测)时间和内容取样
分半信度内容取样
同质性信度内容的异质性
评分者信度评分者之间的差异
E影响信度的因素
a样本的特征:信度常用信度系数来表示,信服系数就是相关系数,相关系数受样本团体得分分布、样本是否异质及样本团体平均能力水平的影响。
○a样本团体分数分布的影响:当分布范围增大时,其信度估计就较高;当分布范围减小时,相关系数随之下降,信度值则较低。
○b样本团体异质性的影响:若获得信度的取样团体较为异质的话,往往会高估测验的信度,相反则会低估测验的信度。
○c样本团体平均能力水平的影响:对于不同水平的团体,题目具有不同的难度,每个题目在难度上的微小差异累计起来便会影响信度。
b测验的长度:
○a测验越长,测验的测题取样或内容取样越有代表性。
○b测验越长,被试的猜测因素影响就越小。
c测验的难度:难度对信度的影响只存在于某些测验中,如智力测验、成就测验、
能力倾向测验等。如果一个测验对某团体而言太容易,会使所得分数都集中在高分端;当题目太困难时,得分就会集中在低分端。两种情况均会使信度样本的分数范围变窄,从而使测验变得不够可靠。从理论上说,只有难度水平为50%时,才能使测验分数分布范围最大,求得的信度也最高。
d测验的时间间隔:以再测法或复本法求信度,两次测验相隔时间越短,其信度系数越大;间隔时间越久,其它变因介入的可能性越大,受外界的影响越大,信度系数便越低。
Re:06年4月心理测量的北大版笔记《续》
第四章测验的效度
13.效度
A定义:效度是指所测量的与所要测量的心理特点之间符合的程度,或者简单地说是指一个心理测验的准确性。
a在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差(或称有效方差)与总方差的比率,即
(公式4-1)
b一组测验分数的总方差等于真实方差与误差方差之和,而真实方差又可分为两部分,即有关的方差和无关的但稳定的方差,后者也就是所谓系统误差带来的方差(公式4-2),将(公式4-1)代入得
(公式4-3)由于有效方差是一个理论值,无法测量,所以效度和信度一样是一个理论上的概念。
B信度和效度的关系
a信度是效度的必要而非充分条件:从方差分配公式:可以看出,增大,即效度高,信度的真方差()必然大,故信度必然高。当信度高时,即降低时,是否增加还要看是否增减,因此效度不一定就高。效度高必然信度高,而信度高并不一定保证效度高,说明信度高只是效度高的必然条件,并不是效度高的充分条件。
b效度是受信度制约的:信度系数的平方根是效度系数的最高限度,可见,一个测验的效度总是受它的信度所制约。
C效度的性质
a效度具有相对性:我们不能笼统地说某测验有没有效,而应说它对测量什么有没有效。
b效度具有连续性:测验效度通常用无关系数表示,它只有程度上的不同,我们评价一个测验时,不应该说“有效”或“无效”,而应该用效度较高或效度较低来评价。
D效度的类型及评估方法
a内容效度:指的是测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。
○a想编制有较高内容效度的心理测验:○1要对所测量的心理特性有个明确的概念,并划定出哪些行为与这心理特性有关。○2次测验题目应是所界定的内容范围的代表性取样。
○b内容效度的评估方法:
○1专家判断法:请有关专家对测验题目与原定内容的符合性作出判断,看测验的题目是否代表规定的内容,这种估计效度的方法,是一个逻辑分析的过程,所以内容效度有时也可称为“逻辑效度”。
○2统计分析法:出了描述性语言外,内容效度的确定也可采用一些统计分析方法,符合程度越高越能反映测验的内容效度。克伦巴赫提出,内容效度可由一组被试在独立取得自同样内容范围的两个测验复本上得分之相关来作数量的估计。再测法也可用于内容效度的评估。
○3经验推测法:通过实践来检验效度。如果通过率是随着年龄的增加而增加,就可以推测该测验有内容效度。
○c内容效度与表面效度的关系:经常混淆。表面效度是由外行对测验作表面上的检查确定的,它不反映测验实际测量的东西,只是指测验表面上看来好像是所要测的东西。表面效度只考虑题目与测量目的之间的明显的、直接的关系,内容效度则考虑到题目与测量目的和内容总体之间逻辑的微妙关系。在编制测验时,表面效度是一个必须考虑的特性,最高作为的测验通常要求有较高的表面效度;典型行为测验要求有较低的表面效度。
b构想效度:1954年提出,有人翻译为构思效度,也有叫结构效度。它是指测验能够测量到理论上的构想和特质的程度,即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。
构想效度的估计方法:
○a对测验本身的分析:测验的内容效度可以作为构思效度的证据;测验的同质性指标可以推断测验是测量单一特质还是测量多种特质,从而为评估测验构思效度提供证据;分析被试对题目的反应特点也可以作为构思效度的证据。
○b测验间的相互比较:通过分析几个测验间的相互关系,找出其共同之处,进而推断这些测验测量的特质是什么,也可以确定这些测验的构思效度。最简单的是计算两种测验之间得分的相关,其中一个测验是待研究效度的,另一个是已有效度证据的成熟的测验,但两者测量的是同一种心理特质。两测验的相关系数的平方即是两组测验分数所共同解释的变异大小,所以称这一相关为相容效度,相容效度是构思效度的一个证据。区分效度是构思效度的又一个证据。因素分析法也是建立构思效度的常用方法,通过对一组测验进行因素分析,可以找到影响测验分数的共同因素,这种因素可能就是我们要测量的心理特质(构思)。
○c效标效度的研究证明:一个测验若效标度理想,那么该测验所预测的效标的性质和种类就可以作为分析测验构思效度的指标,另一种证实构思效度的方法是心理特质的发展变化。
○d实验法和观察法证实:观察实验前和实验后分数的差异是验证构思效度的方法。
c效标效度:又称实证效度,反映的是测验预测个体在某种情境下行为表现的有效性程度。被预测的行为是检验效度的标准,简称效标。由于这种效度是看测验对效标预测如何,所以叫效标效度。这种效度需在实践中检验,所以又称为实证效标。
○a分类:根据效标资料是否与测验分数同时获得,又可分为同时效度和预测效度两类。同时效度即测验所得分数可与效标同时验证,通常与心理特征的评估及诊断有关。一个好的效标必须具备以下条件:
○1必须能最有效地反映测验的目标,即效标测量本身必须有效;
○2效标必须具有较高的信度,稳定可靠,不随时间等因素变化;
○3效标可以客观地加以测量,可用数据或等级来表示;
○4效标的测量的方法很简单,省时省力,经济实用。
○b效标和效标测量:效标,即衡量测验有效性的参照标准,指的是可以直接而且独立测量的我们感兴趣的行为。效标可以分为两个层次,其一是理论水平的观念效标,其二是操作定义水平的效标测量。
○c常用的效标包括:○1学业成就;○2实际工作表现:是最满意的效标测量,为一般智力测验、人格测验和一些能力倾向测验的效标;○3特殊训练成绩:是能力倾向测验常用的效标,其中也包括中间效标和最后效标的问题;○4精神病诊断;○5等级评定:是观察者根据测验欲测量的心理特质在被试身上的表现而作出的一种个人判断;○6效标团体的比较:即找出两个在效标表现上有差别的团体,比较他们在测验分数上的差别;○7先前有效的测验:一个新测验与先前有效的测验的相关也经常作为效度检验的证据。
E效度的表示方法
a相关法:效度系数是最常用的效度指标,尤其是效标效度。它是以皮尔逊积差相关系数来表示的,主要反映测验分数与效标测量的相关。当测验成绩是连续变量,而效标资料是二分变量时,计算效度系数可用点二列相关公式或二列相关公式;当测验分数为连续变量,效标资料为等级评定时,可用贾斯朋多系列相关公式计算。
b区分法:是检验测验分数能否有效地区分由效标所定义的团体的一种方法。算出t值后,便可知道分数的差异是否显著。若差异显著,说明该测验能够有效地区分由效标定义的团体,否则,测验是无效的。重叠百分比可以通过计算每一组内得分超过(或低于)另一组平均数的人数百分比得出;另外,还可以计算两组分布的共同区的百分比。重叠量越大,说明两组分数差异越小,即测验的效度越差。
c命中率法:是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。命中率的计算有两种方法,一是计算总命中率,另一种是计算正命中率。
d预期表法:是一种双向表格,预测分数排在表的左边,效标排在表的顶端。从左下至右上对角线上各百分数字越大,而其它的百分数字越小,表示测验的效标效度越高;反之,数字越分散,则效度越低。
F效度的应用
a预测误差:效度系数的平方,统计学上称这种指标为决定系数,表示测验正确预测或解释的效标的方差占总方差的比例。另一种表达方式是估计的标准误,简写为Sest,它是指所有具有某一测验分数的被试其效标分数(Y)分布的标准差,也即预测误差大小的估计值,(公式4-9)估计的标注误可如同其他标准误一样解释。真正效标分数落在预测效标分数±1Sest的范围内,有68%的可能性;落在预测效标分数±1.96Sest的范围内,有95%的可能性;落在预测效标分数±2.58Sest的范围内,有99%的可能性。
b预测效标分数;
c预测效标指数:公式4-9中的又称作无关系数,以K表示之,K值大小表明预测源分数与效标分数无关的程度。(1-K)可作为预测效率的指数,用E表示:E=100(1-K)(公式4-15)E值大小表明使用测验比盲目猜测能减少多少误差。
G影响效度的因素
a测验本身的因素
○a测验题目的质量。(测验的指导语和试题的答案说明要明确,试题编制符合测验的目的,试题难度要适中。)
○b测验的长度。(一般而言,增加测验的长度通常可以提高测验的信度,而信度又制约着效度,因此增加测验的长度也能提高测验的效度。)
b测验实施中的干扰因素
○a主试的影响因素。测验实施过程中主试的因素会影响效度。对于效标效度,测验与效标二者实施时间间隔时间越长,测验与效标越容易受到很多机遇因素的影响,因此所求的相关必然很低。测验情镜,如场地的布置、材料的准备、测验场所有无噪音和其他干扰因素等也会影响到测验的效度。
○b被试的影响因素。被试在测验时的兴趣、动机、情绪、态度和身心状况、健康状态等都会影响测验的效度。(被试的反应定势也会降低测验的效度。)
c样本团体的性质
○a样本团体的异质性。如果其它条件相同,样本团体越同质,分数分布范围越小,测验效度就越低;样本团体越异质,分数分布范围越大测验效度就越高。
○b干涉变量。样本团体的性质对效度的影响还表现在:对于同性质的团体,同一测验的效度会有很大的不同。这些样本团体的特质包括:年龄、性别、教育水平、智力、动机、职业和任何有关的特征。由于这写特征的影响,使得测验对于不同的团体具有不同的预测能力,故测量学上称这些特征为干涉变量。
吉赛利提出的如何找出干涉变量的一套方法:
○1利于回归方程求得每个人的预测效标分数;
○2根据样本团体的组成分析;
○3对于欲测团体,根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体。
d效标的性质
○a效标与测验分数之间的关系是否线性关系是一个很重要的因素;
○b效标测量本身的可靠性如何亦是值得考虑的一个问题。
第五章项目分析
14.难度分析
A难度:是指项目的难以程度。在能力测验中通常需要一个反映难度水平的指标,在非能力测验中,
类似的指标是“通俗性”,即取自相同总体的样本中,能在答案方向上回答该题的的人数。
B难度的指标:(公式5-1)
以通过率表示难度时,通过人数越多,即P值越大,难度就越低;P值越小,难度越高。
因为P值大小与难度高低成反比,有人将其称作易度。
C难度的计算
a二分法记分:分别计算高分组和低分组的通过率,以两组通过率的平均值作为每一题的难度。
由于选择题允许猜测,所以通过率可能因机遇作用而变大。备选答案的数目越少,机遇的作用越大,越不能真正反映测验的难度。为此,吉尔福特提出了一个P值校正公式。
例题:假定某题有75%的被试通过,若该题有5个备选答案,则校正后的通过率为:
(当有4个备选答案时,CP=0.67;有3个,CP=0.63;有2个,CP=0.54)
b非二分记分:例题某一数学能力测验题的满分为20分,全体被试在该题上的平均分数为15分,则该题的难度为:P=15/20=0.75
D难度水平的确定
a项目难度的确定:进行难度分析的主要目的是为了筛选项目,项目的难度多高合适,取决于测验的目的、性质以及项目的形式。为了使测验具有更大的区别力,应选择难度在0.50左右的试题比较合适。在选择题目时,最好使试题的平均难度接近0.50,而各题难度在0.500.20之间。当测验用于选拔或诊断时,应该比较多地选择难度值接近录取率的项目。对于选择题来说,P值一般应大于概率水平。
b测验难度的确定:测验的难度直接依赖于组成测验的项目的难度。通过考察测验分数的分布,可以对测验的难度做出直观检验。偏态分布又有“正偏态分布”和“负偏态分布”两种。正偏态分布得分多集中于低端,因此必须增加足够数量的较容易的题目;负偏态分布得分集中在高分端,说明测验过易,必须增加足够数量的有较高难度的项目。
15.项目的区分度
A概念:也叫鉴别力,是指测验项目对被试的心理特性的区分能力。
B估计方法:
a鉴别指数:比较测验总分得分高和得分低的两组被试在项目上通过率的差别。首先分别计算高分组与低分组在该项目上的通过率,然后用高分组在该项目上的通过率减去低分组在该项目上的通过率。(公式5-7)
b相关系数:计算区分度最常用的方法是相关系数。
①点二列相关:适用于一类变量为二分称名变量,另一类变量为连续变量的成对变量的相关计算。
②二列相关:适用于两个连续变量,但其中一个变量被人为分成两类。
③相关:适用于两个变量均为二分称名变量。
C项目区分度与难度的关系(JD)
a假如样本中通过某一项目的人数比率为1.00或0,说明高分组与低分组在通过率上不存在差异,因此D为0;假如项目的通过率为0.50,则可能是高分组的所有人都通过了,而低分组却无人通过,这样D的最大值可能达到1.00。
b为了使整个测验项目的潜在区分度最大,似乎应该使每个项目的难度处于0.50水平,但事实并非如此简单。如果每一个项目的难度均处于0.50,由于项目难度相同,有可能大多趋向于有关的内容或技能,结果造成项目同质性提高。在极端情况下,有可能50%的被试全部通过各项目得满分,另外50%的被试全部为0分,形成U形分布,这样反而降低总分的区分能力。如果测验的所有项目都是中等难度,只有项目的内在相关为0时,整个测验才能产生常态分布。考虑到一般测验项目之间具有某种程度的相关难度的分布要广一些,梯度多一些,是合乎需要的。
16.项目分析的特殊问题
项目特征曲线:是项目特征函数或项目反应函数的图解形式,它反映了被试对某一测验项目的正确反应概率与该项目所对应的能力或特质的水平之间的一种函数关系。这一方法不仅适用于项目分析,而且也适用于某些测验量表的编制。
A项目特征曲线可图解测验的鉴别力,项目鉴别力的高低主要在于其曲线的倾斜度,曲线坡度越
陡,鉴别能力越好,预测的误差越小。
B项目特征曲线可以图解项目难度。
C项目特征曲线还可以图解选择题的诱答反应。
第六章测验的实施、记分及其误差
17.实施的程序及其要素
A标准化指导语:测验标准化的第一步是指导语标准化,即在测验实施过程中应使用统一的指导语。指导语通常包括两部分:a对被试的指导语,b对主试的指导语。
B标准时限:时限也是测验标准化的一项内容。大多数典型行为测验是不受时间限制的,例如人格测验中被试的反应速度就不很重要。但在最高作为测验中,速度是需要考虑的重要因素之一。测验的时间安排,也是影响测验结果的一个重要因素。
C测验的环境条件:有许多研究表明,测验环境会对测验的结果造成影响。尤其需要强调的是,心理测验进行之时,务必不能有外界干扰。
对于测验的环境条件:a必须完全遵从测验手册的要求;b记录下任何以外的测验环境因素;c在解释测验结果时也必须考虑这一因素。
18.测验的误差及控制方法
A主试误差及控制方法
a测验前的准备工作
○a预告测验:使被试对测验有充分准备。
○b准备测验材料
○c熟悉测验指导语
○d熟悉测验的具体程序
b测验中主试的职责
○a应按照指导语的要求实施测验,不带任何暗示。
○b测验前不讲太多无关的话。
○c对于被试的反应,主试不应作出点头、皱眉、摇头等暗示性反应;在个别施测时,主试不应让被试看见记分。
○d对特殊问题要有心理准备。
c建立协调关系:协调关系是一个专业术语,在临床心理咨询、心理治疗中经常用到。在心理测验实施中,这种关系指的是主试和被试之间一种友好的、合作的、能促使被试最大限度地作好测验的一种关系。
B被试误差及控制方法
a被试技巧与练习效应:被试对测验的经验或应试技巧会影响测验成绩,对测验的程序和技能熟悉程度不同,所得分数便不能直接比较。任何一个涉及认知功能的成绩,在第二次应用或重复测量时,都会有练习效应而使测验成绩提高。要控制应试技巧和练习效应的影响,可尽量设法使每个被试对测验材料的步骤和所需技巧有相同的熟悉程度。
b被试的动机与焦虑因素
○a被试参加测验的动机不同,会影响其回答问题的态度、注意力、持久性以及反应速度等,从而影响测验的成绩;在成就、智力和能力倾向等变量时,只有被试动机强力才可能尽力回答,取得好成绩。动机效应在测量态度、兴趣及人格等典型行为表现时也有影响。
○b测验焦虑是指被试在应试前和测试中出现的一种不愉快的、表现为焦虑、担心、恐惧和紧张的情绪体验。适度的焦虑会使人兴奋型提高,注意力增强,提高反应速度,提高智力测验、成就测验和能力倾向测验的成绩。测验焦虑会受到下列因素影响:
○1能力高的人,测验焦虑一般较低,而对自己能力没有把握的人,测验焦虑较高;
○2抱负水平过高,求胜心切,测验焦虑较高;
○3具有某种人格特点,如缺乏自信、患得患失、情绪不稳定的人易产生测验焦虑;
○4测验成绩与被试的关系重大,或被试受到的压力过大,容易使其产生测验焦虑;
○5经常接受测验的人焦虑较低,而对测验程序不熟悉。
c反应定势:亦称反应风格,是指独立于测验内容的反应倾向,即由于每个人回答问题的习惯不同,而使能力相同的被试得到不同的测验分数。几种常见的反应定势是:
○a求快与求精确的反应定势;
○b喜好正面叙述的反应定势;
○c喜好特殊位置的反应定势;
○d喜好较长选项的反应定势;
○e猜测的反应定势。
19.测验的记分及其误差的校正
Aa对于测验编制者而言:记分标准化应该包括选择和设计合式的标准化记分程序,考虑分数的分配、权数的分配、猜测的处理以及分数是由原始分数表示还是转化成其他形式。
b对测验使用者而言:记分标准化则是要求完全按照测验手册的规定和标准答案给予被试分数,有时还可以完全依据套板或计算机记分。
B记分的一般程序
a获得原始分数的要求
○a记录被试反应;
○b参考标准答案;
○c计算最后得分;
b转换原始分数的意义和方法:在心理测量中,一般原始分数本身很少有意义,只有将原始分数进行适当的转换处理或与参照标准加以对照,即把原始分数转换为导出分数,测验分数才有意义。测验编制者提供的常模表就是原始分数的转换表,它为测验使用者提供了一种方便易行的由原始分数向导出分数转化的方法。
第七章测验分数的解释
20.常模的团体和常模样本
A常模团体:由具有某种共同特征的人所组成的一个群体,或者是该群体的一个样本。
a对编制者而言:常模的选择主要是基于对测验将要施测的总体的认识,常模团体必须能够代表该总体。这种工作包括:确定一般总体、确定目标总体、确定样本。样本难的选取必须根据总体的性质代表目标总体,也代表一般总体。满足条件后才可称为常模样本,才真正具有代表性。
b对测验使用者:要考虑的问题是,现有的常模团体哪一个最合适。
B常模团体的条件
a群体的构成必须明确界定:在制定常模时,必须清楚地说明所要测量的群体的性质与特征。
b常模团体必须是所测群体的代表性样本。在搜集常模资料时,一般采用随机取样或分层取样的方法,有时可以把两种策略结合起来使用。
c样本的大小要适当。总体数目小,只有几十个人,需要100%的样本;如果总体数目达,相应的样本也大,一般最低不小于30或100个;全国性常模,一般应有2000-3000人为宜。
d标准化样组是一定时空的产物:在选择合适常模时,注意选择较为新近的常模。
C取样的方法
a取样:即从目标人群中选择有代表性的样本。
b取样的方法:有随机抽样和非随机抽样两种。随机原则就是从总体中取样时,所取个案不是人为地主观决定的,每个个案被抽取的机会均等。
○a简单随机抽样;○b系统抽样;○c分组抽样;○d分层抽样:分层比例抽样和分层非比例抽样。
D常模分数和常模
a常模分数:就是施测常模样本被试后,将被试者的原始分数按一定规则转换出来的导出分数。
b常模分数构成的分布,就是通常所说的常模,它是解释心理测验分数的基础。常模一般有:一般常模与特殊常模之分。
○a测验手册上所列的常模通常为一般常模,不一定适合使用者的具体情况;
○b特殊常模是为非典型团体建立的,一般比为小团体建立的常模范围更窄。
○1优点:可使被试的结果与最接近的人进行比较
○2缺点:不容许分数在较广的范围内作解释,测验使用者可将特殊常模与一般常模结合起来。
21.常模的类型及解释
A发展常模:人的许多心理特质如智力、技能等,是随着时间以有规律的方式发展的,所以可将个人的成绩与各种发展水平的人的平均表现相比较。根据这种平均表现所制成的量表就是发展常模,亦称年龄量表。
a发展顺序量表:最直观的发展常模是发展顺序量表,因为它告诉人民多大的儿童具备什么能力或行为就表明其发育正常,相应能力或行为早于某年龄出现,说明发育超前,否则即为发育滞后。最早的一个范例是格塞尔发展程序表。
b智力年龄:比内-西蒙量表中首先使用智力年龄的概念。
智龄是年龄量表上度量智力的单位。求智龄分方法很简单,只要将儿童在测验上的分数与各年龄组的一般儿童比较,便可给予一个年龄分数。如吴天敏修订的比内-西蒙量表中,每个年龄都有6个测题,大队每题则得智龄2个月。假如某儿童6岁组的题目全部通过,7岁组通过4题,8岁组通过3题,9岁组通过2题,其智力年龄的计算为6(岁)+4×2(月)+3×2(月)+2×2(月)=6岁+18月=7岁6个月。
c年级当量:实际上就是年级量表,测验结果说明被试属哪一年级的水平,在教育成就测验中最常用。年纪量表的单位通常为10个月间隔。
B百分位常模:百分位常模包括百分等级和百分点、四分位数和十分位数。
a百分等级:是应用最广的表示测验分数的方法。一个测验分数的百分等级是指在常模样本中低于这个分数的人的百分比。百分等级指出的是个体在常模团体中所处的位置,百分等级越低,个体所处的位置就越低。其计算分为:未分组资料的百分等级计算;分组资料的百分等级求法。
b百分点:也称百分位数,与百分等级的计算方法正好相反,百分等级是计算低于某测验分数的人数百分比,而百分点则是计算处于某一百分比例的人对应的测验分数是多少。百分点的计算可根据直线内插法进行。不管测验分数是否分组均可用直线内插法计算出百分点。在实际应用中,我们一般既可以由原始分数计算百分等级,又可以由百分等级确定原始分数。通过这样的双向方式编制的原始分数与百分等级对照表,就是百分位常模。
C标准分常模:标准分数是将原始分数与平均分数的距离以标准差为单位表示出来的量表。它的基本单位是标准差。常见的标准分数有:z分数、Z分数、T分数、标准分数、离差智商(IQ)
a线性转换的标准分数:z分数为最典型的线性转换的标准分数。
b非线性转换的标准分数:当原始分数不是常态分布时,也可以使之常态化,这一转化过程就是非线性的。
○aT分数:T=50+10z`T分数这一概念最早由麦克尔于1939年提出,平均数为50,标准差为10的,一概称之为T分数。
○b标准九分:是另一较知名的标准分数系统,其量表是个9级的分数量表,它是以5为平均数,以2为标准差的一个分数量表。
○c常态化的标准分数还有标准十分(平均数5,标准差1.5)标准二十分(平均数10,标准差3)
D智商
a比率智商:比内-西蒙量表传入美国后,斯坦福大学推孟教授于1916年对其修订而成斯坦福-比内量表。它在心理年龄的基础上,以智商表示测验结果,即以后所说的比率智商。
○1比率智商定义:心理年龄(MA)与实足年龄(CA)之比,将商数乘以100,即IQ=MA/CAх100
○2比率智商提出后,普遍被心理学界和医学界所接受。但由于个体智力增长是一个由快到慢再到停止的过程,即心理年龄与实足年龄并不同步增长,所以比率智商并不适合于年龄较大的被试;另外,由于不同年龄组儿童的比率智商分布的情况是不一样的,因而相同的比率智商分数在不同年龄就具有不同意义。
b离差智商:是一种以年龄组为样本计算而得的标准分数,为使其与传统的比率智商基本一致,韦克斯勒将离差智商的平均数定为100,标准差定为15。所以离差智商建立在统计学的基础之上,它表示的是个体智力在年龄组中所处的位置,因而是表示智力高低的一种理想的指标。由于离差智商的提出,过去曾使用比率智商的许多测验在后来也使用了离差智商。
E百分位与标准分数的共同之处:将被试的分数在团体内做横向比较,而发展量表却是与不同发展水平的人做纵向比较。
F常模分数的表示方法:转换表和剖析图。(TK或XZ)
22.参照效标的分数解释
A在效标参照测验中,一种标准是对测验所包括的材料熟练或掌握的程度,因为涉及的主要是测验的内容,这种分数叫做内容参照分数。另一个比较标准是外在效标,即用预期的效标成绩来解释测验分数,因为涉及的是后来的结果,所以这种分数叫做结果参照分数。
B效标参照测验优点
a不象常模参照测验那样,使能力强者骄傲自满,能力差者长期遭受挫折,效标参照测验巧妙地避开了对得分、名次的过分纠缠,使各人都有自己的奋斗目标和希望。
b常模参照测验无法反映出被试的真正能力和水平,甚至对被试到底能做什么,不能做什么也不清楚。效标参照测验既能发现个人特有的长处,也会找到问题的症结所在。
c从常模参照测验的得分不能得到被试在外在效标上的表现,效标参照测验则可直接作出解释,有时测验结果的本身可能就是效标。
d效标参照测验与教师在教学过程中的自编测验关系更为密切,因而效标参照测验的理论概念更易为教师接受和应用。
C内容参照:又叫范围参照,主要是依据被试对某个确定的材料内容或技能的掌握程度和熟悉程度来表示和解释测验结果。
内容参照的表示方法:掌握分数和正确百分数。
○1掌握分数:订出一个判别被试是否通过或掌握的最低分数,即最低掌握水平,此分数以上,表明被试已达到掌握或熟练水平;此分数以下,表明没有达到这个水平,需要进一步的学习或采取其他补救措施。
○2正确百分数(更为常见):是报告内容参照分数的又一个指标,表明被试者在测验中答对题目的百分比,因而掌握分数的二分法记分来表示掌握或熟练程度更为合适。
正确百分数=答对题目数/总题目数х100
D结果参照分数:实际上是一个效标分数,即用效标行为的水准来表示测验的结果,而且也是对被试未来作为的预测。
结果参照分数表示法
○1期望结果的概率:通过一种简单的图表,显示出获得特定测验分数的人得到每一种效标分数的百分比,即将测验成绩以产生各种不同结果的概率来描述。
○2预期的效标分数:将具有不同测验分数的人所可能获得的预期效标分数用图表显示出来。
23.测验分数的综合分析
A根据心理测量的特点进行分析:由于测验误差的影响,被试测验分数会在一定范围内波动,故应该永远把测验分数视为一个范围而不是一个确定的点。
B要考虑测验前的经历和测验时的情景
a为了能对测验分数作出有意义的解释,必须将个人在测验前的经历考虑在内。
b测验情镜也是一个需要考虑的因素。
C要考虑测验的信度和效度。
D对于来自不同测验的分数不能直接加以比较:为了使不同测验分数可以相互比较,必须将二者放在统一量表上。具体做法是将两个测验都对同一样本进行施测,并把两种测验的原始分数都换算成百分等级,然后用该百分等级作为中介,就可以作出一个等价的原始分数表,另一种是用相同的标准分数作等值的基础,此种方法叫做线性等值。
24.简述报告分数的具体建议
A不应把测验分数直接告诉被试本人或家长、学校班主任等有关人员,应告诉的是测验分数的解释和建议。
B避免使用专业术语。
C要保证当事人知道这个测验测量或预测什么。
D要使当事人知道他是和什么团体在进行比较。
E要使当事人知道如何运用他的分数。
F要考虑测验分数将给当事人带来什么心理影响。
G要让当事人积极参与测验分数的解释。
H测验结果应向无关人员保密