入职测试在当今职场再寻常不过。有业务能力测试,也有人格测试,而后者可能占更大比重。它形式一般是设置开放式选择题,根据被测试者的回答打分,评价其性格、情绪、忠诚度和社交倾向等。管理者将可能根据这些分数来决定是否录取被测试者。有的测试还同时辅以面试。

 

这些人格测试最终以数学的分数形式呈现出来。这就像是一场考试。然而,数学化的测试必然就是可靠的或可信的吗?

 

电影《终极面试》(Exam 2009)讲述了一场全封闭空间的入职测试。图为剧照。

 

上世纪50年代,美国社会学家威廉·怀特在他的《组织人》回答了这一问题。他从人格测试的基本假设、选题设置和测试专业人员的“价值判断”等层面进行了反思。在他看来,人格测试不过是在选择最庸常的“组织人”(organization man),即在组织中的人。

 

而“组织人”正是理解人格测试的关键。不妨从《组织人》这本书本身说起。

 

 “组织人”对人的行为进行假设:人将必然是组织的一部分。威廉·怀特是它的提出者、阐述者和反思者。

 

威廉·怀特发现,一战后,德国社会学家马克斯·韦伯理解的“新教伦理”从辉煌急速走向了衰落,个人主义的“适者生存”和节俭克制精神在退场。而往前追溯至更早的19世纪80年代,消弱“新教伦理”的社会经济基础其实已经在西方社会浮现。这是因为在当时,公司规模越来越大,大公司越来越普遍,科层管理日渐成为一项职业。只不过,人们还不认为“新教伦理”在消失,哪怕出现了一些偏离做法,也认为可以重申“新教伦理”。一战后,转变更加明显。二战后,转变已经比较彻底。无数人加入其中,成为组织的一员。曾经崇尚的“单打独斗”丧失了竞争力。

 

“组织人”也由此假定,个人的作用是渺小的,只有当个人成为组织人才能发挥更大的效用。在个人与组织之间也被认为不存在冲突。如果有冲突,也只是出于信息沟通产生的误解,是可以解决的。威廉·怀特从这里判断,“组织人”实际上不只是社会经济现象,而是像没落的“新教伦理”一样是一种社会伦理,并也有其意识形态。个体、个体户、作坊和地方性小企业则被这一社会伦理认为是落后的。

 

有的人进入职场,终生为获得大企业的一个理想头衔奋斗。他们依附于组织架构。他们即便不具备生产技艺,也能快速攀升。而其他没有进入科层管理的职员,同样也属于组织中的人。不同于过去的个人主义,最典型的、最合格的“组织人”被要求是庸常的。那些独异的人在职场不受欢迎。企业也会通过入职前的“人格测试”来识别谁符合“组织人”特征。

 

一份人格测试答题页面。

 

威廉·怀特认为“组织人”的增长挑战了人的个性和创造精神。他还毫不客气地反思了那些“人格测试”,批评那种自以为是的科学主义。后者认为可以从测试中清楚地认识一个人。威廉·怀特全书说的“组织”是指企业,尤其是大企业,不过他也在书中多处提醒,这只是因为企业作为组织最普遍,易于被观察。“组织人”在经济政治社会等领域无处不在。

 

企业在职场为选择“组织人”进行的人格测试,在威廉·怀特看来,“并不像它们宣称的那样客观;而且,它们也并不尊重个体之间的差异。事实上,它们所赖以为基的并不是科学,而只是一种科学的错觉。”

 

以下内容经北大出版社·培文授权摘编自《组织人》一书第14、15节及附录。摘编有删节。

 

原文作者|[美]威廉·怀特

摘编|罗东

 

《组织人》,[美]威廉·怀特著,徐彬、牟玉梅、武虹译,北京大学出版社,2020年7月。

 

从能力测试发展到人格测试:自负的一跃

 

虽然各种人事测试已经进行了有很长一段时间,但是,人格测试却是最近一些年(摘编者注:指上世纪50年代)才发展起来的。像泰勒这样的科学管理人员主要是对如何高效地完成工作感兴趣,因而,他们对员工的关心也就集中在那些有助于完成工作的方面,比如他辨别距离的能力,或者是他双手的灵巧性。


在这段时间内,测试的内容几乎全与能力有关,并在这些方面取得了一定的成功;通过让求职者试着用他的双手把散乱的积木拼合起来等方法,管理层能够更好地分辨出一个人最适合从事什么样的工作。

 

与此同时,组织发现,词汇和智力测试同样有用。一战期间,心理学家们在“阿尔法”测试中开发出一种非常有用的词汇和智力测试。虽然这些测试并不够精确,但是,在有足够多的人接受测试的情况下,它们也产生了一个大致的常模,使得组织能够判断一个人的心智能力是否足以胜任其手头的特定工作。虽然高中和大学是此类测试的主要使用者,但是,工业界发现,随着某些工作变得日益复杂,在衡量员工方面,智商测试与身体能力倾向测试一样有价值。

 

到二战时,使用能力测试和智力测试已经变得如此普遍,以至于任何一位美国白领都不可能在未做过测试的情况下长大。

 

然而,在这样做的过程中,组织也错失了某些东西。通过对个体进行能力测试,组织只能衡量出一个人所拥有的特定的、孤立的技能,而就其日后表现而言,只有当他在某项技能上具有巨大的天赋或者是存在严重的缺陷时,测试才能比较准确地预测出他未来的表现。

 

简言之,能力测试仅仅揭示出了一个人所拥有能力的一少部分,而正如越来越多的群体关系倡导者所说的,组织需要的是整个人,而不仅仅是他的一部分。这个人(对组织会)适应得好吗?他会(在组织中一直)保持一种良好的适应能力吗?对潜在业绩的测试根本无法说明这一点;想要说明这一点,需要对一个人的潜在忠诚度进行测试。

 

电影《飞越疯人院》(One Flew Over the Cuckoo's Nest 1975)剧照。

 

长期以来,应用心理学家们一直在对精神病人和囚犯进行实验,以探究人类身上那些隐藏更深的适应失调;在这项工作中,他们开发出一些巧妙的笔试。虽然这些测试中的绝大多数都是为了测量偏常而设计出来的,但是,除非他们也对正常人进行测试以获得某种标准,否则也就无法测量出偏常。


后来,那些专业教育者也对这些测试产生了兴趣,在这一因素的推动下,心理学家们开始将这些测试应用于普通人群。起初,他们只得出了一些粗略的指标,主要是人们外向或内向的程度。

 

但是,心理学家们设计出了一些新的测试,这些测试可以测量出一个人性格中所包含的几乎所有方面。现今经常使用的测试是用十进制数字来表示一个人的激进或保守程度、他的实用判断水平、他的社会判断水平、他的坚毅力程度、他的稳定性程度、他的满足指数、他对社会的敌意程度等——目前的最新发展是,一些心理学家正在完善一项对一个人幽默感大小的测试。


一种更为复杂的测试是投射技术,如罗夏墨迹测试和主题统觉测试等,在这种测试中,被试者被迫将自己的想象力运用到某种刺激中,然后由测试者对他的潜在感受和精神状况进行X光式的检查。

 

当然,要求一个正常的成年人展示自己和要求一个精神病人展示自己并不是一回事,有些成年人就强烈反对这种对自我展示的要求。但是,心理学家们告诉组织,这种不服从并不是一个很大的绊脚石。测试人员已经学会了如何去解读人们对测试这一事实做出的不同反应。如果一个人拒绝回答测试中的一些问题,他同样无法逃避被测试人员进行分析。对于这样的人,许多心理学家认为,他们可以推断出他内心焦虑的程度,以及他是否会完全与人合作。

 

国产职场剧《加油吧实习生》(2015)剧照。

 

人格测试分数与难以消除的“人为因素”

 

究竟何谓“人格”?难道是表面上一个人微笑和谈话的方式?心理学家显然不会这么认为。


我们必须深入一个人的内在,可是,我们深入到什么程度才算合适呢?虽然绝大多数测试人员都认为把人格和整个人分开是一种无稽之谈,但是,逻辑却告诉我们,为了能够从统计上去预测人们的行为,我们必须这样做。数学因其完美而具有欺骗性。

 

正是因为“百分位”“系数”“标准差”是中立的,所以使用这些东西的方法论才会给人们带来一种错觉,认为它们把不确定性转化成了确定性,把主观变成了客观,并消除了棘手的主观价值判断。然而,事实上,数学根本未能消除主观价值的影响,它只是将其模糊化了而已。

 

我们先来看一下对测试分数的解读。测试人员认为,在这个过程中,人为因素已经被大幅消除,因为打分采用的是标准化分数(这方面唯一的例外出现在投射测试中):如果你选择答案D,你就会得到某一分数,至于测试人员对此会怎么想都与得分无关。


但是,你并非只需要做一个测试,而是通常需要做好几个测试,在这个过程中,最重要的部分就是,测试人员如何利用不同的分数整合出一幅关于你的画面。测试人员需要合成的分数越多,他需要做出的解释工作也就越多,而不是越少。

 

一份职场性格测试结果。

 

即使那些训练有素的被试者也不大可能完全不受环境和观念的影响。测试人员的情况也是如此,如果他自身有神经官能症,他的解读就会是一种极大的误导。


几年前,中西部地区一家公司的执行官,把他面试过的一个他认为相当不错的候选人,送到一位分析师那里去做测试。返回的测试结果报告有些出乎他的意料:按照那位分析师的说法,他送去的这位候选人对权威缺乏一种正当的尊重,“对组织的忠诚度很低”。但是,这位执行官还是雇用了这个人,他并不介意候选人是否热爱公司,他关心的是候选人的工作绩效是否出色。事实证明,候选人非常胜任分配给他的那份工作。

 

一年后,这位执行官又收到了一份类似的报告,对另外一个同样能干的候选人给出了一种消极评价,这位执行官的好奇心被勾了起来,他决定去找这个分析师聊一聊。“那个可怜的家伙疑心重重,”这位执行官回忆道,“他灰心丧气,因为我送去的人和他年龄相仿却在事业发展上领先于他。我问他为什么对我送去的第一个候选人提出警告,他告诉我说,第一个候选人不稳定,因为他家里有两个孩子,可他却买了一辆敞篷跑车,而且他还正在建造一座‘超现代风格’的房子。”

 

在投射测试中,解读的作用可以说是尤为关键。最初,它们只是作为完整临床诊断的一部分供专家使用,该领域的一些专家并不建议用它们来进行人才选拔。正如他们指出的那样,测试有时更多是对正在做测试者的投射,而不是对被试者的投射。

 

人格测试面试与难以克服的“价值判断”

 

社会学家大卫·里斯曼(David Riesman)讲述了一个故事:一位历史系学生参加了一项主题认知测试。在这一测试中,你会看到一幅图片,比方说一个人正在跨出大门,然后要求你讲述一个与图片内容相关的故事。毫不奇怪,这位历史系学生讲了一个有名的历史人物面临困难抉择的故事。


啊哈!负责解释测试结果的人会说,这是一种失调的表现,因为这个学生谈到了那些死去的人。这是一个历史人物在测试人员脑海中唤起的第一个想法。

 

无论采用何种测试,面试体验本身都充斥着价值判断。在该领域不受人为意志干扰的文献里,已经很难看到测试过程中面试者和被试者的个人主观色彩。


但是,请想象一下,一个中年人被一个素昧平生的人进行评估。即使这两个人自身都绝对“正常”,他们之间的关系也很难处理;即使双方交谈起来彬彬有礼,他们也能感受到彼此之间存在的那种利益冲突。被试者往往不敢袒露自己的心迹,而面试者则在被试者身上竭力寻找蛛丝马迹。仅仅是出于职业原因,面试者都很想一探究竟。

 

电影《终极面试》(Exam 2009)讲述了一场全封闭空间的入职测试。图为剧照。

 

有时候,面试者也会出于个人原因而很想一探究竟。至今我仍清楚地记得,我和同事与一位知名咨询顾问进行的一次谈话。他主动谈起自己的一件往事。在解释他的面试技术时,他提到了二战中实施的OSS测试项目,在这个测试项目中,测试者会让被试者接受一系列艰苦的经历,以测试他们在受到惊吓时的反应。

 

这位知名顾问解释说,显然,这种测试无法在工业环境里进行,但是,其中相关的原理却是可以借鉴的。他开始向我们解释他自己的面试技巧。

 

“我和被试者坐在一起,手里拿着他的测试记录,以及他的各种个人资料。我对他非常友好。不过,现场气氛依然显得有些紧张;在这种场合下,通过对他施加更多的压力,他会暴露出更多关于他自身的信息。例如,我一面审阅资料,一面大声说道:‘已婚,17年婚龄。’然后又说:‘尚无子女。’


我会刻意扬起眉毛,若有所思地停顿一下。而他则很可能会对此很敏感,即刻脱口而出,告诉我他太太或他患有不孕不育症,以及他们如何四处求医,等等。我还会顺便问问他们夫妇的性关系如何。几分钟后,我会再次向他施压。


在面试快要结束之际,我一般都会非常自然地笑一笑,说:‘我们先休息一下吧。’这时,他就会放松下来,并认为每件事都进展顺利。而就在这时,我会抛出一个他非常难以回答的问题,让他措手不及。”

 

我并不是想要暗示说测试人员都是一些心理不正常的人,尽管我很想补充一句,在这样的暗示中含有某种诗意的不公。当被试者拒绝配合或者提出批评意见时,许多测试人员,就像那些科学主义的追随者们一样,往往不是去自我反思,反而是会去揣测:为什么对方会持有异议?他们把同情心当成了一种武器。

 

但是,如果反过来说测试人员都是心理很正常的人,也不公平。虽然大多数测试人员做事都很公平,与旁人一样正常,但是,就他们自己潜在的敌对行动而言,如果他们没有一些这样的行动,那才是真的不正常。

 

如果他们完全压制这些对立,那也不正常。测试人员试图扮演上帝的角色——如果他与被试者在年龄、薪资、背景或秉性上有很大差异,这种倾向更是会表现得特别明显。当然,一个对自己和他人有深刻了解的人,一个具有智慧、忍耐和谦虚品质的人,完全可以不受这种倾向的干扰。我的这些评论并不适用于这样的测试者。

 

电影《面试》(Job Interview 2013)剧照。

 

人格测试问题设计的尴尬:“喜欢读书,就是不爱社交吗?”

 

到目前为止,我们一直都在谈论测试人员如何阐释测试结果,下面我们再一起来看一下那些测试问题。测试问题能否免受人们价值观的干扰?在设计问题时,测试者不可避免地会受到其所在特定世界的习俗和价值观的影响。

 

这方面的一个例子就是那些用来评估社交能力的问题。你读书吗?在某些群体中,阅读是一种不爱社交的行为,如果一个人承认自己有时选择读书而不是和同伴一起,他就有可能是一个内向者。然而,问题是相对的。

 

如果在一个人成长的环境里阅读是一件非常正常的事情(实际上,这在许多社交谈话中都是一个很好的话题),那么隐藏在测试里的“价值观”就会对此给出一种完全不同的判断结果。人们并不总是会以同样的方式去进行社交。一个选择读书而不是和同伴打保龄球的人可能会被人评价为不爱社交,然而,事实上,他却很有可能是一个非常外向的人。他只是碰巧不喜欢打保龄球而已。

 

纪录片《书谜》(The Secret Life of Books Season,2014)剧照。

 

当门外汉被问题的含义弄得晕头转向时,测试人员有时会报以高深莫测的一笑,说这些不过是“表面效度”。他们认为,测试问题便于被试者理解固然是好,但是,如果有很多人在一段时间里都对问题进行了回答,那么问题本身也就变得没有那么重要了。


换句话说,如果100个满意的主管都以相似的方式对一个特定问题给出了回答,那么这件事情就有了意义;因此,无论问题本身是否有意义,它都会产生一个有意义的相关系数。

 

有人可能会问了:你所说的这些到底是什么意思?这里不是写一篇统计学论文的地方,我只想对那些让人印象深刻的测试图表和表格提出一点看法,谈谈它们是如何让人们忘记了常识。


事实上,有很大一部分数学运算都是内部的——也就是说,它们是测试结果与测试结果之间的比较,而不是测试结果与外部证据之间的比较。现在,这种内部数学在确定测试的“可靠性”方面很有价值。


例如,如果一组人参加了测试中的表格B测试,并且数学相关性显示他们的百分位数排名与他们参加同一测试中的表格A测试时一样,我们就认为这个测试在测量事物时是可靠的。

 

然而,测试的可靠性很少会告诉我们它的有效性。除非它们确实测量了需要测量的特质,否则测试结果的一致性再高也是毫无意义。这些测试衡量的是社交能力、内向性或神经质倾向,还是仅仅衡量了一堆关于灭火或者喜欢阅读书籍这一类问题各项答案的选择次数?

 

要想表明测试有效,测试分数必须与被试者的后续行为相关。然而,当你去检查很多测试的有效性证据时,你会发现,它们主要展现的是特定测试的平均得分与其他人测试的平均得分有多么接近。因而,测试分数之间有相关性并不奇怪。测试题目的编写者在编写试题时经常互相借鉴(其中有些试题会在多达10~12个不同的测试中出现),这种相关性在很大程度上证实了测试领域存在的一些乱象。

 

测试分数与行为的相关性:若干怀疑

 

那么,测试分数与行为的相关性究竟有几分呢?这里我们以本罗特人格量表(Bernreuter Personality Inventory)为例。这是迄今为止在商业领域得到最广泛应用的一种测试(斯坦福大学出版社作为这一量表的经销商之一在1953年售出了100万份)

 

然而,通过阅读专业期刊你会发现,在关于它的报告中,有许多都是负面的。一些心理学家通过对比被试者的本罗特得分和被试者更为客观的特征,并未发现这两者之间存在显著相关(事实上,有时这两者之间甚至还是负相关)

 

塞西尔·帕特森(Cecil Patterson)在《社会心理学》期刊上发表了一篇文章,他在文章中写道:“结论是,使用本罗特人格量表的研究结果几乎都是负面的,它与其他变量之间显著相关的发现并不足信……毫无疑问,这是由于问卷本身的性质决定的,这种技术对人格研究来说毫无效果。”

 

国产职场剧《长大》(2015)剧照。


正如一些知名心理学家指出的,一个真正严格的验证,需要公司雇用所有被试者一段时间,对他们进行测试,然后把测试结果封存起来,这样被试者的分数就不会对主管产生误导;然后,在几年后取出测试结果,将被试者的得分与其实际绩效一一进行对比。不过,在现实生活中,很少有人尝试这么去做。

 

教育心理学家罗伯特·桑代克(Robert Thorndike)指出,大多数对该领域内已知人格测试的后续研究都被“污染”了。“想要进行真正的验证,”桑代克说,“需要按照流程进行评估(不能让负责人看到结果,因为他们能够控制被试者的职业发展和评价),再获得与(原始)评估完全无关的工作绩效评估,然后把这两组独立数据汇总到一起。”

 

已经有一些研究对不同的测试群体进行过对比,例如,一个被认为有着较高生产力的群体在某一特定测试中的平均得分,可能高于另一个被认为有着较低生产力的群体。然而,群体的平均得分并不能反映出个人的情况。即使在“优”群体中,也总是会有一些人的测试分数要比“差”群体中的一些人更低。

 

测试人员通过进行一系列而非一两个测试来逃避这个难解之谜。然而,无论增加多少变量,你都无法使它们变成常数。如果一个人不仅其“满足指数”高,而且其“易怒指数”也高,那么好的部分是否能够抵消坏的部分呢?测试人员经常发现自己又回到了他开始的地方。如果他是一个目光敏锐的人,他可能很少会去注意分数,并会做出一种非常准确的预测;然而,如果他的预测后来被证明是正确的,这就会被视为测试具有惊人准确性的又一个证据。

 

谁是“正常的”?一个问题的问题

 

谁是“正常的”?在某种程度上,我们所有人都有一种内在的冲动,想要去适应我们想象中的各种规范;在我们的生活中,我们可以感觉到,我们被各种规范的汪洋大海所包围。我们为彼此展示给对方的表象所迷惑。

 

现在,随着各种规范被正式加以数据化,我们比以往任何时候都要更容易受到它的侵害。看起来,似乎“科学”是它的盟友,因而,分析结果若是错了就会让人产生一种内疚感,若是对了则会让人产生一种不足感;我们忘记了,这种种规范通常都是先前的被试者本能地猜测每个人都会怎么回答而给出自己答案的结果。

 

如果组织人幸运地逃脱了“自我暴政”的危险,他还将面临另一个危险。起初,看到测试结果,上级可能会嘲笑它,但若他们一直依赖测试,他们就会逐渐与测试结果的正确性产生一种利害关系。不幸的是,怀疑需要证据,有时它会抵消判断,使管理层人员在无意中惩罚被试者,从而增强管理层人员对测试的信任。

 

中西部一家大型公司准备提拔一个人,公司决定让他先参加一个测试。咨询公司寄回公司的报告上写满了关于他的稳定性的警告。公司感到很困惑,因为这个人在公司里一直以来事情做得都很好,可是谁又说得准呢,也许那只是一种表象……公司在这上面思虑越多也就越是担心,最后,公司告诉那个人,公司决定把他期待已久的晋升机会给另一个人。六个月后,公司得到报告,那个人精神崩溃了。与所有其他类似的故事一样,这家公司的管理层人员表示,这一事实证明了测试结果的准确性。

 

得分不高的人是否就必然不称职呢?从定义上来说,充满活力的人是一个例外,因为他如果参加的是能力测试,测试结果将会奖励他,他如果参加的是人格测试,测试结果则经常会惩罚他。看看关于他们的特质轮廓描述的剖面图,你会发现那里面有三个共同特征:外向,对艺术不感兴趣,欣然接受现状。测试得分情况显示出同样的偏见。

 

纪录片《面试》(Die Bewerbung 1996)画面。

 

如果你想获得一个好的分数,你最好是要遵守以下两条规则:

 

一、当被问及关于世界的词语联想或评论时,你应该尽可能给出那种最常见、最普通、最平淡无奇的回答。

 

二、当对任何问题的最佳答案拿不定主意时,请对自己重复以下内容:


我爱父亲和母亲,但爱父亲要更多一点。

我喜欢事物的本来面貌。

我从不担心任何事情。

我不喜欢书和音乐。

我爱妻子和孩子。

我从不会让他们妨碍公司工作。

 

如果你是一个这样的人,你在公司里并不会发展得太好;然而,矛盾的是,除非你看起来是一个这样的人,否则你在公司里也不会发展得太好。检查一下常模,你会发现,我提出的这个建议绝对不是在跟你开玩笑。常模基于小组得分,而小组成员往往是1000名大学新生、400名高中生,或者其他一些普通人的集合。对于某些群体,像高层管理者和化学家,研究人员已经确立了一些常模;而且,随着时间推移,这些常模还会越来越多。但是,这些常模其实也是虚幻的。

 

通常,这些常模都是建立在已接受本组织测试者的反应的基础上;在这种情况下,自我保护心态会要求被试者谨慎回答问题,所以这些常模也就更像是被试者迎合组织想法的声音的回放,而非他们自己的真实想法。

 

纯粹的测试机制会排斥那些杰出人才。对那些智力超群者来说,预先备好答案的测试恰恰是最难回答的测试。

 

原文作者|[美]威廉·怀特

摘编|罗东

导语校对|柳宝庆