自由读 — 第二节开发线上测评

购物车注册

学习中心我的我要投稿下载APP

热门：快消品零售营销老板

第二节开发线上测评

韩文卿本文出自《慧眼识才：职业人测评实践笔记》

本节将介绍如何开发线上测评。有一篇关于计算机程序的文章提到“数据结构 + 算法 = 程序”，笔者认为，与之类似，测评是“理论 + 常模 / 系统 = 测评”。设计测评方案主要包括维度、赋值和验证。

一、维度

维度是指测评的心理特质对象。测评通常通过五因素模型中的五个

维度测评，也可以通过 16PF① 、DISC 等维度测评。人格测评工具可以分为两大类：一类是以五因素模型为基础，如善择的 15FQ+②、智鼎的MAP③ 等；一类是不以五因素模型为基础，如哈里逊测评。五因素模型的市场影响力巨大，无论是历史悠久的测评工具，如 OPQ，还是新晋的测评工具，如禾思 CPI④ ,它们都和五因素模型有着密不可分的联系。基于五因素模型，一些研究者进行了归纳总结，其中以思维—人际—动力框架最为常见，以善择的 15FQ+ 为例，其中的 16 对维度可以分为人际风格、思维风格、应对风格。

二、赋值

确定了评估维度后，下一步是出题和赋值。线上测评题型主要分为李克特量表和迫选题。理论层面李克特量表便于对结果做分析和评估，但容易产生各种反应偏差，如光环效应⑤、印象管理⑥、趋中效应⑦ 等，360度评估就是广泛使用此类量表，并深受其偏差困扰的典型。迫选题能降低反应偏差，提高精度和有效性，目前不少测评开始采用迫选方式。当然，迫选方式也有自己的问题，各分数间存在着制约性，违背了 CTT⑧ 的基本假设。迫选方式虽能较好地测出相对性，但无法测出绝对性，因为迫选方式的测评总分是一个常数，包括配分题也有类似的问题。所以，

① 16PF ，卡特尔16种人格因素问卷。美国伊利诺州立大学人格及能力测验研究所卡特尔教授编制的用于人格检测的16种人格因素问卷的简称。

② 15FQ+ ，基于卡特尔的16PF人格模型，深度测评了与五因素人格特质相关的核心人格特质。

③ MAP，基本胜任力模型。

④ CPI ，comprehensive personality inventory ，全面个性指标评估问卷。

⑤ 光环效应，因为一个显著的优点，而认为其方方面面都很好。在面试中，因候选人来自名校，评估者便不自觉地对一些并未深入考察的能力也给予高度评价。

⑥ 印象管理，就是有技巧地展示自己。在行为面试中，候选人熟练运用STAR模型来陈述过往经历，系统地展示自身能力与成就，能给面试官留下“高度胜任” 的专业印象。

⑦ 趋中效应，在运用等级量表进行评定时，评估者不敢给最高或最低分，导致所有评分都挤在中间档次。这是一种评估者的主观倾向，导致评分结果变异度降低，无法有效区分个体差异。

⑧ CTT ，classical test theory ，即古典测验理论。

目前较多测评工具同时采用两种方式，如 Wave① 、15FQ+ 均采用量表结合迫选方式。

题型确定后，需要编写题目。编写题目主要有以下四个重点：

（ 1 ）题目用词要符合中国人习惯。比如，“我觉得应该设定远大的目标”，这里的“觉得”会让人拗口，直接写“我倾向于设定远大的目标”更加符合中国人表达习惯；“我有时候怀疑我是否在有意义地开展工作”，这句话写成“我怀疑自己的工作是否有意义”更简洁，更合乎习惯。

（2 ）选项用词尽量匹配。线上测评多采用迫选方式，这一方式也产生了新的问题，如选项的用词长短影响着结果选择。笔者见过不少出题方式，其中有些选项之间的文字长度差异很大，如选项：A. 尽量尝试和解决问题；B. 助人。经研究，如果两个选项字数和结构差异大，会对结果选择有一定正或负的影响。正影响是指选择该项的人数明显增加，负影响是指人数明显减少，到底是正影响还是负影响，目前还没有发现规律。上面选项如果改成：“A. 尽量尝试和解决问题；B. 尽量帮助他人获得成功”则是较好的设计，可以使两个选项的字数和结构差异不至于过大。字数相近是一方面，更好的是匹配方式对称，也就是选项的字数、结构基本相同，这个要求比较高，不作硬性要求。

（ 3 ）选项用词尽量保持中性。不过分贬低，也不过分夸耀。比如，选项：A. 我乐于掌握权力，凌驾于他人之上；B. 与其坚持己见，不如迎合他人。在 A 选项中，“凌驾”“迎合”带有明显的夸耀或是贬低色彩，一般句子中包含夸耀或者贬低色彩的词语，选择率会明显下降，因此选项用词要尽量中性。又如，我具备与生俱来的领导才能就是明显的夸耀。中国人可能内心强大，但仍然表现得谦恭，不喜欢过分张扬的词语，这在人格测评中表现十分明显。

① Wave ，saville assessment wave，是一款在人才招聘与盘点中广泛使用的人才测评工具。

（4 ）出题要具有新颖性。新颖性包括内容的新颖和形式的新颖。有些老题本内容挺经典的，为何要去替换呢？有三个原因：一是涉及效度的问题，不少题目反复使用，容易被透题；二是题目的内容已经过时；三是用新颖的题目符合时代精神，能够提升受测人员的投入度。举例说明：

人工智能正推动科研新范式，例如在 2025 世界人工智能大会上展示的成果，其利用 AI 大模型定向改造蛋白质，效率远超传统方法。

迫选题：

A. AI 将完全取代科学家在实验室的工作。

B. AI 是辅助工具，能加速发现但无法替代人类科学家的创造性思维。

考察点：

对“AI 赋能”而非“AI 替代”这一核心价值的理解。

这道题目是从新闻中摘出来改编的，题目内容比较新颖，能感受到时代的脉搏，有利于学生尽快融入题目。

在性格或动机测试中，有时会采用投射题，投射题的优点在于可以摆脱常见的文字描述。市场上的性格或动机测试中，95% 的测试方式是文字，这对于 30 岁以上的受测群体而言，已经产生了某种“免疫”，回答容易有掩饰性。投射题因为内容新颖，不易发现问题背后的意义。基于投射题的这一特性，可进一步开发适配线上测评的选择题形式。比如，“我的大部分朋友会帮助那些需要帮助的人”（评估我是否乐于助人）；“我的许多朋友是科学家”（评估我是否对科学感兴趣）。以上两个选项都是典型的“朋友选择”，而“我不喜欢所有房子外观都很相似的

住宅区”（评估我是否偏好一致性），这一选项属于“环境认识”。

这种投射题的方式比较巧妙，通过“朋友”“房子”判断个人偏好，通过对他人的观点和评价映射自己的观点。但这些题目用起来要小心，因为习惯并不完全代表个性。

除了投射题，有没有别的新颖形式呢？所有测评题目的假设，都是“ABC 模式”，通过你的行为推断你的人格和思维模式。整个假设建立在“选择”上，也就是鼠标的选择。那么，未来是否可以通过观测“眼动”，甚至是“脑动”，进一步深入了解思维模式呢？笔者认为也是可能的。比如，有些机构通过观测消费者在购物网站时的“眼动”来优化购物网站的布局和页面，线上测评系统也可以通过“眼动”来观察受测对象在每个选项的停留时间、停留频次，从而推测受测对象的思维模式。

编写题目后需对每道题明确指向，即赋值，它包括题目和维度的匹配、选择和分值的匹配。通过试测获得大量数据，就能形成常模。找专业的市场调研公司，或者自己搜集数据，都能收集常模。有了常模，测评基本完成了 50%。以前测评报告常用 Excel 生成，现在有了系统，形成报告更加方便。

三、验证

测评需要验证，主要包括信度、效度和社会称许性验证。

1. 信度和效度

信度是一个“0 ～ 1”之间的数值，反映测评的稳定性，越接近 1，测评数值越稳定。信度的测量方法通常有重测法、复本法、内在一致性三种。内在一致性也就是克伦巴赫 α 系数，如果一份包含 10 个题目的问卷，其内在一致性较好，那么不论将题目划分为3 :7 或是5 :5 两部分，每部分的得分都应有较高的相关性，计算出来的克伦巴赫 α 系数也越

效度是验证测评有效性和准确性的一把尺子。常见的效度有表面效度、内容效度、结构效度和效标关联效度。表面效度是指测评看起来能不能被目标群体接受，如果题目不符合常理，受测者可能会不回答。内容效度是指测评的内容是不是足够全、足够广。如果测评地理知识，仅仅局限于部分国家而不是包括全世界的地理内容，一定是有问题的。结构效度是指测评和其他相关变量的关联度。结构效度有助于形成新的测评工具，依据过去的测评，通过排列组合构成新的测评工具，结构效度经常被用于测评的验证。

效标效度是最重要的效度，直接和结果挂钩，如绩效、工作成绩、同事评价。相比较其他效度，效标效度能判断测评是否真正有效。效标效度分为预测效度和同时效度。预测效度是指将员工在半年或一年后的工作表现和之前的测试结果做相关度分析，这类方法因为投入的成本比较大，现在国内研究得较少。同时效度用得较多。比如，在验证效度时，将测验成绩和主管的评估进行比较，分析吻合度；将测验成绩直接和当期绩效比较。同时效度还可以考察相同维度在不同测评的相关度。比如，为了验证某个人格测评的效度，会让受测者去做经过验证的人格测评，检验类似维度的相关性如何。好的测评一定是站在巨人的肩膀上，如果超过 0.6 便是一个比较好的结果，因为测评的传承性比较明显。

2. 社会称许性

社会称许性也是常在测评中考察的指标。社会称许性是指在自我评价时，评价者通常希望自己的行为符合社会主流价值观，以获得认可与接纳的内在动机。在心理测量中，社会称许现象大量存在，是影响调查与测量的最主要因素之一。

社会称许性源于人类的一种本能，这不仅是简单的“自我美化”，还是一种深层的“社会适应”行为。在不同文化背景下，社会称许性所指向的具体价值标准会有所差异。

对于社会称许性的构成，心理学家 Paulhus 的研究值得参考，他在前人研究基础上将社会称许性的两个维度分别概括为自我欺骗、印象管理。自我欺骗是指个体认为正确的任何正面偏差反应，是一种个体对自我信念的自我保护，而非有意识地掩饰。印象管理是指个体为了给他人留下一个良好印象而在测验过程中有意识地进行掩饰，是一种有意识地对他人的欺骗性反应。两者的主要区别在于有目的还是无目的，有意识还是无意识，起因不同但结果相同，都是一种掩饰。

如果要较好地控制社会称许性，有两大类办法，包括事前控制和事后控制，如图 2-2 所示。

迫选测验

借鉴投射

图 2-2 社会称许性控制方法

控制社会称许性的第一种方法是迫选测验，也就是前文提到的迫选方式。迫选测验提供了一种使人格测验的虚假反应最小化的可能，凡是有利必有弊，因为迫选测验不基于经典测验理论，所以它的数据不利于做方差分析、因素分析等处理。由于迫选测验的结构在某个维度加分的同时，某个维度必然减分，形成了维度之间的对立，这在科学性上是值得商榷的。

控制社会称许性的第二种办法是内容设计，即编制社会称许性中低、内容含量较高的题目，作答者会被内容吸引而诚实作答，从而避免作假反应。比如，“对一个父亲来说，和蔼可亲比事业有成更重要。”这道题受测者很容易被题中的观点所吸引而真实反映自己的观点。还有

些研究者建议用表面效度低的题目，让受测者看不清题目的测量目的。但是这些题目要掌握好分寸，避免出现偏题怪题。比如，“人口出生率和你的行业有什么关联？”这道题是测前瞻性的，但是容易让人摸不着头脑。

控制社会称许性的第三种方法是借鉴投射。比如，“我的大部分朋友会帮助那些需要帮忙的人”，这道题的逻辑是：我的朋友乐于助人，推出我也乐于助人。但这种题目容易受到个人偏好的影响。在编制这类题目时，要小心题目的边界。

控制社会称许性的第四种办法是事后识别。比如，常见的社会称许性量表可以告诉你某人的社会称许性高，但是它不能对分数的纠正起作用。有些问卷包括校正失真分数的技术，笔者不提倡这些问卷。因为分数的失真在不同的测量情境中有所改变，而一般化的纠正可能会进一步降低测评结果的效度。