第二节系统的均值回归与线性回归
一、平均水平与管理者的自我感觉
一份英国报纸曾刊登了一则震惊读者的报道 : “ 几乎有一半英国学生的成绩低于平均水平。”
不知道你读到上述报道后的第一反应是什么? 是对内容震惊还是对读者的 “ 震惊 ” 而震惊? 这条信息之所以被报道 , 大概是因为人们对平均水平 , 即成绩的算术平均数的基本知识没有了解。
不必嘲笑英国人 , 因为这种忽略了平均水平的常识性错误经常出现 。有心理学的调查显示 , 80% 的管理者认为自己的管理水平处在前20%的位置 , 这倒是另类的 “ 二八法则 ” 了。
在实际的工作中 , 我发现事实确实如这个调查所说 , 即管理者对自己的管理能力有着迷之自信 , 甚至有些自恋。
管理者的自恋倾向倒是得到了调查研究的佐证 。有研究结果表明 :如果要让下属认为管理者是有魅力的 , 则管理者需要既谦卑 , 又自恋。如果用符合中国文学的表达方式 , 就是管理者要 “ 为人似水 , 做事像山 ”。
在管理者特别是高层管理者中 , “ 为人似水 , 做事像山 ” 是常见的 。但这是否可归为 “ 既谦卑 , 又自恋 ” 仍存有疑问。
管理者表现得既谦卑 , 又自恋 , 我觉得这有难度— 除非谦卑是自恋的附属—这显然不是事实 。更多时候 , 一个自恋的管理者展现出谦卑是在 “ 作秀 ” , 因为谦卑 是 内 心 真 诚 、 纯 粹 的 自 然 体 现— “ 文质彬彬 , 然后君子 ”。
“ 为人似水 , 做事像山 ” 是一种行为方式—这是可以习得的 ,
100
◀ 第四章 系统性思考
也是一个好的管理者可以做到的 , 而与谦卑或自恋的性格无关 。无论一个管理者是谦卑多一点 , 还是自恋多一些 , 都是可以做到的 。平易近人不妨碍做事雷厉风行 , 自恋的管理者同样可以对大家爱心满满。
我更认可的是管理者应该 “ 既谦卑 , 又自信 ” 。谦卑与自信是可以融为一体的。
自恋可以带来自信 , 只是太多自恋带来的自信含有固执的成分 ,而孤芳自赏 、刚愎自用是其极端 。我们通常认为 , 对艺术创作者来说 ,自恋是有益的 。管理者适当自恋也是无妨的 。但如果管理者太过自恋 ,就有些不妥了 , 特别是一时取得成功就很自恋的时候 。我见过一些自恋型管理者 , 他们常沉迷于自己过往的成功—这些成功更多的是市场快速发展的 “ 幸存者偏差 ” , 会导致自恋型管理者无法看到时代的变化 , 无法跳出自己的成功 。他们会听不进劝—这对他们自身以及企业来说都是很危险的。
自信与自恋不同 。 自信的人敢于直面自己的错误和短板 , 此时他们的谦卑就是自信的展现 。虽然难以像子路那样 “ 闻过则喜 ” , 但是知道自己存在不足 , 并非完人 , 就可以把自己每一次犯错 、每一次失败作为修炼和成长的机会 。群策群力是一个管理者应具备的素养 , 展现出来就是 “ 为人似水 ” 。“ 为人似水 ” 不仅体现在表面上的平易近人或者关怀备至 , 还体现在尊重团队里的人上 : 听取大家的意见 , 发挥每个人的长处 。在关键时刻 , 即需要决策或需要推进执行时 , 自信就是能当机立断 , 并为可能出现的所有结果承担责任 , 展现出 “ 做事像山 ” 的风范。
让我们回到主题 , 即管理者要有平均水平的概念 , 认为自己的能力一定 高 于 平 均 水 平 是 危 险 的 。 不 要 自 以 为 是 , 而 要 既 谦 卑 又 自信—这才是有益的方式。
二、均值回归的由来
19 世纪 , 英国统计学家弗朗西斯 · 高尔顿在研究人类身高的时候 , 发现了一个有趣的现象 : 当父母平均身高高于人群平均值的时候 ,他们孩子的身高会比父母低一点 ; 而当父母平均身高低于人群平均值的时候 , 他们孩子的身高会比父母高一点。
101

效率免费:管理需要知道的常识
也就是说 , 下一代的身高会向均值回归 。高尔顿称之为 “ 回归平庸 ” 现象 。后来他认识到这是一种统计学现象 , 跟遗传并没有关系 ,故将其称为 “ 均值回归 ”。
第二次世界大战结束后 , 世界经济得到了快速发展 , 人们生活水平的提高使得他们的平均身高上升 。父母 、孩子身高的均值回归现象依然存在 , 只是回归的平均值也在上升。
均值回归是通过观察身高得来的 。 而人们通过进一步研究发现 ,人类智商的均值回归现象更为显著 : 当父母平均智商高于人群平均值的时候 , 他们孩子的智商会比他们低一点 ; 而当父母平均智商低于人群平均值的时候 , 他们孩子的智商会比他们高一点。
注意 , 若父母的智商高于人群平均值 , 孩子的智商会比他们低一点 。但是否会低于人群平均值 , 则是另外一个统计结果了 。此时 , 需要纳入统计范畴的还有孩子的爷爷 、太爷爷 … …
均值回归更多的时候是清晰地认识到数据的波动 , 或者说变异 ,在系统未提升前 , 所能获得的异常结果终究还是要回归到均值的。
知道这点很重要!
拿学生的学习成绩来说 , 如果一个学生的能力并没有系统性提升或系统性下降 , 那么其在考试中 “ 超常发挥 ” 或 “ 异常失败 ” 都是有可能的 。超常发挥取得的好成绩是不长久的 , 很快会在后续考试中回归均值 ; 同样 , 异常失败也是暂时的 , 不久后也会回归均值 。 除非是加倍努力 , 或者是彻底 “ 躺平 ” , 否则学生的成绩通常是较为稳定的。
以此类推 , 太多日常生活中的现象都可以用均值回归来表述 。“ 江山易改 , 本性难移。” 套用当下流行的话 : 能改变自己的是神人 , 而想着改变别人的人都是愚蠢的。
三、 系统理论中的均值回归
均值回归在企业的质量管理实践中最为常见。对于质量体系水平进行客观评价 , 是必须基于系统思想的 , 即要通过统计数据 , 来确认体系处在什么水平。而这个 “ 水平” 就是均值回归会到达的水平 , 特别是当出现了异常数值时 , 需要确认的是这个异常数值是由明显的错误导致的 ,还是由系统控制的均值水平下降导致的。
102
◀ 第四章 系统性思考
下面这个关于体外诊断试剂产品的质量控制实际案例 , 主要想说明的是在质量系统控制中 , 我们可以明显感受到均值回归的力量 , 即测量值其实一直围绕均值起起伏伏 , 上下波动实属常态。
用一个体外诊断试剂产品检测低值质控品和高值质控品 , 得到一年批次检测结果 (T/C 值) , 以此来判断该产品的质量控制水平是否处于可控状态 , 即系统偏差是否在标准范围内 , 从而判断该产品的准确度(平均值与靶值偏差) 、精密度 ( 产品自身离散程度) 是否符合产品标准。这里要关注的就是该产品在经统计分析后的均值回归结果 , 以及产品波动的系统置信范围 , 以此来判断其是否符合产品策划的要求。
图 4. 5 是对低值质控品测量结果的统计分析 。从统计结果上看 , μ ( 均值) 存在对靶值的偏离 0. 2% , 多个检测结果无法落在± 5% 范围内 , 甚 至 有 超 出- 8% 的 不 合 格 情 况 。 整 个 系 统 的 3σ 置 信 区 间 是99. 05% , 而不是期望的 99. 75% 。在图中 , 我们可以看到一个数值超出了 3σ 范围 , 形成异常数值 。 以此 , 可以判断对于低值质控点来说 ,该产品的系统偏差已经无法满足标准范围要求 , 需要进行系统性改进了。

| 靶值: 0.1296 测试平均值: μ=0.1293偏离:0.2% 3σ置信区间: 99.05% 2σ置信区间: 85.70% |
 


|

|
0 20 40 60 80 100 120
T/C
靶值*0.95(- 5%) | 
| 平均值+3标准差靶值*1.08(8%) | 
| 平均值- 3标准差 靶值*0.92(- 8%) | 
| 靶值*1.05(5%)平均值 |
图 4. 5 低值质控品测量结果
图 4. 6 是对高值质控品测量结果的统计分析 。虽然 μ ( 均值) 存在对 靶 值 的 偏 离 1. 9% , 但 因 整 个 系 统 偏 差 小 , 3σ 置 信 区 间 是99. 99% , 最终的质控结果是优于低值质控品的 , 没有不合格情况 ( 没有超出靶值±8%) , 也没有出现异常数值。
四、人性的均值回归
季羡林先生曾感慨道 : “ 坏人 , 同一切有毒的动植物一样 , 是并
103

效率免费:管理需要知道的常识

T/C
靶值*1.08(8%)
| 平均值+3标准差 靶值*0.92(- 8%) | 平均值- 3标准差 平均值+2标准差
| 
| 靶值*1.05(5%)平均值- 2标准差 | 靶值*0.95(- 5%) 平均值
|
图 4. 6 高值质控品测量结果
不知道自己是坏人 的 , 是 毒 物 的 。 我 还 发 现 , 坏 人 是 不 会 改 好 的。这有点像形而上学 了 。但是 , 我却没有办法 。 天下哪里会有不变的事物呢? … … ”
王朔在《 一点正经没有》 里说 : “ 你要小心这世上的坏人 , 他们都憋着劲教你学好 , 然后好由他们使坏。” 好人的退让不会让坏人惭愧 , 相反 , 他们只会得寸进尺 , 让你知道什么是没有下限。
暂不论好人 、坏人是用什么标准来判定的 , 季羡林先生和王朔通过观察生活得来的感受 , 确实展示了人性均值回归的现实。
基于此 , 我们要和善良的人交朋友 。孔子说 : “ 友直 , 友谅 , 友多闻 , 益矣。” 这个劝告从统计学和心理学上解释都是正确的 , 是对均值回归的正常应用 。善良的人不是只对特定的人善良 , 而是其本质善良。
在生活中 , 一定要避免落入一个陷阱 : 一个其他人眼中的坏人 ,亦如 “ 友便辟 , 友善柔 , 友便佞 , 损矣 ” , 对你却很好—这是一件非常危险的事 。要知道 , “ 对你好 ” 这件事大概率处在这个坏人所在统计限度的边缘 , 其均值回归后就会原形毕露。
“ 当我们凶狠地对待这个世界时 , 这个世界突然变得温文尔雅了。” 这句话说得容易 , 却没有考虑到均值回归的存在 , 因为一个温文尔雅的人是很难凶狠起来的。
“ 路遥知马力 , 日久见人心。” 时间或许能最终证明人的善恶 , 只是可能过程太过漫长。此时 , 我想起了白居易的《放言五首 (其三) 》:
赠君一法决狐疑 , 不用钻龟与祝蓍。
试玉要烧三日满 , 辨材须待七年期。
周公恐惧流言后 , 王莽谦恭未篡时。
104
◀ 第四章 系统性思考
向使当初身便死 , 一生真伪复谁知。
五、系统理论的线性回归
我小时候在赣北山区生活 。在夏天 , 如果看到田里蜻蜓飞得很低 ,燕子也飞得很低 , 河里的鱼在水面吐泡 , 我就知道快下雨了 。 而且确实不久后就下雨了。
田里蜻蜓 、燕子低飞 , 河里的鱼在水面吐泡 , 这是我观察到的现象 ; 过了一会儿开始下雨 , 这是结果 。现象和结果之间是有相关性的 ,却不能被判定为有因果关系 。这是因为 , 夏天的雨来得快 , 去得也快。
很多时候 , 下雨前并没有出现蜻蜓 、燕子低飞 , 鱼在水面吐泡的现象。
在统计学中 , 我们把现象和结果之间的关系称为相关性 。现象加强 , 结果也加强 , 为正相关 ; 现象加强 , 结果却减弱 , 为负相关 。现象变化大 , 结果变化也大 , 被称为强相关 ; 现象变化大 , 结果变化却小 , 被称为弱相关 。 当然 , 这个表述并不严谨 , 但以此理解相关性足够了。
研究现象与结果之间的相关性时 , 线性回归是最简单的方法 。 为了表述的转换 , 我将现象称为自变量 , 用 “ x ” 表示 ; 将结果称为因变量 , 用 “y ” 表示。
线性回归可以帮助我们寻找各要素之间的相关性 , 协助我们理解并识别自变量和因变量 , 同时确定自变量对因变量相关性的权重。
简单的线性回归就可以协助我们找到自变量和因变量之间的关联性 , 无须建立复杂的回归模型 。如图 4. 7 所示 , 其简单扼要地说明了简单线性回归的假定条件和意义。
当对于自变量 x 在多次可控情况下的测得值 x1 、x2 、x3 等 , 因变量 y 值被测得的结果呈正态分布时 , x 与 y 之间可以通过简单的线性回归 , 建立一元一次线性方程 :
y = α+βx
线性方程建立后 , 可通过相关 系 数 R2 来 验 证 x 和 y 之 间 的 相关性。
在变异管理中 , 无论是定性的 ( 判断是 、否) 还是定量的 ( 一定范围内的连续数值) , 均可以通过线性回归的方式 , 建立起可量化的
105

效率免费:管理需要知道的常识

图 4. 7 简单线性回归的假定条件和意义
模型。
如果你一时没明白上面的内容是什么意思 , 也无妨 , 这里只需要纠正一个不是很科学的观念 , 即因果论 。这些人为认定的因和果之间可能有一定的相关性 , 但不是必然的 。 即使发生了 , 也是偶然的必然。
线性回归在商务与经济统计中得到了广泛应用 , 杰弗里 · D. 坎姆等著的《 商业数据分析》[7] , 以及戴维 · R. 安德森 、丹尼斯 ·J. 斯威尼等著的《 商务与经济统计》[8] 均对线性回归进行了较为全面且系统的阐述。
线性回归可以帮助我们寻找各要素之间的相关性 , 协助我们理解并识别自变量和因变量 , 同时确定自变量与因变量之间相关性的权重。对这部分知识的应用 , 需要更为专业的训练。
六、线性回归的经典案例
葡萄种植地的气候最终会影响葡萄酒的品质—这是一个常识。但即使是世界上最杰出的品酒大师 , 在没有亲自品尝之前 , 也是不敢仅凭气象数据下结论的。
计量经济学家奥利 · 阿什菲尔特是个爱喝葡萄酒 、 收藏葡萄酒的人 。此前 , 他一直从法国波尔多地区大量购买红葡萄酒 , 有时候这种酒的味道很棒 , 配得上它的高价 , 但更多的时候不尽如人意 。 阿什菲
106
◀ 第四章 系统性思考
尔特想知道 , 为什么他花同样的价钱买来的酒 , 味道却不尽相同?
通过研究 1952—1980 年波尔多地区的气象资料 , 对照拍卖行的波尔多葡萄酒价格曲线 , 阿什菲尔特利用计量经济学上的横截面数据进行了线性回归分析 , 推导出葡萄酒品质与预估葡萄酒价格之间的线性回归公式 :
葡萄酒品质 = 12. 145+0. 00117×冬季降水量 ( 上年 10 月至本年 3 月初的降水量) +0. 0614×葡萄
生长期平均气温-0. 00386×采收期降水量
(8 月至 9 月的降水量)
葡萄酒价格被解释变量 = 0. 024×酒龄 ( 存放年数) +
0. 608×葡萄生长期平均气温-
0. 0038×采收期降水量 (8 月至 9 月的降水量) +0. 00115×冬季降水量 ( 上年 10 月至本年 3 月初的降水量)
从上面两个公式中能看出 , 葡萄生长期平均气温的权重最大 。 阿什菲尔特对葡萄酒公式做过一些解释—热量和早期的灌溉是葡萄正常成熟的必要条件。
理论上 , 把波尔多任何产区 、任何年份的气象数据代入这个公式 ,都能推算出该产区该年份的葡萄酒品质 , 并估算出价格 , 用不着花费时间和金钱去波尔多品尝期酒。
通过上述公式 , 阿什菲尔特曾在 1989 年的波尔多葡萄酒刚转入橡木桶不久 , 就推算出 1989 年的品质将超过 1961 年 ; 1990 年葡萄采收不久后 , 阿什菲尔特又算出 1990 年的品质将超过 1989 年 , 并以此估算出了葡萄酒的价格 。后来的事实证明 , 阿什菲尔特当时的预测确实准得吓人!
耶鲁大学法学院教授伊恩 · 艾瑞斯在 《 超级数字天才》[9] 一书中 , 把阿什菲尔特与发明了 “ 棒球得分公式 ” 的比尔 ·詹姆斯等数字怪才一起列入了 “ 超级数字天才 ” 名单 。 书中写道 : “ 笔者查阅过拉图尔酒庄近年的葡萄酒拍卖价格 , 1989 年葡萄酒的卖价的确是 1986 年的两倍多 , 而 1990 年葡萄酒的卖价更高 。 罗伯特 · 帕克 ( 美国著名酒评家) , 接受现实吧。”
107

效率免费:管理需要知道的常识