自由读 — 第二节系统的均值回归与线性回归

购物车注册

登录

学习中心我的我要投稿下载APP

热门：快消品零售营销老板

第二节系统的均值回归与线性回归

汪吉杰本文出自《效率免费：管理需要知道的常识》

一、平均水平与管理者的自我感觉

一份英国报纸曾刊登了一则震惊读者的报道 : “ 几乎有一半英国学生的成绩低于平均水平。”

不知道你读到上述报道后的第一反应是什么? 是对内容震惊还是对读者的 “ 震惊 ” 而震惊? 这条信息之所以被报道 , 大概是因为人们对平均水平 , 即成绩的算术平均数的基本知识没有了解。

不必嘲笑英国人 , 因为这种忽略了平均水平的常识性错误经常出现。有心理学的调查显示 , 80% 的管理者认为自己的管理水平处在前20%的位置 , 这倒是另类的 “ 二八法则 ” 了。

在实际的工作中 , 我发现事实确实如这个调查所说 , 即管理者对自己的管理能力有着迷之自信 , 甚至有些自恋。

管理者的自恋倾向倒是得到了调查研究的佐证。有研究结果表明 :如果要让下属认为管理者是有魅力的 , 则管理者需要既谦卑 , 又自恋。如果用符合中国文学的表达方式 , 就是管理者要 “ 为人似水 , 做事像山 ”。

在管理者特别是高层管理者中 , “ 为人似水 , 做事像山 ” 是常见的。但这是否可归为 “ 既谦卑 , 又自恋 ” 仍存有疑问。

管理者表现得既谦卑 , 又自恋 , 我觉得这有难度— 除非谦卑是自恋的附属—这显然不是事实。更多时候 , 一个自恋的管理者展现出谦卑是在 “ 作秀 ” , 因为谦卑是内心真诚、纯粹的自然体现— “ 文质彬彬 , 然后君子 ”。

“ 为人似水 , 做事像山 ” 是一种行为方式—这是可以习得的 ,

100

◀ 第四章系统性思考

也是一个好的管理者可以做到的 , 而与谦卑或自恋的性格无关。无论一个管理者是谦卑多一点 , 还是自恋多一些 , 都是可以做到的。平易近人不妨碍做事雷厉风行 , 自恋的管理者同样可以对大家爱心满满。

我更认可的是管理者应该 “ 既谦卑 , 又自信 ” 。谦卑与自信是可以融为一体的。

自恋可以带来自信 , 只是太多自恋带来的自信含有固执的成分 ,而孤芳自赏、刚愎自用是其极端。我们通常认为 , 对艺术创作者来说 ,自恋是有益的。管理者适当自恋也是无妨的。但如果管理者太过自恋 ,就有些不妥了 , 特别是一时取得成功就很自恋的时候。我见过一些自恋型管理者 , 他们常沉迷于自己过往的成功—这些成功更多的是市场快速发展的 “ 幸存者偏差 ” , 会导致自恋型管理者无法看到时代的变化 , 无法跳出自己的成功。他们会听不进劝—这对他们自身以及企业来说都是很危险的。

自信与自恋不同。自信的人敢于直面自己的错误和短板 , 此时他们的谦卑就是自信的展现。虽然难以像子路那样 “ 闻过则喜 ” , 但是知道自己存在不足 , 并非完人 , 就可以把自己每一次犯错、每一次失败作为修炼和成长的机会。群策群力是一个管理者应具备的素养 , 展现出来就是 “ 为人似水 ” 。“ 为人似水 ” 不仅体现在表面上的平易近人或者关怀备至 , 还体现在尊重团队里的人上 : 听取大家的意见 , 发挥每个人的长处。在关键时刻 , 即需要决策或需要推进执行时 , 自信就是能当机立断 , 并为可能出现的所有结果承担责任 , 展现出 “ 做事像山 ” 的风范。

让我们回到主题 , 即管理者要有平均水平的概念 , 认为自己的能力一定高于平均水平是危险的。不要自以为是 , 而要既谦卑又自信—这才是有益的方式。

二、均值回归的由来

19 世纪 , 英国统计学家弗朗西斯 · 高尔顿在研究人类身高的时候 , 发现了一个有趣的现象 : 当父母平均身高高于人群平均值的时候 ,他们孩子的身高会比父母低一点 ; 而当父母平均身高低于人群平均值的时候 , 他们孩子的身高会比父母高一点。

101

效率免费：管理需要知道的常识

也就是说 , 下一代的身高会向均值回归。高尔顿称之为 “ 回归平庸 ” 现象。后来他认识到这是一种统计学现象 , 跟遗传并没有关系 ,故将其称为 “ 均值回归 ”。

第二次世界大战结束后 , 世界经济得到了快速发展 , 人们生活水平的提高使得他们的平均身高上升。父母、孩子身高的均值回归现象依然存在 , 只是回归的平均值也在上升。

均值回归是通过观察身高得来的。而人们通过进一步研究发现 ,人类智商的均值回归现象更为显著 : 当父母平均智商高于人群平均值的时候 , 他们孩子的智商会比他们低一点 ; 而当父母平均智商低于人群平均值的时候 , 他们孩子的智商会比他们高一点。

注意 , 若父母的智商高于人群平均值 , 孩子的智商会比他们低一点。但是否会低于人群平均值 , 则是另外一个统计结果了。此时 , 需要纳入统计范畴的还有孩子的爷爷、太爷爷 … …

均值回归更多的时候是清晰地认识到数据的波动 , 或者说变异 ,在系统未提升前 , 所能获得的异常结果终究还是要回归到均值的。

知道这点很重要!

拿学生的学习成绩来说 , 如果一个学生的能力并没有系统性提升或系统性下降 , 那么其在考试中 “ 超常发挥 ” 或 “ 异常失败 ” 都是有可能的。超常发挥取得的好成绩是不长久的 , 很快会在后续考试中回归均值 ; 同样 , 异常失败也是暂时的 , 不久后也会回归均值。除非是加倍努力 , 或者是彻底 “ 躺平 ” , 否则学生的成绩通常是较为稳定的。

以此类推 , 太多日常生活中的现象都可以用均值回归来表述。“ 江山易改 , 本性难移。” 套用当下流行的话 : 能改变自己的是神人 , 而想着改变别人的人都是愚蠢的。

三、系统理论中的均值回归

均值回归在企业的质量管理实践中最为常见。对于质量体系水平进行客观评价 , 是必须基于系统思想的 , 即要通过统计数据 , 来确认体系处在什么水平。而这个 “ 水平” 就是均值回归会到达的水平 , 特别是当出现了异常数值时 , 需要确认的是这个异常数值是由明显的错误导致的 ,还是由系统控制的均值水平下降导致的。

102

◀ 第四章系统性思考

下面这个关于体外诊断试剂产品的质量控制实际案例 , 主要想说明的是在质量系统控制中 , 我们可以明显感受到均值回归的力量 , 即测量值其实一直围绕均值起起伏伏 , 上下波动实属常态。

用一个体外诊断试剂产品检测低值质控品和高值质控品 , 得到一年批次检测结果 (T/C 值) , 以此来判断该产品的质量控制水平是否处于可控状态 , 即系统偏差是否在标准范围内 , 从而判断该产品的准确度(平均值与靶值偏差) 、精密度 ( 产品自身离散程度) 是否符合产品标准。这里要关注的就是该产品在经统计分析后的均值回归结果 , 以及产品波动的系统置信范围 , 以此来判断其是否符合产品策划的要求。

图 4. 5 是对低值质控品测量结果的统计分析。从统计结果上看 , μ ( 均值) 存在对靶值的偏离 0. 2% , 多个检测结果无法落在± 5% 范围内 , 甚至有超出- 8% 的不合格情况。整个系统的 3σ 置信区间是99. 05% , 而不是期望的 99. 75% 。在图中 , 我们可以看到一个数值超出了 3σ 范围 , 形成异常数值。以此 , 可以判断对于低值质控点来说 ,该产品的系统偏差已经无法满足标准范围要求 , 需要进行系统性改进了。

靶值： 0.1296

测试平均值：

μ=0.1293偏离：0.2%

3σ置信区间： 99.05%

2σ置信区间：

85.70%

0 20 40 60 80 100 120

T/C

靶值*0.95（- 5%）

平均值+3标准差靶值*1.08（8%）

平均值- 3标准差靶值*0.92（- 8%）

靶值*1.05（5%）平均值

图 4. 5 低值质控品测量结果

图 4. 6 是对高值质控品测量结果的统计分析。虽然 μ ( 均值) 存在对靶值的偏离 1. 9% , 但因整个系统偏差小 , 3σ 置信区间是99. 99% , 最终的质控结果是优于低值质控品的 , 没有不合格情况 ( 没有超出靶值±8%) , 也没有出现异常数值。

四、人性的均值回归

季羡林先生曾感慨道 : “ 坏人 , 同一切有毒的动植物一样 , 是并

103

效率免费：管理需要知道的常识

T/C

靶值*1.08（8%）

平均值+3标准差靶值*0.92（- 8%）

平均值- 3标准差

平均值+2标准差

靶值*1.05（5%）平均值- 2标准差

靶值*0.95（- 5%）平均值

图 4. 6 高值质控品测量结果

不知道自己是坏人的 , 是毒物的。我还发现 , 坏人是不会改好的。这有点像形而上学了。但是 , 我却没有办法。天下哪里会有不变的事物呢? … … ”

王朔在《一点正经没有》里说 : “ 你要小心这世上的坏人 , 他们都憋着劲教你学好 , 然后好由他们使坏。” 好人的退让不会让坏人惭愧 , 相反 , 他们只会得寸进尺 , 让你知道什么是没有下限。

暂不论好人、坏人是用什么标准来判定的 , 季羡林先生和王朔通过观察生活得来的感受 , 确实展示了人性均值回归的现实。

基于此 , 我们要和善良的人交朋友。孔子说 : “ 友直 , 友谅 , 友多闻 , 益矣。” 这个劝告从统计学和心理学上解释都是正确的 , 是对均值回归的正常应用。善良的人不是只对特定的人善良 , 而是其本质善良。

在生活中 , 一定要避免落入一个陷阱 : 一个其他人眼中的坏人 ,亦如 “ 友便辟 , 友善柔 , 友便佞 , 损矣 ” , 对你却很好—这是一件非常危险的事。要知道 , “ 对你好 ” 这件事大概率处在这个坏人所在统计限度的边缘 , 其均值回归后就会原形毕露。

“ 当我们凶狠地对待这个世界时 , 这个世界突然变得温文尔雅了。” 这句话说得容易 , 却没有考虑到均值回归的存在 , 因为一个温文尔雅的人是很难凶狠起来的。

“ 路遥知马力 , 日久见人心。” 时间或许能最终证明人的善恶 , 只是可能过程太过漫长。此时 , 我想起了白居易的《放言五首 (其三) 》:

赠君一法决狐疑 , 不用钻龟与祝蓍。

试玉要烧三日满 , 辨材须待七年期。

周公恐惧流言后 , 王莽谦恭未篡时。

104

◀ 第四章系统性思考

向使当初身便死 , 一生真伪复谁知。

五、系统理论的线性回归

我小时候在赣北山区生活。在夏天 , 如果看到田里蜻蜓飞得很低 ,燕子也飞得很低 , 河里的鱼在水面吐泡 , 我就知道快下雨了。而且确实不久后就下雨了。

田里蜻蜓、燕子低飞 , 河里的鱼在水面吐泡 , 这是我观察到的现象 ; 过了一会儿开始下雨 , 这是结果。现象和结果之间是有相关性的 ,却不能被判定为有因果关系。这是因为 , 夏天的雨来得快 , 去得也快。

很多时候 , 下雨前并没有出现蜻蜓、燕子低飞 , 鱼在水面吐泡的现象。

在统计学中 , 我们把现象和结果之间的关系称为相关性。现象加强 , 结果也加强 , 为正相关 ; 现象加强 , 结果却减弱 , 为负相关。现象变化大 , 结果变化也大 , 被称为强相关 ; 现象变化大 , 结果变化却小 , 被称为弱相关。当然 , 这个表述并不严谨 , 但以此理解相关性足够了。

研究现象与结果之间的相关性时 , 线性回归是最简单的方法。为了表述的转换 , 我将现象称为自变量 , 用 “ x ” 表示 ; 将结果称为因变量 , 用 “y ” 表示。

线性回归可以帮助我们寻找各要素之间的相关性 , 协助我们理解并识别自变量和因变量 , 同时确定自变量对因变量相关性的权重。

简单的线性回归就可以协助我们找到自变量和因变量之间的关联性 , 无须建立复杂的回归模型。如图 4. 7 所示 , 其简单扼要地说明了简单线性回归的假定条件和意义。

当对于自变量 x 在多次可控情况下的测得值 x1 、x2 、x3 等 , 因变量 y 值被测得的结果呈正态分布时 , x 与 y 之间可以通过简单的线性回归 , 建立一元一次线性方程 :

y = α+βx

线性方程建立后 , 可通过相关系数 R2 来验证 x 和 y 之间的相关性。

在变异管理中 , 无论是定性的 ( 判断是、否) 还是定量的 ( 一定范围内的连续数值) , 均可以通过线性回归的方式 , 建立起可量化的

105

效率免费：管理需要知道的常识

图 4. 7 简单线性回归的假定条件和意义

模型。

如果你一时没明白上面的内容是什么意思 , 也无妨 , 这里只需要纠正一个不是很科学的观念 , 即因果论。这些人为认定的因和果之间可能有一定的相关性 , 但不是必然的。即使发生了 , 也是偶然的必然。

线性回归在商务与经济统计中得到了广泛应用 , 杰弗里 · D. 坎姆等著的《商业数据分析》[7] , 以及戴维 · R. 安德森、丹尼斯 ·J. 斯威尼等著的《商务与经济统计》[8] 均对线性回归进行了较为全面且系统的阐述。

线性回归可以帮助我们寻找各要素之间的相关性 , 协助我们理解并识别自变量和因变量 , 同时确定自变量与因变量之间相关性的权重。对这部分知识的应用 , 需要更为专业的训练。

六、线性回归的经典案例

葡萄种植地的气候最终会影响葡萄酒的品质—这是一个常识。但即使是世界上最杰出的品酒大师 , 在没有亲自品尝之前 , 也是不敢仅凭气象数据下结论的。

计量经济学家奥利 · 阿什菲尔特是个爱喝葡萄酒、收藏葡萄酒的人。此前 , 他一直从法国波尔多地区大量购买红葡萄酒 , 有时候这种酒的味道很棒 , 配得上它的高价 , 但更多的时候不尽如人意。阿什菲

106

◀ 第四章系统性思考

尔特想知道 , 为什么他花同样的价钱买来的酒 , 味道却不尽相同?

通过研究 1952—1980 年波尔多地区的气象资料 , 对照拍卖行的波尔多葡萄酒价格曲线 , 阿什菲尔特利用计量经济学上的横截面数据进行了线性回归分析 , 推导出葡萄酒品质与预估葡萄酒价格之间的线性回归公式 :

葡萄酒品质 = 12. 145+0. 00117×冬季降水量 ( 上年 10 月至本年 3 月初的降水量) +0. 0614×葡萄

生长期平均气温-0. 00386×采收期降水量

(8 月至 9 月的降水量)

葡萄酒价格被解释变量 = 0. 024×酒龄 ( 存放年数) +

0. 608×葡萄生长期平均气温-

0. 0038×采收期降水量 (8 月至 9 月的降水量) +0. 00115×冬季降水量 ( 上年 10 月至本年 3 月初的降水量)

从上面两个公式中能看出 , 葡萄生长期平均气温的权重最大。阿什菲尔特对葡萄酒公式做过一些解释—热量和早期的灌溉是葡萄正常成熟的必要条件。

理论上 , 把波尔多任何产区、任何年份的气象数据代入这个公式 ,都能推算出该产区该年份的葡萄酒品质 , 并估算出价格 , 用不着花费时间和金钱去波尔多品尝期酒。

通过上述公式 , 阿什菲尔特曾在 1989 年的波尔多葡萄酒刚转入橡木桶不久 , 就推算出 1989 年的品质将超过 1961 年 ; 1990 年葡萄采收不久后 , 阿什菲尔特又算出 1990 年的品质将超过 1989 年 , 并以此估算出了葡萄酒的价格。后来的事实证明 , 阿什菲尔特当时的预测确实准得吓人!

耶鲁大学法学院教授伊恩 · 艾瑞斯在《超级数字天才》[9] 一书中 , 把阿什菲尔特与发明了 “ 棒球得分公式 ” 的比尔 ·詹姆斯等数字怪才一起列入了 “ 超级数字天才 ” 名单。书中写道 : “ 笔者查阅过拉图尔酒庄近年的葡萄酒拍卖价格 , 1989 年葡萄酒的卖价的确是 1986 年的两倍多 , 而 1990 年葡萄酒的卖价更高。罗伯特 · 帕克 ( 美国著名酒评家) , 接受现实吧。”

107

效率免费：管理需要知道的常识