建商住宅规画考量不够周全,两房产品过多,较大与较小则不足。图/联合报系资料照片
因为,当你处理的数据是与人类特征相关的数据时,数据通常会呈现「常态分布」,此时不同的平均值就会十分相近。
如果你画一条线来表示常态分布的话,将会得到一条钟形曲线,而该数据的算数平均数、中位数和众数都会落在同一点。因此,任一平均值都和其他两种平均值一样能够描述一群人的身高。
但在描述一群人的钱包深度时,这些平均值的意义就不一样了。若你将某个城市中所有家庭的年收入都列出来的话,可能会发现数字落在「没多少钱」与「2万英镑」之间,而且你可能会注意到有些数字特别大。大约有95%的收入会低于5,000英镑,画成曲线时,这些人非常靠近曲线的左方。
本文出自《统计操控的真相与谎言》因此,这条曲线看起来并不对称而像是偏斜的钟。它的形状有点像是儿童溜滑梯,左侧为楼梯急遽上升到高峰,接著到右侧滑梯处慢慢倾斜向下。
此数据的算数平均数和中位数将会相距甚远。你可以清楚注意到,在这种数据中,其中一种「年平均值」(算数平均值)和另一种「年平均值」(中位数)之间的比较会有「效度」(validity)上的差别。
现实运用太简化的「平均」
此外,还有另一种不存在的小数字,它的缺席也同样会使研究结果出现大问题。这个数字告诉我们研究中的平均值来自多大的范围,或者有哪些偏差值。
一般来说,无论一个研究是否明确指出平均值种类是算数平均数还是中位数,平均值都是一种过于简化的数字,而过于简化比毫无价值更加糟糕。「完全不了解」远好过于「错误认知」,一知半解是一件很危险的事。
举例来说,美国近来有太多住宅在规划时,都按照统计学上的家庭平均人数3.6人来进行设计。把这个数字放进真实世界中,代表的就是一个家庭由三或四人组成,也就是住宅需要两间卧室。尽管三至四人的家庭是「平均值」,但在实际上却只占所有家庭的少数。
建商指出这是「我们为平均的家庭建造平均的房屋」,但他们直接忽略了大多数家庭的人数其实是比平均来得多或少的。这使得建商在美国某些区域建造了过多的两卧住宅,而相对较大与较小的住宅则明显不足。
这就是一个具有误导性的不完整统计数据所造成的高昂代价。在3.6这个具有权威性又精确到令人信服的数字面前,常识一败涂地。
(本文出自《统计操控的真相与谎言》,作者:德瑞尔.赫夫 译者:闻翊均)