1. 分布为事件或价值分配概率。
  2. 各种统计量将分布中包含的信息压缩为单个数值,例如均值,分布的平均值。
  3. 均值之外的第二个重要统计量是方差,可以衡量一个分布的离散程度,也就是数据与均值之间距离的平方的平均值

正态分布

分布以数学的方式刻画变量的变差(在某个类型内部的差异)和多样性(不同类型之间的差异)​,将变量表示为在数值上或类别上定义的概率分布。

我们可以通过中心极限定理(Central Limit Theorem)来解释正态分布的普遍性。中心极限定理告诉我们,只要把随机变量加总或求其平均值,就可以期望获得正态分布。

当然,并不是所有事件的规模(大小)都是正态分布的。长尾分布(幂律分布)主要由很小的事件组成,也包括极少数非常巨大的大型事件。

了解系统是否由于多种原因产生正态分布或长尾分布是非常重要的。

分布知识对设计也很重要。正态分布意味着不会有太大的偏差。
对分布的理解也有利于指导行动。

结构

正态分布是对称的。
所有正态分布的图形看上去都是相似的,大约68%的结果在均值的一个标准差内,大约95%的结果在两个标准差内,并且超过99%的结果在三个标准差内。
正态分布允许任何大小的结果或事件,不过“大”事件是非常罕见的,与均值距离超过五个标准差的事件发生的概率为200万分之一。

逻辑

中心极限定律:
只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一小部分随机变量贡献了大部分变差,那N≥20个随机变量的和就近似一个正态分布。

中心极限定理一个非常重要的特征是,随机变量本身不一定是正态分布的。它们可以有任何分布,只要每一个随机变量都具有有限的方差,并且它们中的任何一小部分随机变量都不贡献大部分方差。

功能
  1. 平方根法则 The square root rules
    $$
    N个相互独立的随机变量,都具有标准差\sigma
    $$
    $$
    对这些随机变量的值的标准差\sigma_{\mu},有:\sigma_{\mu} = \frac{\sigma}{\sqrt{N}}
    $$
    $$
    对这些随机变量综合的标准差\sigma_{\sum},有:\sigma_{\sum} = \sigma\sqrt{N}
    $$
    (这个公式有点奇怪)

均值的标准差公式表明,大的总体的标准差要比小的总体的标准差低得多。由此可以推断,在小的群体中应该会观察到更多的好事和更多的坏事。

如果不考虑样本量,直接根据离群值(异常值)推断因果关系可能会导致相当糟糕的政策行为。

  1. 显著性检验
    如果经验均值与假设均值之间的偏差了超过两个标准差(95%),那么社会科学家就会拒绝这两种均值相同的假设。

  2. 六西格玛方法 six-sigma
    六西格玛方法降低了标准差,这样即使出现了6个标准差的误差,也可以避免出现故障。而6个标准差的含义是,误差率仅为十亿分之二。实际使用的阈值假设1.5个标准差的出现是不可避免的。因此,一个六西格玛事件实际上对应于一个四个半西格玛事件,这时允许的误差率大约为三百万分之一。


对数正态分布

一个对数正态分布的尾部长度取决于随机变量相乘的方差。如果它们的方差很小,尾巴就会很短,如果方差很大,尾巴就可能会很长。

如果每一年的绩效都是相互独立且随机的,那么根据员工绩效按百分比加薪,就会产生一个对数正态分布。即使后来的表现相同,未来几年的收入差距也会加剧。尽管绩效完全相同,不平等也会导致更大的不平等。(邓)

如果企业按绝对数额分配加薪,那么两名绩效相同的员工将获得相同的加薪,由此产生的收入分布将接近正态分布。(毛)


正态分布小结

正态分布可以用均值和标准差来表示。中心极限定理说明,当我们将有限方差的独立随机变量相加或求平均值时,正态分布是如何产生的。

小的群体更有可能呈现异常事件,如果缺乏对这类事件的洞察力,就会做出不正确的推断并采取不明智的行动。

对数正态分布只取正值,有更长的尾巴,意味着更大的事件和更多非常小的事件。当高方差的随机变量相乘时,尾部会变得更长。

长尾分布的可预测性较差,而正态分布则意味着很强的规律性。

我们可能更希望随机冲击相加,而不是相乘,以减少发生很大事件的可能性。(政策)


25-4-22 10:37

幂律分布

产生幂律分布要求非独立性,通常以正反馈的形式出现。
社会学家罗伯特·默顿(Robert Merton)把这种已经拥有更多的人未来也能够得到更多的现象称为马太效应(Matthew effect),正如《圣经》中所说:​“凡有的,还要加给他,叫他有余;凡没有的,连他所有的,也要夺去。​”​(马太福音25:29)

结构

在幂律分布中,事件发生的概率与事件大小的某个负指数成比例。
例如:y=1/x
在这个幂律分布中,一个事件的概率与其大小成反比:事件越大,发生的可能性越小。因此,在幂律分布中,小事件的数量要比大事件要多得多。
$$
一个定义在区间[x_{min},\infty)上的幂律分布可以写成:P(x)=Cx^{-a}
$$
$$
其中,指数a>1决定了尾部的长度,同时常数项C=(a-1)x_{min}^{a-1}确保总概率的分布。
$$
幂律中指数的大小决定了大事件的可能性和大小。
对于2或更小的指数,幂律分布缺乏一个可明确定义的均值。例如,从指数为1.5的幂律分布中抽取出来的数据均值永远不会收敛。

大事件的可能性将幂律分布与正态分布区分开来,因为在正态分布中,我们实际上从未见过大事件,而在幂律分布中,大事件虽然也很少见,但是它们发生的频率足以引起注意和准备。

[!幂律分布与正态分布的区别]
幂律分布有明确的定义,不是每一个长尾分布都是幂律分布。要想快速地检验某个分布是不是幂律分布,可以用双对数坐标系把该分布画出来:双对数坐标系可以将事件大小及其概率转换为相应的对数值,并将幂律分布转换为直线。

换句话说,在双对数坐标系中,自始至终都呈直线的图形就是幂律分布的证据,而一开始是直线然后逐渐下降的图形则与对数正态分布(或指数分布)相对应。对数正态分布图形向下弯曲的速率取决于产生分布的变量的变化。当我们增大对数正态分布的方差时,对数正态分布的尾部增大,从而使在双对数坐标系中的图形更接近线性。

奇普夫定律
对于指数为2的幂律分布(a=2),事件的等级排列序号乘以它的大小(概率)等于常数,即:
事件等级×事件大小=常数

例如,单词符合齐普夫定律,最常见的英语单词the出现的频率为7%,第二最常见的英语单词of出现的频率为3.5%。请注意,of的等级排列序号2乘以频率3.5%,恰恰等于7%。

逻辑

如果没有适当的模型,幂律分布就只是一种无法解释的模式。

  1. 优先连接模型 (preferential attachment model)
    优先连接模型有助于解释为什么网络链接、城市规模、企业规模、图书销量和学术引用数量的分布都是幂律分布。
    比如,一个行动(比如一个人购买了一本书)会增加其他人也这样做的可能性。
    如果从某家企业购买商品的概率与它在当前市场的份额成正比,同时如果新企业进入市场的概率较低,那么优先连接模型预测企业规模的分布将是幂律分布。
    同样的逻辑也适用于图书销量、音乐下载量和城市发展。

  2. 自组织临界模型 (self-organized criticality model)
    通过在系统中建立相互依赖关系的过程产生幂律分布,直到系统达到临界状态为止。例如:

沙堆模型 (sand pile model)
假设有人将沙粒从距桌面几十厘米的地方洒落到桌子上。随着沙粒不断增多,一个沙堆开始形成。最终,沙子的堆积会达到临界状态,此后每加一次沙子都可能导致“沙崩”​。在这种临界状态下,多加入的沙子通常要么没有影响,要么最多只会导致一些沙子下滑。

森林火灾模型 (forest fire model)
假设树木可以在一个二维网格上生长,这些树木也可能会随机地被闪电击中。当树木的密度较低时,由闪电引发的任何火灾的规模都很小,最多只会蔓延到几个格点。当树木密度变得足够高时,再被闪电击中就会导致森林大火。
在这种临界状态下,森林中斑块大小的分布,以及火灾大小的分布,都满足幂律分布。此外,森林还会自然而然地趋向这种密度水平。如果密度较低,密度会增加(因为火灾很小)​。如果密度超过了阈值,那么任何火灾都会毁掉整个森林。因此,树木密度自组织地达到了一个临界状态。

长尾分布的含义
  1. 公平:与正态分布相比,长尾分布意味着少数几个大“赢家”​和很多的“输家”​;而正态分布则是关于均值对称的。
    实证研究表明,社会效应会创造更大的赢家。尾巴变长了,社会影响增加了不平等。

  2. 灾难:长尾分布还包括灾难性事件:地震、火灾、金融崩溃和交通拥堵。
    我们可以将森林火灾模型应用到那种情况下:把银行和其他金融机构想象为网格上的树,网格上的邻接则表示存在未偿还的贷款。一个银行破产相当于一棵树着火,而火势有可能会蔓延到邻近的银行。

  3. 波动性:如果组成幂律分布的实体规模出现了波动,那么幂律的指数就可以作为衡量系统层面波动性的一个代表。
    我们可以将某个国家的国内生产总值视为数千家企业的总产量。如果各家企业的生产水平相互独立且变差有限,那么根据中心极限定理,这个国家的国内生产总值分布将服从正态分布。也就是说,企业生产水平的差异越大,总体波动性就越大。如果企业规模的长尾分布导致生产水平上更大的变差,那么这种长尾分布也必定与更大的总体波动性相关。

    研究显示,可以通过企业规模分布的变化来解释这种波动性演变的模式。随着企业规模分布的尾部变得越来越长(越来越短)​,最大的企业对波动性的影响越来越大(越来越小)​。换句话说,总体波动性会随企业规模分布的尾部变长(变短)而增加(减少)​。

在长尾分布中,大事件发生的概率必须加以考虑。长尾分布是由于反馈和相互依赖性而产生的。我们应该高度注意这个结果。随着世界中相互联系性的提高和反馈的增加,我们应该会观察到更多的长尾分布,同时现在关注的这些长尾分布的尾部也可能会进一步拉长。这就是说,不平等可能会增加,灾难可能变得更大,波动性也会变得更加剧烈。

搜索与机会:我们可以在某些搜索模型中应用关于分布的知识来解释为什么一个人获得机会的数量可能与他的成功经历密切相关。我们在搜索的时候,其实是不知道所选择的价值的,直到去真的尝试它。机会的增加可以创造风险激励。


线性回归

线性回归模型的目标是找到能够最小化到各数据点的直线。回归线越靠近数据,模型解释的数据越多,R2就越大(得到解释的百分比越大)​。如果数据全部都恰好位于回归线上,R2就等于100%。

统计学家使用p值来表示系数的显著性,p值等于基于回归的系数不为零的概率。p值为5%意味着数据由一个系数等于零的过程生成的概率为1/20。显著性的标准阈值是5%和1%​。但是,显著性并不是我们唯一关心的东西。一个系数可能是显著的,但是却很小。如果真的是这样,就可以对相关关系很有信心,但是变量的影响其实不大。又或者,也可能系数虽然不显著但却很大,这通常发生在有噪声数据或数据带有许多遗漏变量的情况下。

回归所揭示的是变量之间的相关关系,而不是因果关系。
PS:在我们能够用回归发现显著的相关性之前,有一种方法远比回归方法好,这种方法就是通常所称的“数据挖掘”(data mining)。
但是,数据挖掘存在识别与其他因果变量相关的某个变量的风险。数据挖掘还可能导致虚假的相关关系,即两个变量只是偶然相关。
我们可以通过创建训练集(training set)和检验集(testing set)来避免报告虚假相关。在训练集上发现的相关性,如果也存在于检验集上,就更可能是真实的。

对数据的这种依赖(通常意味着线性回归模型)​,可能会导致我们过于倾向边际行动(marginal action),远离重要的新思想。

大系数与新现实
  1. 大系数:在采取行动的时候,最好选择具有较大系数的变量,而不要选择具有较小系数的变量。
    与此同时,​“大系数至上”这个思路建立在“保守主义”的基础上,它会使我们将注意力集中到较小的改进上,而无法再关注全新的政策。​
    “大系数至上”的另一个问题是大系数的大小对应于给定现有数据的边际效应。通常这种效应将会随着变量值的增大而减少。如果确实是这样,那么当我们试图利用它时,大系数就会变小。

  2. “大系数至上”思维方式的替代者是“新现实思维”​。例如,大系数思维可以拓宽道路、建造高利用率的车道以减少交通拥堵,那么新现实思维就相当于建造了铁路和公共汽车系统。当我们遇到重要的新思想时,可以用模型去探究它们是否可行。

总而言之,线性模型需要假定效应大小不变。线性回归为我们对数据进行第一轮加工提供了一个强大的工具,有了它,我们能够识别出变量的符号、大小和显著性。

线性模型只是一个开始,大多数有趣的现象都不是线性的。因此,回归模型通常会包括非线性项。虽然线性可能是一个强大而不切实际的假设,但是它至少提供了一个很好的起点。在给定了数据的情况下,可以使用线性模型来检验我们的直觉判断。基于此,我们可以构建更精细的模型,其中变量的影响会随着它的增加(收益递减)或变得更强大(正回报)而减弱。