工具箱：赤裸裸的统计学查尔斯·惠伦寒石解读得到关于作者查尔斯·惠伦，美国达特茅斯大学教授，1997 到 2002 年间担任《经济学人》杂志...

查尔斯·惠伦寒石解读得到

关于作者

查尔斯·惠伦，美国达特茅斯大学教授，1997 到 2002 年间担任《经济学人》杂志驻美国中西部地区记者。主要从事经济学研究，曾在《芝加哥邮报》《纽约时报》和《华尔街日报》发表过多篇文章，所著《赤裸裸的经济学》是畅销多年的经济学普及读物。

关于本书

这是一本关于统计学常识的科普书，作者从理财投资、民意调查、医疗健康、刑事判决等生活案例中剥茧抽丝，向我们展示了妙趣横生的统计学规律。统计学并没有想想的这么难，你也可以通过这本书学习统计学。

核心内容

本书作者认为，作为大数据时代炙手可热的学问，统计学可以解决很多实际问题。可如果运用不当，统计学也会制造假象、造成误导。因此，我们很有必要掌握一些统计学中的概念和原理，它们并不艰涩难懂，却能帮我们读懂真相，预测未来。核心内容包含五个部分：

1、大数定律；
2、中心极限定理；
3、随机抽样；
4、回归分析；
5、常犯的概率学错误。

一、大数定律

相同条件下，当随机试验次数足够多时，实验结果的平均值会无限接近 “期望值”。

1. 我们可以通过研究概率，明智地选择投资理财方式

【案例】就算是某期彩票爆出大奖掏空了奖池，从长远看，发行彩票也是稳赚不赔。根据“大数定律”，发行机构只要保证彩票的销售额大于奖金期望值，就肯定赚钱，所以沉溺于博彩是非常不理智的。

对于投资门槛高、风险大，但是回报很高的项目，如果把注意力都放在高回报率上很危险。大数定律成立的前提是“试验次数足够多”，如果你没有承担多次投资失败的资本，孤注一掷的投资很可能会血本无归。
再比如最近区块链很火，好多新出的数字货币蹭蹭的涨，那么你只一味的追涨，你肯定输的很惨，但如果你资金雄厚多分配几种，那么你赢的概率就很大。

2. 帮助我们理性面对风险

【案例】对小额电子产品推出的付费延保服务，商家肯定稳赚不赔，用户选择付费延保基本上等于浪费钱。但对于那些大额度人身、财产意外险，它们更多的是一个规避风险的理性工具，帮你在遭受一些难以承受的巨大损失时渡过难关。虽然保险公司赚取了巨大的利润，这种钱我们还必须得花。
巴菲特说过：一个好的投资家首先应该学会的是避险。

二、中心极限定理

依据该定理，我们对一个基数庞大的群体做统计调查时，只要对其中的一部分样本进行研究，得出的结论就能反映整个群体的特点。

1. 如果掌握了某个群体的具体信息，就能推理出从这个群体中正确抽取随机样本的情况。

【案例】一个城市同时在举办马拉松比赛和吃热狗大赛，比赛前有一辆载满外国马拉松运动员的公交车失踪了，结果警察找到了一辆载满大胖子外国人的公交车。由于语言不通，警察只能根据经验判断：即使马拉松选手里面可能也有一两个略重的，但是满车都是胖子不大可能，因此很可能找错了车。

2. 如果已知两个样本的基本特性，就能推理出这两个样本是不是来自同一个群体。

【案例】上述案例中如果找到两辆车，乘客各自有胖有瘦，该怎么判断？这时候可以测量乘客体重，计算体重分布的标准差。根据中心极限定理，马拉松运动员群体的体重标准差是明显小于普通群体的，他们的体重分布更加集中于平均值周围。由此仍然可以判断出哪辆车是我们要找的。

三、随机抽样

这是收集数据的主要方法，核心是必须保证每个对象被抽到的概率完全相等。但大部分调查的对象是人群，人口组成非常复杂。如果不能保证等概率抽样，抽样数据就会存在“偏见”，就会得出错误结论。

1. 选择性偏见：样本选择带有潜在倾向性时就会出现。

【案例】1936年美国总统大选时，《文学文摘》杂志面向订阅者开展的民意测验，是史上知名度最高的统计错误。杂志编辑没有意识到，订阅这本杂志的人平均来说要比普通美国民众更富有，他们更倾向于投票给保护富人利益的共和党。这样带有选择性偏见的样本即使容量很大，也无法正确反映民意。

2. 幸存者偏见：如果样本中有数据缺失，会导致样本组成发生改变。

【案例】很多投资基金公司会同时开放20只新基金，经过三年的经营，总会有2到3只基金连续三年“跑赢”标准普尔指数。公司只要把十几只失败的基金悄悄关闭，大肆宣传这两三只“幸存者”，就可以把投资者的钱骗进来了。而实际上，这些“幸存”基金接下来的表现会逐渐回归平均水平。

3. 健康用户偏见：用来比对的样本其实选择在了不同群体当中。

【案例】假设卫生部门发现，哈佛大学新生中有98%的人在少年时期穿紫色睡衣，而监狱里的犯人中只有3%的人这样做过。因此得出了一个结论：穿紫色睡衣的孩子确实更有可能取得成功。这很显然是很荒谬的结论，这个问题在于我们用来对比的两组人根本就是两类人。真正对孩子大脑发育起作用的，是给孩子穿上紫色睡衣的家长，他们更注重对孩子的家庭教育。

四、回归分析

1. 对那些错综复杂的问题，回归分析可以通过建模计算，从已知现象中还原未知原因，甚至可以计算每种原因对结果的贡献比例。

【案例】医学家发现，级别较低的公务员更容易患上心脏病。 “白厅”研究项目组经过长时间纵向数据采集，比对了可能导致心脏病的一系列原因，包括低阶公务员的学历普遍偏低、烟民比例高、医疗服务差、加班多、锻炼少等等。面对这些错综复杂的变量，统计学家建立回归方程，计算了各个变量和心脏病发病率的线性关系。回归分析表明，造成心脏病高发的真正原因，是对工作缺乏控制力和话语权。而这类存在感较低的岗位，在低级别职位中更常见。

2. 电脑永远不能代替人的工作，如果在进行回归分析时遗漏了变量，就会得出危险的结论。

【案例】上世纪90年代，哈佛大学医学院对12万名女性开展纵向调查，经回归分析显示，定期摄入雌激素可以减少女性心脏病发病率，随后医院开始提供雌激素的补充治疗。而后来的临床试验发现，此举会导致乳腺癌和血栓病高发，因此死亡的女性患者可能达到上万人。

五、常犯的概率学错误

1.“黑天鹅”事件：忽视小概率事件，有时会造成严重的后果。

【案例】2008年美国次贷危机爆发前，整个北美金融行业都在使用同一个风险价值模型来预测投资风险。这个模型的强大之处在于它非常精确，可以预测99%的市场风险。然而，该模型是根据过去20年的市场行为建立的，不能对剩余1%的意外情况做出预测。可是，随着2007年美国商业银行房贷业务的崩溃，“黑天鹅”真的出现了，整个华尔街措手不及，一次全球大范围的金融危机因此爆发。

2. “检方谬误”：通过统计数据推断出的结论，必定存在误差，不会100%正确。即使误差再小，也不能忽视它的存在。

【案例】假设一名法官被告知：犯罪现场遗留的 DNA 样本和被告的 DNA 相吻合，除了被告以外，这个样本和其他人 DNA 相吻合的概率只有百万分之一。如果仅凭这些证据为被告人定罪，就可能出现冤案。百万分之一的误差看似很小，但警方的 DNA 样本库数量非常庞大，通过样本比对，找到两个 DNA 特征相似的人并非不可能。

工具箱：赤裸裸的统计学

作者：Passion启航