统计学是我们在大数据时代读懂、听懂和看懂一切事实真相的基础

发布于: 雪球转发:10回复:5喜欢:41

我们身处的这个世界正在制造出越来越多的数据,同时数据产生的速度也越来越快,统计学正是我们处理数据、分析信息、获取有意义结果的最有力工具。查尔斯-惠伦的这本《赤裸裸的统计学》,将重要的统计学概念变得更加直观和便于理解,将统计学学习过程中涉及的技术细节与重要的理念剥离开来,向我们呈现出了“赤裸裸”的统计学世界。

一、为什么要学习统计学?

统计学是我们在大数据时代读懂、听懂和看懂一切事实真相的基础。学习统计学的意义是什么?总结大量的数据,做出正确的决定,回答重要的社会问题,认识并运用那些能够改善我们日常做法的决策,识别作弊者、让作恶者受到法律的审判,评价政策、项目、药品、医疗程序和其他创新的有效性,揪出那些运用相同的统计学手段干坏事的败类。

二、描述统计学的应用背景与局限性

描述统计学运用数字和数字运算(如方差、标准差)来总结原始数据。根据“数据越多、事实越模糊、越需要简化”的要求,描述统计学将一系列复杂的数据序列减少为几个能够起到描述作用的数字,为我们提供了针对某一现象的可操作、有意义的概括。需要注意的是,任何一种简化都会存在被滥用的危险,所以描述性数据可能存在误导性。

“平均数”、“中位数”以及“百分位数”都是描述性数据,在它们当中究竟选择谁,关键在于根据具体情况确定哪一个“中间位置”更能够准确地反映问题的实质

“正态分布”的量化描述:有多少数值位于平均值一个标准差的范围之内(68.2%),有多少数值位于两个标准差的范围以内(95.4%),还有多少数值位于3个标准差的范围以内(99.7%),事实上这就是统计学的基础之一。

三、统计的精度与准确度

将精度和准确度混为一谈是要付出代价的。如果答案从一开始就是不准确的,那么即使它再精确也毫无意义。所以,对于所有的统计分析来说,即使是最为精确的计算或测量,最后都应该检查一下是否符合常识

一个典型的例子是平均数和中位数的选取:从准确性的角度来看,平均数和中位值孰取孰舍,关键就在于这个数据分布里的异常值对事实的真相是起到扭曲的作用,还是其重要的组成部分

如果对某一事物的描述存在多种方式,那么我们选择使用(或回避使用)的描述性数据就会影响别人对此事的看法。一些别有用心的人甚至会用光鲜的事实和数据来支持真假存疑或完全不成立的结论。所以,对统计学而言,判断和正直比数学更重要,再渊博的统计学知识也无法遏制不道德的行为

四、相关性与相关系数

相关性体现的是两个变量之间相互关联的程度,相关性作为一个统计工具的魅力就在于将两个变量的关联精炼成一个描述性数据:相关系数。

相关系数拥有两个无与伦比的优势:1)在数学表达上,相关系数是一个区间为-1到1的常数(1,表示完全相关;-1,表示完全负相关),相关系数越接近1或-1,变量间的关联性就越强,如果相关系数为0(或接近零),则意味着变量之间不存在有意义的联系;2)相关系数不受变量单位的限制,它将大量芜杂无序、单位不统一的复杂数据加工成一个简洁、优雅的描述性数据。

需要注意的是,相关关系并不等于因果关系——两个变量存在正相关或负相关的关系,这并不代表其中一个变量的改变是由另一个变量的变化引起的。

两个变量A(比如是身高)和B(比如是体重)相关系数的计算方法:1)将每个人的身高转换为标准值:(身高-平均身高)/标准差;2)将每个人的体重转换为标准值:(体重-平均体重)/标准差;3)将每个人的身高标准值和体重标准值相乘(当身高和体重都偏离平均值较远时,乘积的绝对值也会很大);4)将第三步求得乘积相加,再除以统计对象的数量,就可以得到相关系数。

五、概率与期望值

概率是一个非常强大的统计学工具,概率学是一门研究不确定事件和结果的学问。期望值是基础概率学的升级版,它是所有管理决策过程中(尤其是金融领域)最实用的统计工具。通过比较成本投入和期望收益,你就能知道做这件事是不是“值得”

短期来看,通过概率计算得出的好决策,有时会得到坏的结果,而坏的决策有时还是会有好的结果,但最终“笑傲江湖”的还是概率,因为谁也打败不了概率。

概率学本身不会犯错,犯错的是使用它的人。以下是一些最为常见的与概率有关的错误、误解和道德困境:1)想当然地认为事件之间不存在联系;2)对两个事件的统计独立一无所知——我们自认为看到了规律,可实际上或许根本不存在规律;3)成群病例同样有可能只是单纯的巧合,不管发生的概率有多低,事情偏偏就是这么巧;4)检方谬误——当统计证据的存在背景遭到忽视时,检方谬误就成了不可避免的事实;5)回归平均数(或趋均数回归)——概率学告诉我们,跟在异常值——在某个方向上远离平均数的数据——之后的更有可能是那些接近(长期积累得出的)平均数的数据;6)统计性歧视。

一个关于购买保险的有用建议:你应该时刻谨记为那些你无法轻松承受的意外上保险,而其他情况就不要浪费钱了,这是个人理财的核心原则之一。

六、统计学最怕黑天鹅

风险价值模型(VaR)是华尔街大型金融机构赖以谋生的“尖端武器”,不过尽管这种模型具有强大的概率学支撑,但它所隐藏的两个巨大问题注定了它不可避免地成为黑天鹅“受害者”的宿命:

1)金融市场的潜在风险很难预测,该模型呈现出的“伪精准”会给投资者带来虚幻的安全感——模型构建的概率基础参照的是过去的市场行为,然后金融市场的未来不一定是历史的重复

2)即使通过基本数据,我们能够借助VaR准确地预测未来风险仅有1%,但这99%的保证依然存在着失效的危险,因为真正把事情搞砸的正是剩下的1%,事实上,这一模型根本没有办法告诉你假如那1%的情况发生,事态会有多严重

华尔街的数量分析专家们犯了3个最基本的错误:一是混淆了“精确”和“准确”的概念;二是他们对基础概率的估算方式是错误的,不应该只用2005年以前相对平稳和繁荣的经济数据来预测接下来几十年的市场表现;三是忽略了“尾部风险”,VaR模型预测的是那些发生概率为99%的结果,这也是概率的工作原理,但事实上即使是貌似不可能的事件,也有发生的可能。

七、数据与偏见

如果基础数据本身就有问题,那么再缜密严谨的分析也是徒劳。每一项糟糕的研究背后,隐藏的是什么?其实是数据的问题,统计分析本身并没有错,而是用于计算和分析的数据要么是伪造的,要么就是不恰当的。

常见的一些数据选择问题:1)选择性偏见——如果人口中的每一个人被选入样本的概率不是均等的,那么由这样一个样本推导出的结论就会存在问题;2)发表性偏见——肯定性的研究发现相比否定性的研究发现来说,更有可能被发表,从而影响我们对事实真相的判断;3)记忆性偏见——回忆并不是优质数据的可靠来源,没有记忆性偏见是纵向研究优于横向研究的一个方面;4)幸存者偏见——当样本中有一些或许多数据缺失,导致样本组成发生改变,从而影响分析的结果时,幸存者偏见就出现了;5)健康用户偏见:就从最简单的角度来分析,那些忠于健康生活方式的人——按时吃药、保持健康的饮食习惯等——与其他人有本质区别,这就是问题所在。

八、中心极限定理

中心极限定理的核心要义是,一个大型样本的正确抽样与其所代表的群体存在相似关系:每个样本之间肯定会存在差异,但是任一样本与整体之间存在巨大差异的概率是较低的。中心极限定理告诉我们,一个正确抽取的样本不会与其所代表的群体产生较大差异。

如果你从某个研究群体中多次随机抽取数量足够多的样本,那么这些样本的平均值会以整体平均值为中心呈现正态分布(不论该群体自身的分布情况是怎样的)。绝大多数的样本平均值都会紧紧围绕在整体平均值的周围,通过中心极限定理,我们可以知道样本平均值与整体平均值之间的距离及其概率:样本平均值离整体平均值两个标准误差的概率相对较低,三个或以上标准误差的概率基本上为零。

九、统计推断与假设检验

统计学无法确凿地证明任何东西。与之相反,统计推断的力量在于:先发现一些规律和结果,然后再利用概率来证明这些结果的背后最有可能的原因。统计推断是数据和概率(期间需要来自中心极限定理的一点儿帮助)这两个概念的合体。

就凭数据本身并不能证明任何结论,我们只有通过推理和概率来对可能的解释予以支持或否定,即任何统计推断都是由或含蓄或直接的零假设开始的。先假设一个结论,然后通过统计分析对其进行支持或反驳。如果我们证明零假设不成立,那么相当于承认了其反面结论与真实情况更为接近。

任何一类假设检验,都面临着一个根本性的两难困境:I型错误表示错误地推翻了一个零假设,I型错误表示推翻零假设的门槛太高——宽松和严格之间的权衡和妥协,统计学没有免费的午餐。

十、回归分析

面对一个复杂的大型数据样本时,多元回归分析是寻找有意义结论的最佳工具,它能够让我们解开多种影响因素和某个大家所关心的结果之间的错综复杂的关系:回归分析能够在控制其他因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化,即我们能够在保持其他变量效果不变的情况下,将某个变量的效果分离出来。

回归分析可以为复杂的问题提供精确的答案,但这些答案却不一定准确。最常见的几个回归错误如下所示:1)错误地使用回归分析来分析非线性关系;2)错误地将相关关系等同于因果关系;3)因果倒置——我们应该确保解释变量会影响因变量,而不是相反情况;4)变量遗漏偏差——分析时,遗漏了某个重要的解释变量,尤其是当其他变量又恰好“覆盖”了遗漏的解释变量的影响,那么回归分析的结果就会变得非常具有误导性,甚至与真相背道而驰;5)高度相关的解释变量(多元共线性):存在两个或以上彼此高度相关的解释变量,会导致回归分析的结果无法分清每一个解释变量与因变量之间的真实关系;6)脱离数据进行分析;7)数据矿(变量过多):假如变量过多,尤其当无关变量过多的时候,回归分析的结果就会被冲淡或稀释。

统计学比以往任何时候都更加重要,因为我们现在有了更多机会来充分利用数据,并从中获取有意义的信息。

@诗安 @水皮江鸟 @开心价值投资 @施洛斯008   @股民老K  @编程浪子 @魏员外 @一只花蛤  @Passion启航 @今日话题 

$中国华融(02799)$  $民生银行(01988)$ $重庆银行(01963)$ 

全部讨论

小强要强2018-07-27 10:47

mark

鸡蛋白2018-07-27 10:37

我来讲一个统计学家的笑话。二战时期,英国空军希望加固飞机的装甲,一帮统计学家通过对飞机弹孔的分布统计,决定增加机翼、机头和机尾的装甲厚度。结果发现被击落的飞机比例并没有减少,后来一个飞机维修工程师知道了这件事骂到“这帮蠢货,那些没飞回来的正是被击中机腹的啊!”


本人数学专业出身,Kolmogrov的崇拜者,但是从来不怎么相信统计学,这玩意比数理里面的存在性证明还不靠谱

小悠和小久他俩的爸2018-07-27 10:33

对统计学而言,判断和正直比数学更重要,不利用统计学害人,但要提防被人利用统计学伤害

懂行业看企业2018-07-27 10:17

只有股市的表现是真的。统计局的数据可以以人的意志修改的