三个数据分析里最难攻破的“悖论”,每一个都令人费解
跟数据打的交道越多,就越可能对数据产生绝对的信赖感,但其实在实际业务中,数据往往会“说谎”,今天给大家介绍三个数据分析中常见的悖论:
1、辛普森悖论
辛普森悖论是数据分析中最常见的悖论之一,举个最实际的例子来说:
鸭堡某学期期末考试,考数学、物理、化学三科,A的数学比B高2分,物理比B高15分,化学比C高3分,请问A的总分是否比B高?
很多人会说,这不是废话么,问题太简单了,当然是A的总分比B高了!
实际上很可能A的总成绩低于B,别急着惊讶,我们不妨再看一个例子:
很多人都爱看NBA比赛,最近几年的骑勇大战,使得詹姆斯和库里在球迷心目中的印象非常深,有一场骑勇大战,詹姆斯和库里的两分球与三分球命中率如下表所示:
其中:
两分球命中率 = 两分球命中数 / 两分球出手数 * 100%
三分球命中率 = 三分球命中数 / 三分球出手数 * 100%
那么请问本场比赛,詹姆斯的投篮命中率,是否低于库里?
投篮命中率 = (两分球命中数 + 三分球命中数) / (两分球出手数 + 三分球出手数) * 100%
很多人也会说,这不是跟上面期末考试那个题一样简单嘛,这还用说嘛,肯定是詹姆斯的投篮命中率低于库里呀!我们把细项的数据拉出来看,确实是这样的:
但是,这真的是废话么?我们再来看另一场比赛这两位兄弟的表现吧:
这一场比赛,詹姆斯和库里谁的投篮命中率高呢?这次你如果还说这是废话,当然是库里的投篮命中率高了,那这回你可就没这么幸运了,让我们看看细项数据吧:
是的,你没有看错,詹姆斯的两分球命中率也低于库里,三分球命中率也低于库里,但是汇总起来看,詹姆斯的投篮命中率是要高于库里的!
问题来了,这是怎么回事呢?这不符合常理啊!
这个“不符合常理”的现象,在数据分析领域中会时不时遇到的,并且在业内有个专门的术语:辛普森悖论(Simpson's paradox)
具体来说,就是在进行分组研究的时候,有时在每个组比较时都占优势的一方,在总评中有时反而是失势的一方的“悖论”现象就叫辛普森悖论。
现实中的很多数据,通过辛普森悖论,展现出引导性的错误结论。比如现实中的多干多错,少干少错,不干不错。
一个人经常犯错并不能证明他就比其他更少犯错的人能力低下,有可能是他从事更加复杂,出错率更高的工作的时间占比更大。
2、罗素悖论
罗素悖论属于数理统计学中永远无法逃避的一个悖论,这个悖论简约、美丽、诡异,甚至导致了第三次数学危机的解决。
罗素悖论的准确表达应该是:
如果存在一个集合是由所有一切不属于自身的集合组成的,也就是A={x | x∉ x },那么A包含于A是否成立?如果成立,则不符合x不属于A;而如果A不包含于A,则符合x不属于A。
罗素怕这个悖论很多人看不懂,于是给出了一个通俗版本:
假如某个城市的所有人,都在一位理发师那里理发,而这位理发师突然说:“我只为本城市中,不给自己刮脸的人刮脸!”于是,其他人对理发师说:那么你给自己刮脸吗?
倘若他不给自己刮脸,那么他属于“不给自己刮脸的人”,按照他的说法他就要给自己刮脸;倘若他给自己刮脸,他又属于“给自己刮脸的人”,按照他的说法就不该给自己刮脸。
3、伯克森悖论
将不同组别的数据合并时,会导致各组原本表现出来的某种规律消失,当这种情况发生时,合并之后呈现出的新规律甚至可能与每组的原本的规律相反。
举个例子,某种治疗手段在不同的组别里对患者的身体恢复是有害的,但是将所有组别的数据合并起来看,我们却会发现它竟然对患者身体的恢复是有帮助的。
它是怎么发生的?
当组成各组的成分差别较大的时候,就可能出现上述现象。
如,对病人的数量进行筛选,使得两组试验中病人的组成差别很大(老人、小孩、成人的比例有很大的差别)时,将数据简单的合并之后就会得出这样的结论:有害的治疗变成了有益的治疗。
假设有一个双盲试验(在双盲试验中,受试验的对象及研究人员并不知道哪些对象属于对照组,哪些属于实验组),将患者分成两组,每组有120人,但是两组中患者的年龄结构有很大的差异(第一组分为10人、20人、30人、60人,第二组分为60人、30人、20人、10人)。第一组的患者将接受治疗,而第二组的患者不进行治疗。
总体结果表明,治疗对患者是有益的,接受治疗的患者的身体恢复率大于没有接受治疗的患者。
然而,当你深入研究两组中各个患者群体时,你会发现在所有的患者群体中, 没有接受治疗的患者身体恢复率提高了。
我们注意到,每组中不同年龄的患者人数是不同的,甚至是差别很大的,这就是我们得出错误结果的原因。在这种情况下, 如果简单的将两组数据合并,就容易得出错误的结论。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
通俗易懂的CAS
前言 Java并发编程系列番外篇C A S(Compare and swap),文章风格依然是图文并茂,通俗易懂,让读者们也能与面试官疯狂对线。 C A S作为并发编程必不可少的基础知识,面试时C A S也是个高频考点,所以说C A S是必知必会,本文将带读者们深入理解C A S。 大纲 C A S基本概念 C A S(compareAndSwap)也叫比较交换,是一种无锁原子算法,映射到操作系统就是一条cmpxchg硬件汇编指令(保证原子性),其作用是让C P U将内存值更新为新值,但是有个条件,内存值必须与期望值相同,并且C A S操作无需用户态与内核态切换,直接在用户态对内存进行读写操作(意味着不会阻塞/线程上下文切换)。 它包含3个参数C A S(V,E,N),V表示待更新的内存值,E表示预期值,N表示新值,当 V值等于E值时,才会将V值更新成N值,如果V值和E值不等,不做更新,这就是一次C A S的操作。 简单说,C A S需要你额外给出一个期望值,也就是你认为这个变量现在应该是什么样子的,如果变量不是你想象的那样,说明它已经被别人修改过了,你只需要重新读取,设置新期望值,再...
- 下一篇
拍照被嫌弃,他用分布式技术开发了一款自拍神器
殷冬是一名从事软件开发 5 年的全栈工程师,也是本次HarmonyOS 开发者应用创新大赛的参赛者之一。这次大赛,他带来的是一款名为《分镜头App》的作品,顾名思义,这款应用利用了 HarmonyOS 的分布式能力,目的是帮助用户拍出更满意的照片。 开发该应用的灵感,来源于殷冬的个人经历。虽然是一名前后端各项技能兼备的全栈工程师,但在拍照这件事上,殷冬却完全不得要领,屡屡被女友“嫌弃”。去年完成个人工作室筹备后,恰逢 HarmonyOS 手机开发者 Beta 版本发布和开发者应用创新大赛启动,殷冬很快敲定了《分镜头App》的开发方向。 相比于普通的相机应用,殷冬的《分镜头App》通过分布式技术,可实时控制多部手机或PAD进行拍摄,充分利用后置摄像头的高像素,在自拍时,只需将手机/PAD放置在前方合适的位置,就能通过手中的另一台手机/PAD遥控拍摄,并且支持拍摄画面实时呈现,被拍摄者可以直接看到镜头里的自己,既方便随时调整姿势,又可指导拍摄者及时调整构图,提高成片质量。 “第一次学习 HarmonyOS 北向开发技术,就被深深吸引了。分布式任务调度、分布式文件管理、分布式数据管理、软总线...
相关文章
文章评论
共有0条评论来说两句吧...