一文搞懂常见概率分布的直觉与联系
数据科学,不管它到底是什么,其影响力已不可忽视。“数据科学家比任何软件工程师都更擅长统计学。”你可能在本地的技术聚会或者黑客松上无意中听到一个专家这么说。应用数学家大仇得报,毕竟从咆哮的二十年代起人们就不怎么谈论统计学了。以前聊天的时候,像你这样的工程师,会因为分析师从来没听说过Apache Bikeshed(口水仗)这个分布式评论格式编排项目而发出啧啧声。现在,你却突然发现人们在聊置信区间的时候不带上你了。为了融入聊天,为了重新成为聚会的灵魂人物,你需要恶补下统计学。不用学到正确理解的程度,只需学到让人们(基于基本的观测)觉得你可能理解了的程度。 正如数据结构是计算机科学的基础,概率分布是统计学的基础。如果你计划像一个数据科学家一样聊天,那么概率分布就是你学习的起点。有时候,不怎么理解概率分布的情况下,使用R或scikit-learn就可以完成一些简单的分析,就像不理解哈希函数也可以编写Java程序一样。然而,很快你就会碰到bug和虚假的结果,并为此痛哭流涕,或者更糟:收获统计学专业人士的叹息和白眼。 概率分布有数百种,有些听起来像是中世纪传说中的怪兽,比如Muth和Lomax。不过...