独家 | 手把手教你组织数据科学项目!(附代码)
由DrivenData提供
为什么要重视项目结构?
说起数据分析,我们往往会想到报告结果、深入见解或可视化。通常这些最终结果占据了主要地位,所以人们很容易专注于让结果看起来漂亮而忽略了生成它们的代码质量。但是,这些最终结果都是以编程方式创建的,所以代码质量仍然很重要!此处我们讨论的不是代码缩进或格式标准,数据科学的代码质量的最终标准是正确性和可再现性(reproducibility)。
众所周知,好的分析通常是随意和偶然探索的结果。各种没得到结果的探索性实验和快速测试都是通往好结果道路上的一部分,并且没有灵丹妙药可以将数据探索转变为简单的线性过程。
一旦开始一个项目,就很难再去思考代码结构和项目布局了。所以最好从一个干净、合乎逻辑的结构开始并一以贯之。我们认为使用这样的标准化设置是非常有好处的。原因如下:
其他人会感谢你
定义明确的标准项目结