数据科学入门的5个技巧
很多人问我数据科学和数据分析的最大区别是什么。有的人认为两者没有区别,有的人则 认为两者 千差万别。我认为,尽管两者确实存在很多不同之处,但最大的不同在于数据科学严格遵循结构化、 一步一步的操作过程,保证了分析结果的可靠性。 和其他科学研究一样,这些过程必须被严格执行, 否则分析结果将不可靠。再直白一点,对于外行的数据科学家,严格遵循这些过程将能够快速获得 准确结果。反之,如果没有清晰的路线图,则分析结果很难得到保证。 虽然这些步骤更多是写给业余分析师的指引,但它们同样是数据科学家,甚至更严格的商业分析和学术分析的基础。每一位数据科学家都理解这些步骤的重要意义,会在实践过程中严格遵守它们。 5个步骤概览 数据科学的5个必备步骤分别是: (1)提出有意思的问题; (2)获取数据; (3)探索数据; (4)数据建模; (5)可视化和分享结果。 首先,我们从宏观上了解以上5个步骤。 1.1.1 提出有意思的问题 这是我最喜欢的一步。作为一个创业者,我经常问自己(和他人)很多有意思的问题。我像对待头脑风暴会议一样对待这一步。现在开始写下问题,不要关心回答这些问题所需的数据是否存在。这样做的原因...