《构建实时机器学习系统》一3.4 数据分析的三个要点
3.4 数据分析的三个要点
本书后面的章节中将会以前面发现的均值回归的性质为依托,设计实时机器学习交易策略进行交易。好多读者看到这里可能已经跃跃欲试,等不及要开始搭建服务器开始赚他一个亿了。但是在这之前我们需要总结一下在开展机器学习工作前期关于数据分析的几个原则。
3.4.1 不断验证假设
验证假设是否正确是机器学习前期数据分析最重要的目的。这里的假设包括但不限于:数据的格式、变量的数量、数据是否缺失、是否有极端值、采样是否均衡等。上面这些假设,如果稍有差错,就会让在后面得到的机器学习模型无用武之地。
与此同时,我们通过数据清理得到的结果也需要经过假设验证以保证数据的完整性。最后,在实时应用中,我们往往需要考虑如下这些情况。
极端值:线下建模往往都会在第一步就过滤掉极端值,但是在实时环境中,极端值是客观存在的。
缺失值:再优秀的系统也有宕机出