《Scala机器学习》一一2.5 数据驱动系统的基本组件
2.5 数据驱动系统的基本组件
简单地说,一个数据驱动架构包含如下的组件(或者可精简为以下这些组件):
数据收集:需要从系统和设备上收集数据。大多数的系统有日志,或者至少可选择将日志写入本地文件系统。一些系统可以通过网络来传输信息,比如syslog。但若没有审计信息,缺少持久层意味着有可能丢失数据。
数据转换层:也被称为提取、变换和加载(ETL)。现在数据转换层也可以进行实时处理,即通过最近的数据来计算汇总信息。数据转换层也用来重新格式化数据和索引数据,以便能被UI组件有效地访问。
数据分析和机器学习引擎:这层是标准数据转换层的一部分,因为这一层需要很多完全不一样的技术。构建合理统计模型的思维方式通常与快速移动数TB数据不同,尽管偶尔可以找到具有这两种技能的人。通常称这些人为数据科学家,但是他们在任何特定领域的技能通常不及专注于一个特定领