大数据与机器学习:实践方法与行业案例.2.2 数据缓冲区
2.2 数据缓冲区
数据缓冲区是处于生产环境和分析环境之间的中间区域,它是数据闭环中各个系统间的数据中转站,从各个系统接收原始数据,并将其暂存在对应的目录中。其他系统可以从数据缓冲区中获取需要的数据文件。
为了便于管理和迁移数据,我们规定存入数据缓冲区中的数据使用文本文件的格式,这样一来,数据缓冲区就可以使用一台或几台文件服务器实现。几乎所有的应用系统都支持文本文件的数据交互,新的系统可以轻松加入数据闭环之中。
数据缓冲区的一端连接生产环境中的大量应用系统,另一端连接分析环境中的数据平台,避免了生产环境和分析环境的相互影响,同时也为系统之间数据文件的交互制定了统一标准(见图2-2)。
图2-2 数据缓冲区连接生产环境和分析环境
数据缓冲区的另一个优势在于方便自动化和数据管理,多个应用系统的文件存档在同一个文件服务器中,便于数据的统一管理