Python + HDF5 因子计算与 DolphinDB 一体化因子计算方案对比
在量化交易中,基于金融市场的 L1/L2 的报价和交易高频数据来进行高频因子计算,是非常常见的投研需求。目前国内全市场十年的 L2 历史数据约为 20 ~ 50T,每日新增的数据量约为 10 ~ 20G。传统的关系数据库如 MS SQL Server 或 MySQL 已经很难支撑该量级的数据,即便分库分表,查询性能也远远无法达到要求。由此,一部分用户选择了分布式文件系统, 使用 HDF5 存储数据,并结合 Python 进行量化金融计算。 HDF5 的存储方案虽然可以支持海量的高频数据,但是也存在一些痛点,例如数据权限管理困难、不同数据关联不便、检索和查询不便、需要通过数据冗余来提高性能等。此外,通过 Python 来读取计算,也要耗费一些时间在数据传输上。 DolphinDB 是一款分析型的分布式时序数据库(time-series database)。目前,越来越多的券商和私募机构开始采用 DolphinDB 存储并进行高频数据的因子计算,也有不少还在使用 Python + HDF5 方案进行高频因子计算的客户对 DolphinDB 表现了浓厚的兴趣。因此,我们撰写了这篇对比 Pyt...





