NVIDIA 合作开源社区,将 GPU 加速带入 Spark 3.0
NVIDIA方面宣布与开源社区达成合作,为Apache Spark 3.0带来端到端的 GPU 加速。 Apache Spark 3.0 是一种用于大数据处理的分析引擎,目前已被全球超过 500,000 名数据科学家所使用。 按照计划,随着 Spark 3.0 于春季晚些时候发布,数据科学家和机器学习工程师将首次能够把革命性的 GPU 加速应用于普遍使用 SQL 数据库操作进行的 ETL(提取、转换和加载)数据处理工作负载中。 此外,AI 模型训练将能够在相同的 Spark 集群上进行处理,而不是将工作负载作为单独的流程在单独的基础架构上运行。这样就可以对整个数据科学的处理流程进行高性能数据分析,对从数据湖到模型训练所涉及的数十、乃至数千 TB 的数据进行加速,而且无需对已被应用于本地和云端 Spark 应用程序的现有代码进行修改。 NVIDIA 企业计算部门负责人 Manuvir Das 表示:“数据分析是当今企业和研究人员面临的最大的高性能计算挑战。”“从 ETL 到培训再到推理,整个 Spark 3.0 方案的原生 GPU 加速为用户提供了最终将大数据潜力与 AI 性能相连所需的...
