TensorFlow 与 Apache Spark 结合:雅虎开源“TensorFlowOnSpark”
雅虎昨日宣布开源 TensorFlowOnSpark。
它使得深度学习框架 TensorFlow 能与 Apache Spark 中的数据集兼容。对于使用 Spark 来处理不同类型数据的机构和开发者来说,这无疑是一个好消息。TensorFlowOnSpark 的开源代码,已基于 Apache 2.0 协议在 GitHub 上发布。
众所周知,深度学习有海量数据需求。雷锋网了解到,许多业内公司利用 Spark 对超大规模的数据集进行管理。让深度学习框架直接、方便地获取这部分数据,将为 ML 开发提供极大助力。
雅虎在官方博客中宣布了这一消息,并解释了此前雅虎 Big ML 开发团队遇到的问题:
“现有的深度学习框架,往往需要设立单独的深度学习数据组。这强迫我们为同一个机器学习流水线创建多个程序。维护多个独立的数据组,要求我们在它们之间传输
