Spark和Hadoop分析遇障碍?可以试试容器啊
将定制的Spark和Hadoop试点项目转移到生产中是一项艰巨的任务,但容器技术缓解了这种艰难的过渡。 当团队试图将小型试点项目转变为面向数据科学团队和业务分析人员的大型运营应用程序时,Spark和Hadoop分析工作往往会遇到困难。对于许多人来说,这是他们在大数据分析之路上遇到的最大障碍。 配置的复杂性有时候也是绊脚石。由一个单独的数据科学家构建的自定义配置的原型可能需要很长的时间来重新创建,一旦失败,是由一个更广泛的用户池共享。为了解决这些问题,一些人利用DevOps型容器和微服务技术将Spark和Hadoop组件衔接在一起。 “我们的数据科学团队和业务利益相关者不希望等待过长的时间,等我们建立一个新的Spark集群或其他大型数据环境,并提供所需的所有工具、版本、配置和数据,” 为医疗机构提供分析和咨询服务的公司董事Ramesh Thyagarajan说道。他将Docker容器视为在大数据科学家和企业用户上实现敏捷性的关键技术。 为了将这种DevOps风格部署到其大数据应用程序,咨询委员会正在使用BlueData Software的EPIC软件平台来运行Spark SQL和Spar...