开源大数据周刊-第100期-低调大师

开源大数据周刊-第100期

2018-09-19 679

资讯

领英开源TonY：构建在Hadoop YARN上的TensorFlow框架
领英在 YARN 上构建了一个 TensorFlow 框架 TonY 并将其开源。本文介绍了 TonY 的内部细节、领英实现并用来在 Hadoop 上扩展分布式 TensorFlow 的功能以及实验结果。
Databricks：96%的企业在执行AI项目时面临着数据相关的问题
Databricks发布了美国和欧洲大型公司的AI难题的调查结果。只有1/3的人工智能项目取得了成功，更重要的是企业从概念转向生产需要六个多月。这些挑战背后的主要原因是96%的企业面临着数据相关的问题，如孤岛和不一致的数据集。80%的企业引发了重大的组织摩擦，如数据科学家和数据工程师之间缺乏协作。90%的受访者表示在整个机器学习生命周期中统一数据科学和数据工程的方法将克服AI难题。
Sp

微信关注我们

原文链接：https://yq.aliyun.com/articles/642600

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能。解决哪些问题 SparkSQL自适应执行解决以下问题: shuffle partition个数目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200)，一个作业一旦设置了该参数，它运行过程中的所有阶段的reduce个数都是同一个值。而对于不同的作业，以及同一个作业内的不同reduce阶段，实际的数据量大小可能相差很大，比如reduce阶段要处理的数据可能是10MB，也有可能是100GB, 如果使用同一个值对实际运行效率会产生很大影响，比如10MB的数据一个task就可以解决，如果spark.sql.shuffle.partition使用默认值200的话，那么10MB的数据就要被分成200个

2018-09-19

749

1.pycharm运行pyspark代码，没有Hadoop环境 Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 解决方案解压一份Hadoop包，配置HADOOP_HOME并加入Path变量中。 2.读取文件编码问题 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \xXX escape 错误代码文件路径用的是斜杠 lines = spark.textFile("C:\xin\code\temp\ratings.dat") 解决方案应该用反斜杠 lines = spark.textFile("C:/xin/code/temp/ratings.dat") 3.Rating参数个数问题 __new__() takes 4 positional arguments but 5 were given代码 model = ALS.train(trai...

2018-09-20

1235

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。