python和机器学习代码中遇到的问题
1.pycharm运行pyspark代码,没有Hadoop环境
Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
解决方案
解压一份Hadoop包,配置HADOOP_HOME并加入Path变量中。
2.读取文件编码问题
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \xXX escape
错误代码
文件路径用的是斜杠
lines = spark.textFile("C:\xin\code\temp\ratings.dat")
解决方案
应该用反斜杠
lines = spark.textFile("C:/xin/code/temp/ratings.dat")
3.Rating参数个数问题
__new__() takes 4 positional arguments but 5 were given
代码
model = ALS.train(training, rank=50, iterations=10, lambda_=0.01)
报错信息
File "C:\ProgramData\Anaconda3\lib\site-packages\pyspark\mllib\recommendation.py", line 233, in <lambda> ratings = ratings.map(lambda x: Rating(*x)) TypeError: __new__() takes 4 positional arguments but 5 were given
报错说,要4个参数,但是给你5个。
看源码
( File "C:ProgramDataAnaconda3libsite-packagespysparkmllibrecommendation.py", line 30)
class Rating(namedtuple("Rating", ["user", "product", "rating"])):
这里其实要的是3个参数。
4.同时存在Python2和Python3,运行pyspark报错
报错信息
File "/usr/lib/python2.7/site-packages/pyspark-2.3.1-py2.7.egg/pyspark/worker.py", line 176, in main ("%d.%d" % sys.version_info[:2], version)) Exception: Python in worker has different version 2.7 than that in driver 3.6, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set.
解决方案
在"~/.bashrc"添加配置(重启虚拟机)。
export PATH="/root/anaconda3/bin:$PATH"

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源大数据周刊-第100期
资讯 领英开源TonY:构建在Hadoop YARN上的TensorFlow框架领英在 YARN 上构建了一个 TensorFlow 框架 TonY 并将其开源。本文介绍了 TonY 的内部细节、领英实现并用来在 Hadoop 上扩展分布式 TensorFlow 的功能以及实验结果。 Databricks:96%的企业在执行AI项目时面临着数据相关的问题Databricks发布了美国和欧洲大型公司的AI难题的调查结果。只有1/3的人工智能项目取得了成功,更重要的是企业从概念转向生产需要六个多月。这些挑战背后的主要原因是96%的企业面临着数据相关的问题,如孤岛和不一致的数据集。80%的企业引发了重大的组织摩擦,如数据科学家和数据工程师之间缺乏协作。90%的受访者表示在整个机器学习生命周期中统一数据科学和数据工程的方法将克服AI难题。 Sp
- 下一篇
基于TableStore的海量电商订单元数据管理
一、背景 订单系统存在于各行各业,如电商订单、银行流水、运营商话费账单等,是一个非常广泛、通用的系统。对于这类系统,在过去十几年发展中已经形成了经典的做法。但是随着互联网的发展,以及各企业对数据的重视,需要存储和持久化的订单量越来越大。数据的重视程度与数据规模的膨胀带来了新的挑战,原有的系统是否还能继续满足需求成了焦点? 需求场景 某电商平台A,需要进行持久化所有平台产生的订单数据。同时,基于所有的订单数据,系统又需要向外提供面向多种角色:消费者、店家、平台三类人群的多元化的查询服务。消费者可以查询自己的历史订单,商家可以统计热销产品,平台也可以分析用户行为、平台交易规模等。主要查询方式涵盖订单的多维度检索,以及订单数据的分析、统计等,例如:面向消费者:【A消费者】*【近1年】*【产品名含'电脑'字段】订单查询;面向店家:【B店家】*【
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合Redis,开启缓存,提高访问速度