在Yarn上运行Spark官方Python机器学习示例失败

我可以通过以下命令成功在Yarn上运行pi.py示例：./bin/spark-submit --master yarn --deploy-mode cluster examples/src/main/python/pi.py。

但是当我运行./bin/spark-submit --master yarn --deploy-mode cluster examples/src/main/python/ml/logistic_regression_with_elastic_net.py时，失败了。错误信息是：Container exited with a non-zero exit code 1

通过比较这两个文件，我发现当我在pi.py中添加from pyspark.ml.classification import LogisticRegression后，运行pi.py也失败了。

但我不知道如何修复这个问题。我还有另一个问题：当我运行机器学习示例时，我需要将自己的数据文件上传到HDFS，所以我尝试使用--files，这样做对吗？如果对的话，由于我不知道数据文件在HDFS上的路径，Python脚本无法获取数据文件。（我可以在文件上传到HDFS后看到路径，即hdfs://master:9000/user/root/.sparkStaging/application_1488329960574_0011/mnist8m_800，但这太晚了，我可以在提交时指定路径吗？）

回答：

要运行logistic_regression_with_elastic_net，你需要像这样将样本libsvm数据上传到HDFS：

$ hdfs dfs -mkdir -p data/mllib$ hdfs dfs -put data/mllib/sample_libsvm_data.txt data/mllib

然后示例将在yarn-client和yarn-cluster模式下都能正常工作。

据我所知，通过--files上传的文件无法通过spark会话读取（如回归示例中所示）。

学技术

在Yarn上运行Spark官方Python机器学习示例失败

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复