我开发了一个用于机器学习的Python脚本,现在我想在Spark的PySpark shell中执行这个脚本。我能直接这样做吗?
回答:
为了利用Spark的内存分布式处理能力,你需要使用PySpark API来定义Spark上下文并创建RDD(弹性分布式数据集)。标准的Python代码可以在PySpark shell中运行,但这就相当于在一个节点上运行代码。Spark确实有自己的机器学习库,但总体来说,其功能不如Python中提供的丰富。希望这对你有帮助。
我开发了一个用于机器学习的Python脚本,现在我想在Spark的PySpark shell中执行这个脚本。我能直接这样做吗?
回答:
为了利用Spark的内存分布式处理能力,你需要使用PySpark API来定义Spark上下文并创建RDD(弹性分布式数据集)。标准的Python代码可以在PySpark shell中运行,但这就相当于在一个节点上运行代码。Spark确实有自己的机器学习库,但总体来说,其功能不如Python中提供的丰富。希望这对你有帮助。