Home IT技术使用Pyspark读取数据集并提取特征

使用Pyspark读取数据集并提取特征

IT技术 xiaolong · 2025年5月26日 · 0 Comment

抱歉问一个新手问题，因为我刚开始使用Pyspark。我已经将一个大型数据集导入到HDFS中。然而，这个数据集不是纯文本格式（.svm格式），我想对其应用机器学习算法。

数据集链接

我可以将数据集作为文本文件在Pyspark中读取。然而，我需要以矩阵或其他形式的人类可读的输出，以便从数据集中提取特征。能有人帮帮我吗？

回答：

你可以使用以下代码：

file_path = "hdfs:///path/to/file.csv"spark = SparkSession.builder.master("local").getOrCreate()df = (        spark.read.format("com.databricks.spark.csv")            .options(header="true", inferSchema="true")            .load(file_path)    )

apache-spark machine-learning pyspark

发表回复取消回复