抱歉问一个新手问题,因为我刚开始使用Pyspark。我已经将一个大型数据集导入到HDFS中。然而,这个数据集不是纯文本格式(.svm格式),我想对其应用机器学习算法。
我可以将数据集作为文本文件在Pyspark中读取。然而,我需要以矩阵或其他形式的人类可读的输出,以便从数据集中提取特征。能有人帮帮我吗?
回答:
你可以使用以下代码:
file_path = "hdfs:///path/to/file.csv"spark = SparkSession.builder.master("local").getOrCreate()df = ( spark.read.format("com.databricks.spark.csv") .options(header="true", inferSchema="true") .load(file_path) )