Home IT技术如何在数据框中选择数据列和目标列进行测试训练分割？

如何在数据框中选择数据列和目标列进行测试训练分割？

IT技术 xiaolong · 2025年5月26日 · 0 Comment

我正在尝试使用从csv文件读取到pandas数据框中的数据设置test_train_split。我读的书说我应该将数据分成x_train作为数据，y_train作为目标，但是我该如何定义哪个列是目标，哪些列是数据呢？到目前为止，我有以下代码：

我读到应该这样进行分割，但是下面的例子中data和target已经被定义了：

X_train, X_test, y_train, y_test = train_test_split(businessleisure_data['data'],                                                    iris_dataset['target'], random_state=0)

回答：

你可以这样做：

Data = pd.read_csv("Data.csv")    X = Data.drop(['目标列名'],axis=1).valuesy = Data['目标列名'].valuesX_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

在大多数情况下，目标变量是数据集的最后一列，所以你也可以尝试这样做：

Data = pd.read_csv("Data.csv")X = Data.iloc[:,:-1]y = Data.iloc[:,-1]X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

machine-learning python scikit-learn sklearn-pandas

发表回复取消回复