我正在尝试使用从csv文件读取到pandas数据框中的数据设置test_train_split
。我读的书说我应该将数据分成x_train
作为数据,y_train
作为目标,但是我该如何定义哪个列是目标,哪些列是数据呢?到目前为止,我有以下代码:
我读到应该这样进行分割,但是下面的例子中data
和target
已经被定义了:
X_train, X_test, y_train, y_test = train_test_split(businessleisure_data['data'], iris_dataset['target'], random_state=0)
回答:
你可以这样做:
Data = pd.read_csv("Data.csv") X = Data.drop(['目标列名'],axis=1).valuesy = Data['目标列名'].valuesX_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
在大多数情况下,目标变量是数据集的最后一列,所以你也可以尝试这样做:
Data = pd.read_csv("Data.csv")X = Data.iloc[:,:-1]y = Data.iloc[:,-1]X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)