每当我尝试清理各个CSV文件时,只要我尝试预测概率就会遇到值错误。有什么方法可以用一个CSV文件训练模型,保存它,然后在另一个CSV文件中收集一些测试数据,并将后一个文件输入到使用第一个文件训练的模型中吗?
P.S. 重要的是我不能使用train_test_split,因为我想要每个类别的信息(它们有I.Ds)。
回答:
请按照以下步骤操作
- 创建一个函数,负责处理所有数据处理任务,例如读取CSV文件、清理数据等。使用该函数读取测试CSV文件,并设置编码器和其他转换参数。
- 使用该函数读取文件,确保仅根据训练数据设置参数。对于测试数据,仅转换特征。
- 还要记住,两个CSV文件必须有相同的列,列的顺序也很重要。
- 仅在训练数据上拟合模型,使用测试数据进行预测和评分。
# Training csvtrain = read_csv('train.csv')# Transform and clean data# Fit function# Testing csvtest = pd.read_csv('test.csv')# Transform and fit the data# Predict and score using the testing data