我在寻找适合我的数据集的学习算法时遇到了困难。

我正在处理一个典型的回归问题。我关注的数据集中有6个特征。我的数据集中大约有800个数据点。特征和预测值之间具有高度的非线性相关性，因此这些特征并非无用（据我所知）。预测值呈双峰分布，因此我很快就排除了线性模型。

因此，我尝试了5种不同的模型：随机森林、极端随机树、AdaBoost、梯度提升和XGB回归器。训练数据集的准确率为64%，而测试数据的准确率为11%-14%。这两个数字都让我感到害怕，哈哈。我尝试调整随机森林的参数，但似乎没有什么特别的能带来显著的变化。

调整参数的函数

def hyperparatuning(model, train_features, train_labels, param_grid = {}):    grid_search = GridSearchCV(estimator = model, param_grid = param_grid, cv = 3, n_jobs = -1, verbose =2)    grid_search.fit(train_features, train_labels)    print(grid_search.best_params_)    return grid_search.best_estimator_`

评估模型的函数

def evaluate(model, test_features, test_labels):    predictions = model.predict(test_features)    errors = abs(predictions - test_labels)    mape = 100*np.mean(errors/test_labels)    accuracy = 100 - mape    print('Model Perfomance')    print('Average Error: {:0.4f} degress. '.format(np.mean(errors)))    print('Accuracy = {:0.2f}%. '.format(accuracy))

我期望输出至少是可以接受的，但结果训练数据的准确率为64%，测试数据的准确率为12-14%。看到这些数字真是让人感到恐怖！

回答：

你的问题中有几个问题。

首先，你似乎在尝试将准确率用于一个回归问题，这是没有意义的。

虽然你没有提供具体的模型（提供这些模型可能是好主意），但在你的评估函数中这一行

errors = abs(predictions - test_labels)

实际上是平均绝对误差（MAE）的基础（尽管你实际上应该取其平均值，正如其名称所示）。MAE和MAPE确实是回归问题的性能指标；但你接下来使用的公式

accuracy = 100 - mape

实际上并不成立，在实践中也不会使用。

诚然，直觉上，人们可能想要得到1-MAPE的值；但这不是一个好主意，因为MAPE本身有很多缺点，严重限制了它的使用；以下是来自维基百科的部分列表：

如果存在零值（例如在需求数据中有时会发生），则不能使用，因为会出现除以零的情况。

对于预测值过低的情况，百分比误差不能超过100%，但对于预测值过高的情况，百分比误差没有上限。

学技术

训练准确率较低（约64%）和测试准确率较低（约14%），使用了5种不同的模型

调整参数的函数

评估模型的函数

发表回复取消回复

调整参数的函数

评估模型的函数

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复