### Tidymodels: 使用R语言中的tune_grid()函数进行10折交叉验证的可调模型

概述

我使用tidymodels包和数据框架FID(见下文)生成了四个模型:

  1. 一般线性模型
  2. 袋装树
  3. 随机森林
  4. 提升树

数据框架包含三个预测变量

  1. 年份(数值型)
  2. 月份(因子型)
  3. 天数(数值型)

因变量是频率(数值型)

最初的正则化惩罚值为0.1,我是比较随意选择的。我的目标是估计最合适或最佳的正则化参数惩罚值。想法是估计模型的超参数(最佳值模型),这些参数在模型训练期间无法评估。我尝试通过在重新采样的数据集上训练多个模型并探索它们的表现来估计最佳的惩罚值。因此,我正在构建一个新的模型规范来进行模型调优。

我正在遵循以下教程:

https://smltar.com/mlregression.html#firstregressionevaluation

我遇到了以下错误信息

错误:此工作流程中已添加了一个`model`操作。#运行 rlang::last_error()<error/rlang_error>此工作流程中已添加了一个`model`操作。回溯:  1. tune::tune_grid(...) 10. workflows::add_model(., tune_spec_glm) 11. workflows:::add_action(x, action, "model") 13. workflows:::add_action_impl.action_fit(x, action, name) 14. workflows:::check_singleton(x$fit$actions, name) 15. workflows:::glubort("A `{name}` action has already been added to this workflow.")运行 `rlang::last_trace()` 查看完整上下文。

如果有人能帮助我解决这个问题,我将非常感激。

非常感谢。

R代码

## 打开tidymodels包
library(tidymodels)
library(glmnet)
library(parsnip)
library(rpart.plot)
library(rpart)
library(tidyverse) # 操作数据
library(skimr) # 数据可视化
library(baguette) # 袋装树
library(future) # 并行处理 & 减少计算时间
library(xgboost) # 提升树
library(ranger)
library(yardstick)
library(purrr)
library(forcats)
# 将单个数据集拆分为两个:训练集和测试集
data_split <- initial_split(FID)
# 为两个集合创建数据框架:
train_data <- training(data_split)
test_data  <- testing(data_split)
# 使用10折交叉验证重采样数据(默认10折)
cv <- vfold_cv(train_data, v=10)
#############################################################
# 生成配方
rec <- recipe(Frequency ~ ., data = FID) %>%
           step_nzv(all_predictors(), freq_cut = 0, unique_cut = 0) %>% # 移除方差为零的变量
          step_novel(all_nominal()) %>% # 准备测试数据以处理先前未见的因子水平
           step_medianimpute(all_numeric(), -all_outcomes(), -has_role("id vars"))  %>% # 用中位数替换缺失的数值观测
          step_dummy(all_nominal(), -has_role("id vars")) # 对分类变量进行虚拟编码
  ############################################################
# 生成模型
############################################################
# 一般线性模型
############################################################
# 生成glm模型
mod_glm<-linear_reg(mode="regression",
                       penalty = 0.1,
                        mixture = 1) %>%
                             set_engine("glmnet")
## 创建工作流程
wflow_glm <- workflow() %>%
                 add_recipe(rec) %>%
                      add_model(mod_glm)
    ## 拟合glm模型
###########################################################################
# 模型评估
## 估计模型的表现,让我们多次拟合,
## 每次针对这些重新采样的折叠进行一次,然后评估每个重新采样折叠的保留部分。
##########################################################################
plan(multisession)
fit_glm <- fit_resamples(
                        wflow_glm,
                        cv,
                        metrics = metric_set(rmse, rsq),
                        control = control_resamples(save_pred = TRUE)
                        )
## 收集每个K折的模型预测,用于蓝鲸目击次数的数量
Predictions<-fit_glm %>%
                     collect_predictions()
####### 调优超参数
## 通过估计最佳值来配置最佳值模型,
## 通过在重新采样的数据集上训练多个模型并探索这些模型的表现来估计最佳的正则化惩罚。
tune_spec_glm <- linear_reg(penalty = tune(), mixture = 1) %>%
                                          set_mode("regression") %>%
                                                       set_engine("glmnet")
tune_spec_glm
## 创建一个常规网格值,使用便利函数来尝试罚值
lambda_grid <- grid_regular(penalty(), levels = 30)
lambda_grid
####
tune_rs <- tune_grid(
                    wflow_glm %>% add_model(tune_spec_glm),
                    cv,
                    grid = lambda_grid,
                    control = control_resamples(save_pred = TRUE)
                    )
## 错误信息
错误:此工作流程中已添加了一个`model`操作。
运行 `rlang::last_error()` 查看错误发生的位置。

数据框架 – FID

structure(list(Year = c(2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2017, 2017, 2017, 2017, 2017, 2017, 2017, 2017, 2017, 2017, 2017, 2017), Month = structure(c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L), .Label = c("January", "February", "March", "April", "May", "June", "July", "August", "September", "October", "November", "December"), class = "factor"), Frequency = c(36, 28, 39, 46, 5, 0, 0, 22, 10, 15, 8, 33, 33, 29, 31, 23, 8, 9, 7, 40, 41, 41, 30, 30, 44, 37, 41, 42, 20, 0, 7, 27, 35, 27, 43, 38), Days = c(31, 28, 31, 30, 6, 0, 0, 29, 15, 29, 29, 31, 31, 29, 30, 30, 7, 0, 7, 30, 30, 31, 30, 27, 31, 28, 30, 30, 21, 0, 7, 26, 29, 27, 29, 29)), row.names = c(NA, -36L), class = "data.frame")

回答:

您应该使用 update_model() 而不是 add_model()

tune_rs <- tune_grid(
                    wflow_glm %>% update_model(tune_spec_glm),
                    cv,
                    grid = lambda_grid,
                    control = control_resamples(save_pred = TRUE)
                    )

我还可以对您的示例提出一些一般性评论:

  1. 我修改了以下几行
train_data <- training(FID)
test_data  <- testing(FID)

改为

train_data <- training(data_split)
test_data  <- testing(data_split)

我猜这是您为这个问题制作示例时的一个打字错误,因为它会导致错误。

  1. 配方应该在训练分割上进行训练,否则会导致数据泄露。
    在您的代码中,这实际上并不重要,因为训练,prep(),是在工作流程中执行的,它使用的是训练数据
rec <- recipe(Frequency ~ ., data = train_data) %>% 
  1. 您可以使用泊松回归来解决您的问题,因为结果是正整数。在tidymodels中,您可以使用 poissonreg::poisson_reg()https://poissonreg.tidymodels.org/

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注