H2O Flow: H2O流UI如何不同对待数据类型

具体来说，H2O在处理enum和string数据类型时，与处理’int‘和’numerical‘类型有什么不同？

例如，假设我有一个二元分类器，它接受具有以下特征的输入样本：

x1=(10种可能的最爱冰淇淋口味之一（enum）)x2=(某个随机短语（string）)x3=(某个数字（int）)

在训练过程中，分类器对这些类型的处理有什么不同？

当我将数据上传到h2o Flow UI时，我有选项可以将某些数据类型（如enum）转换为’numerical’。这让我觉得，当我只是将’enum‘保持为’enum‘（不转换为’numerical‘类型）时，不仅仅是字符串到数字的映射，但我找不到关于这种差异的信息。

希望能得到澄清，谢谢。

回答：

“enum”类型是您希望用于分类特征的编码类型。如果分类特征被编码为”enum”，那么基于树的算法如随机森林和GBM将能够以智能的方式处理这些特征。大多数其他RFs和GBM的实现会强制您对分类特征进行一次性扩展（转换为K个虚拟列），但在H2O中，基于树的方法可以无需任何扩展就使用这些特征。可以通过categorical_encoding参数来控制变量的处理方式。

如果您有一个有序的分类变量，那么将其编码为”int”可能是可以的，但这对模型性能的影响将取决于数据。

如果您将一个”enum”列转换为”numeric”，那将只是将每个类别编码为一个整数，并且您将失去这些数字代表类别的概念（所以不推荐这样做）。

除非您打算将该列从预测变量集中排除，否则不应在H2O中使用”string”类型。使用”string”列来存储文本是有意义的，但您可能需要解析（例如，标记化）这些文本以生成新的数值或enum特征，这些特征将包含在预测变量集中。

学技术

H2O Flow: H2O流UI如何不同对待数据类型

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复