在H2O中表示输入CSV中的项目列表

如何在H2O的输入数据(数据框架)中表示项目集合/列表?

我使用的是sparkling water 1.6.5和H2O Flow。我的输入数据(CSV文件中的列)如下所示:

age: numericgender: enumhobbies: ?sports: ?

爱好和运动是包含有限数量可能条目(每个约20个)的列表/集合。H2O似乎没有适合这种类型的数据类型。我该如何将这些导出到CSV文件中,以便H2O Flow可以处理?


回答:

如果你只是记录他们的主要爱好或主要运动,那么它将是一个具有20个级别的单一枚举列,例如爱好。你只需在CSV文件中将其作为字符串字段写入,H2O会读取它。

但我想你想要的是每个人从20个爱好中选择0个或多个?在这种情况下,你需要在CSV文件中有20列,每个爱好一列;每列将是一个2值枚举。两个值是什么并不重要:Y/N, T/F, Y/空白, 爱好名称/空白等。你的CSV文件可能看起来像这样:

name,gender,football?,running?,data mining?,sleeping?Tom,M,Y,,,YDick,M,,,Y,Suzy,F,,Y,Y,

Tom喜欢足球和睡觉,Dick只热衷于数据挖掘,Suzy喜欢跑步和数据挖掘。

顺便说一句,如果使用deeplearning,它最终将得到相同的网络配置:一个20级别的枚举输入将被转换为20个二进制输入节点。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注