如何在H2O的输入数据(数据框架)中表示项目集合/列表?
我使用的是sparkling water 1.6.5和H2O Flow。我的输入数据(CSV文件中的列)如下所示:
age: numericgender: enumhobbies: ?sports: ?
爱好和运动是包含有限数量可能条目(每个约20个)的列表/集合。H2O似乎没有适合这种类型的数据类型。我该如何将这些导出到CSV文件中,以便H2O Flow可以处理?
回答:
如果你只是记录他们的主要爱好或主要运动,那么它将是一个具有20个级别的单一枚举列,例如爱好。你只需在CSV文件中将其作为字符串字段写入,H2O会读取它。
但我想你想要的是每个人从20个爱好中选择0个或多个?在这种情况下,你需要在CSV文件中有20列,每个爱好一列;每列将是一个2值枚举。两个值是什么并不重要:Y/N, T/F, Y/空白, 爱好名称/空白等。你的CSV文件可能看起来像这样:
name,gender,football?,running?,data mining?,sleeping?Tom,M,Y,,,YDick,M,,,Y,Suzy,F,,Y,Y,
Tom喜欢足球和睡觉,Dick只热衷于数据挖掘,Suzy喜欢跑步和数据挖掘。
顺便说一句,如果使用deeplearning
,它最终将得到相同的网络配置:一个20级别的枚举输入将被转换为20个二进制输入节点。