我在尝试使用MLBase中的逻辑回归模型来预测广告的点击率(CTR)。在我的数据集中有一些分类变量,我希望将它们转换为用作模型输入的虚拟/指示变量。我的数据看起来像这样
"log_time","country","gender""2015-05-19","USA","M""2015-05-20","IND","F"
在MLBase或Scala中是否有解决方案可以完成这种转换?
回答:
你所寻找的被称为独热编码。
Spark的MLlib有一个独热编码器可以帮你完成这个任务。
我在尝试使用MLBase中的逻辑回归模型来预测广告的点击率(CTR)。在我的数据集中有一些分类变量,我希望将它们转换为用作模型输入的虚拟/指示变量。我的数据看起来像这样
"log_time","country","gender""2015-05-19","USA","M""2015-05-20","IND","F"
在MLBase或Scala中是否有解决方案可以完成这种转换?
回答:
你所寻找的被称为独热编码。
Spark的MLlib有一个独热编码器可以帮你完成这个任务。