Home IT技术如何对机器学习中每个样本的无序名义类别对象列表进行编码

如何对机器学习中每个样本的无序名义类别对象列表进行编码

IT技术 xiaolong · 2025年5月29日 · 0 Comment

我的数据集中每个样本（一位用户）都有一系列项目（技能）。每个项目（技能）是一个名义类别的对象（技能ID从0到10000）。名义类别项目通常通过独热编码或二进制编码进行机器学习编码。然而，我的问题在于每个样本（用户）不仅仅有一个项目（技能），还有这些项目的无序列表（一系列技能）。

如何对这些技能列表进行编码，而不产生大量的列？有没有不使用因式分解技术的技巧来实现这一点？

回答：

一种称为特征哈希的技术可以将对象映射到列中。它在https://en.wikipedia.org/wiki/Feature_hashing中有描述：

 function hashing_vectorizer(features : array of string, N : integer): x := new vector[N] for f in features:     h := hash(f)     x[h mod N] += 1 return x

data-science machine-learning

发表回复取消回复