在机器学习中,如何处理像薪资这样的特征。例如,如果我通过测量基于特征的数据点之间的距离来应用k-最近邻算法。假设我们有两个点,薪资分别为2000和6000。它们之间的差异是4000。再看另外两个点,薪资分别为102000和106000。这里的差异仍然是4000美元,但我们人类认为后两个点比前两个点更接近或更相似。
我如何在机器学习中融入这种直觉?
回答:
你可以做以下几件事(还有更多方法):
- 使用对数函数转换特征(这样2000和6000之间的距离会比102000和106000之间的距离大得多)
- 将特征二值化分成多个区间(你可以为每个薪资范围创建一个特征,并且由你来定义这些区间)
- 在k-最近邻算法中更改相似性函数,使其考虑相对差异而不是绝对差异