在我的数据集中,有一个名为“Cycle”的独立列。它包含以文本格式书写的日期值。我不明白如何将其转换为数字。我正在使用多元线性回归和Python。该列看起来像这样。您对此有任何想法吗?
Cycle
6月10日至7月11日
6月20日至7月21日
6月17日至7月18日
回答:
您对此有任何想法吗?
免责声明:由于您的问题范围广泛且细节模糊,答案旨在仅指导您进行研究和提供一些相关的一般术语。
这是分类数据的一个例子。简而言之,您可以对其进行多种处理,这里提供了一些想法:
- 如果类别是固定的,并且您知道所有可能的值,您可以通过为每个类别分配递增(或新的随机)数字来将其转换为数值。
- 如果您的类别事先不知道,您可以将它们转换为哈希类别。作为这种方法的变体,您可以仅对最常见的类别进行哈希,并将异常值汇总减少到较少的哈希值,从而减少使用的总类别数量。
-
您可以根据预期的影响对其进行分桶处理,以下是一些想法:
- 按月分桶
- 按季度分桶
- 按周分桶
-
最后,您可以将其转换为更详细的表示,从中提取更多价值,如下所示(这只是一个例子):
Cycle C_Start_Day C_Start_Month C_End_Day C_End_Month C_Num_Days6月10日至7月11日 10 6 11 7 16月20日至7月21日 20 6 21 7 16月17日至7月18日 17 6 18 7 1
注意:根据您之前的评论,我建议使用最后一种方法(转换)。这样,您可以从Cycle列中提取所有需要的用于进一步数值处理的数据。