机器学习 – 具有文本数据类型的独立列

在我的数据集中,有一个名为“Cycle”的独立列。它包含以文本格式书写的日期值。我不明白如何将其转换为数字。我正在使用多元线性回归和Python。该列看起来像这样。您对此有任何想法吗?


    Cycle

6月10日至7月11日

6月20日至7月21日

6月17日至7月18日


回答:

您对此有任何想法吗?

免责声明:由于您的问题范围广泛且细节模糊,答案旨在仅指导您进行研究和提供一些相关的一般术语。

这是分类数据的一个例子。简而言之,您可以对其进行多种处理,这里提供了一些想法:

  • 如果类别是固定的,并且您知道所有可能的值,您可以通过为每个类别分配递增(或新的随机)数字来将其转换为数值。
  • 如果您的类别事先不知道,您可以将它们转换为哈希类别。作为这种方法的变体,您可以仅对最常见的类别进行哈希,并将异常值汇总减少到较少的哈希值,从而减少使用的总类别数量。
  • 您可以根据预期的影响对其进行分桶处理,以下是一些想法:

    • 按月分桶
    • 按季度分桶
    • 按周分桶
  • 最后,您可以将其转换为更详细的表示,从中提取更多价值,如下所示(这只是一个例子):

    Cycle                   C_Start_Day  C_Start_Month  C_End_Day  C_End_Month  C_Num_Days6月10日至7月11日  10           6              11         7            16月20日至7月21日  20           6              21         7            16月17日至7月18日  17           6              18         7            1

注意:根据您之前的评论,我建议使用最后一种方法(转换)。这样,您可以从Cycle列中提取所有需要的用于进一步数值处理的数据。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注