时间序列二元分类

问题:

我有一个关于对冲基金的数据集。它包含每月对冲基金的回报率和一些财务指标。我计算了从2010年到2019年12月的每个月的指标。(共2889条月度数据)我想进行二元分类,并基于这些指标预测下个月对冲基金的类别。我想从T时间预测T+1时间。并且我想使用随机森林和其他分类器(决策树、KNN、SVM、逻辑回归)。我知道这个数据集是一个时间序列问题,我该如何将其转换为机器学习问题?

我很乐意听取您的建议和建议,关于在建模、特征工程和编辑这个数据集时应该遵循的方法或途径。

附加问题:

1)在使用这些数据进行训练和测试时,我该如何进行数据分割?是使用80%-20%的比例吗?您能推荐其他验证方法吗?

2)有些基金后来才添加到数据中,因此并非所有基金的数据长度都相同,例如,2015年成立的“AEB”基金在2015年前没有数据。有几只这样的基金,它们会造成问题,还是最好将它们删除并从数据集中移除?我总共有27个不同基金的数据。3)此外,我已经将对冲基金的股票代码/名称更改为数字ID,是否可以进行虚拟编码,这样做是否会更好地提升性能?

样本数据集:

     日期    | 基金名称/股票代码 | sharpe | sortino | beta  | alpha | 目标 |   ------------|--------------------|--------|---------|-------|-------|--------|--   31.03.2010 | ABC                | -0,08  | 0,025   | 0,6   | 0,13  | 1      |    31.03.2010 | DEF                | 0,41   | 1,2     | 1,09  | 0,045 | 0      |    31.03.2010 | SDF                | 0,03   | 0,13    | 0,99  | -0,07 | 1      |    31.03.2010 | CBD                | 0,71   | -0,05   | 1,21  | 0,2   | 1      |    30.04.2010 | ABC                | 0,05   | -0,07   | 0,41  | 0,04  | 0      |    30.04.2010 | DEF                | 0,96   | 0,2     | 1,09  | 1,5   | 0      |    30.04.2010 | SDF                | -0,06  | 0,23    | 0,13  | 0,23  | 0      |    30.04.2010 | CBD                | 0,75   | -0,01   | 0,97  | -0,06 | 1      |    :          | :                  | :      | :       |  :    | :     | :      |    :          | :                  | :      | :       |  :    | :     | :      |    30.12.2019 | ABC                | 0,05   | -0,07   | 0,41  | 0,04  | 1      |    30.12.2019 | DEF                | 0,96   | 0,2     | 1,09  | 1,5   | 0      |    30.12.2019 | SDF                | -0,06  | 0,23    | 0,13  | 0,23  | 0      |    30.12.2019 | CBD                | 0,75   | -0,01   | 0,97  | -0,06 | 1      |    30.12.2019 | FGF                | 1,45   | 0,98    | -0,03 | 0,55  | 1      |    30.12.2019 | AEB                | 0,25   | 1,22    | 0,17  | -0,44 | 0      |  

我的想法和第一次尝试:我建模了一个例子。我使用的方法是这样的,我将目标变量向后移动(-1)。因此,每一行显示了基金在下个月所处的类别。我这样做是因为我想在那个月开始之前预测下个月。从T时间预测到T+1时间。但这个模型的效果非常差。(43%)

此模型数据集的视图:

     日期    | 基金名称/股票代码 | sharpe | sortino | beta  | alpha | 目标 |   ------------|--------------------|--------|---------|-------|-------|--------|--   31.03.2010 | ABC                | -0,08  | 0,025   | 0,6   | 0,13  | 1      |    31.03.2010 | DEF                | 0,41   | 1,2     | 1,09  | 0,045 | 0      |    31.03.2010 | SDF                | 0,03   | 0,13    | 0,99  | -0,07 | 1      |    31.03.2010 | CBD                | 0,71   | -0,05   | 1,21  | 0,2   | 1      |    30.04.2010 | ABC                | 0,05   | -0,07   | 0,41  | 0,04  | 0      |    30.04.2010 | DEF                | 0,96   | 0,2     | 1,09  | 1,5   | 0      |    30.04.2010 | SDF                | -0,06  | 0,23    | 0,13  | 0,23  | 0      |    30.04.2010 | CBD                | 0,75   | -0,01   | 0,97  | -0,06 | 1      |    :          | :                  | :      | :       |  :    | :     | :      |    :          | :                  | :      | :       |  :    | :     | :      |    30.12.2019 | ABC                | 0,05   | -0,07   | 0,41  | 0,04  | 0      |    30.12.2019 | DEF                | 0,96   | 0,2     | 1,09  | 1,5   | 0      |    30.12.2019 | SDF                | -0,06  | 0,23    | 0,13  | 0,23  | 1      |    30.12.2019 | CBD                | 0,75   | -0,01   | 0,97  | -0,06 | 1      |    30.12.2019 | FGF                | 1,45   | 0,98    | -0,03 | 0,55  | 0      |    30.12.2019 | AEB                | 0,25   | 1,22    | 0,17  | -0,44 | ?      |  

回答:

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注