问题:
我有一个关于对冲基金的数据集。它包含每月对冲基金的回报率和一些财务指标。我计算了从2010年到2019年12月的每个月的指标。(共2889条月度数据)我想进行二元分类,并基于这些指标预测下个月对冲基金的类别。我想从T时间预测T+1时间。并且我想使用随机森林和其他分类器(决策树、KNN、SVM、逻辑回归)。我知道这个数据集是一个时间序列问题,我该如何将其转换为机器学习问题?
我很乐意听取您的建议和建议,关于在建模、特征工程和编辑这个数据集时应该遵循的方法或途径。
附加问题:
1)在使用这些数据进行训练和测试时,我该如何进行数据分割?是使用80%-20%的比例吗?您能推荐其他验证方法吗?
2)有些基金后来才添加到数据中,因此并非所有基金的数据长度都相同,例如,2015年成立的“AEB”基金在2015年前没有数据。有几只这样的基金,它们会造成问题,还是最好将它们删除并从数据集中移除?我总共有27个不同基金的数据。3)此外,我已经将对冲基金的股票代码/名称更改为数字ID,是否可以进行虚拟编码,这样做是否会更好地提升性能?
样本数据集:
日期 | 基金名称/股票代码 | sharpe | sortino | beta | alpha | 目标 | ------------|--------------------|--------|---------|-------|-------|--------|-- 31.03.2010 | ABC | -0,08 | 0,025 | 0,6 | 0,13 | 1 | 31.03.2010 | DEF | 0,41 | 1,2 | 1,09 | 0,045 | 0 | 31.03.2010 | SDF | 0,03 | 0,13 | 0,99 | -0,07 | 1 | 31.03.2010 | CBD | 0,71 | -0,05 | 1,21 | 0,2 | 1 | 30.04.2010 | ABC | 0,05 | -0,07 | 0,41 | 0,04 | 0 | 30.04.2010 | DEF | 0,96 | 0,2 | 1,09 | 1,5 | 0 | 30.04.2010 | SDF | -0,06 | 0,23 | 0,13 | 0,23 | 0 | 30.04.2010 | CBD | 0,75 | -0,01 | 0,97 | -0,06 | 1 | : | : | : | : | : | : | : | : | : | : | : | : | : | : | 30.12.2019 | ABC | 0,05 | -0,07 | 0,41 | 0,04 | 1 | 30.12.2019 | DEF | 0,96 | 0,2 | 1,09 | 1,5 | 0 | 30.12.2019 | SDF | -0,06 | 0,23 | 0,13 | 0,23 | 0 | 30.12.2019 | CBD | 0,75 | -0,01 | 0,97 | -0,06 | 1 | 30.12.2019 | FGF | 1,45 | 0,98 | -0,03 | 0,55 | 1 | 30.12.2019 | AEB | 0,25 | 1,22 | 0,17 | -0,44 | 0 |
我的想法和第一次尝试:我建模了一个例子。我使用的方法是这样的,我将目标变量向后移动(-1)。因此,每一行显示了基金在下个月所处的类别。我这样做是因为我想在那个月开始之前预测下个月。从T时间预测到T+1时间。但这个模型的效果非常差。(43%)
此模型数据集的视图:
日期 | 基金名称/股票代码 | sharpe | sortino | beta | alpha | 目标 | ------------|--------------------|--------|---------|-------|-------|--------|-- 31.03.2010 | ABC | -0,08 | 0,025 | 0,6 | 0,13 | 1 | 31.03.2010 | DEF | 0,41 | 1,2 | 1,09 | 0,045 | 0 | 31.03.2010 | SDF | 0,03 | 0,13 | 0,99 | -0,07 | 1 | 31.03.2010 | CBD | 0,71 | -0,05 | 1,21 | 0,2 | 1 | 30.04.2010 | ABC | 0,05 | -0,07 | 0,41 | 0,04 | 0 | 30.04.2010 | DEF | 0,96 | 0,2 | 1,09 | 1,5 | 0 | 30.04.2010 | SDF | -0,06 | 0,23 | 0,13 | 0,23 | 0 | 30.04.2010 | CBD | 0,75 | -0,01 | 0,97 | -0,06 | 1 | : | : | : | : | : | : | : | : | : | : | : | : | : | : | 30.12.2019 | ABC | 0,05 | -0,07 | 0,41 | 0,04 | 0 | 30.12.2019 | DEF | 0,96 | 0,2 | 1,09 | 1,5 | 0 | 30.12.2019 | SDF | -0,06 | 0,23 | 0,13 | 0,23 | 1 | 30.12.2019 | CBD | 0,75 | -0,01 | 0,97 | -0,06 | 1 | 30.12.2019 | FGF | 1,45 | 0,98 | -0,03 | 0,55 | 0 | 30.12.2019 | AEB | 0,25 | 1,22 | 0,17 | -0,44 | ? |
回答: