我目前正在研究工作中的一项任务,并考虑了一些特定的想法和新方法来解决它,因此我非常希望能从该领域的专家那里获得帮助:-)。
我目前正在分析一组复杂的历史数据集,这些数据反映了建造海上平台的成本与当前油田发现的资源之间的关系(或者可以使用年度生产的平均值)。每个数据点都有一组参数,如地理来源、主要碳氢化合物的类型、水深、到最近基础设施的距离、平台类型等(总共10个参数)。我的想法是构建一条趋势线,用于预测未来油田的成本,假设这些油田的生产/资源总是被报告的。
总体趋势是,如果资源/生产增加,成本也会增加。因此,在模型中可以很容易地观察到某种线性关系,然而,鉴于数据集中提供了很多不同的信息,简单的线性回归在这个案例中过于简单。
我在应用数学领域获得了硕士学位,专攻数值方法和偏微分方程,但我现在面临的是一个相当常见的统计行业相关问题。我还认为,这项任务是应用机器学习算法解决的完美候选,因为将不断添加更多的数据点,并且曲线/趋势线可以用来进一步预测未来油田的成本,了解它们的生产/资源和性质(参数)。然而,我对这个领域完全是新手,所以您的任何评论、信息等都将非常受欢迎:-)
提前感谢
回答:
在我看来,这个问题非常宽泛且不够具体,因此您可能会得到宽泛且不具体的回答。
我认为您有一个很好的机器学习实施案例。做得好。
我建议您获取一些非常实用和务实的“如何做”资源。我非常喜欢这个机器学习课程,它可以指导您从哪里开始以及如何通过实践方法继续进行,例如将数据划分为学习、测试和交叉验证集,标准化,正则化,派生特征等。
一般来说 – 您已经发现您的问题看起来像是具有多个特征的监督式机器学习。线性回归可能无法完全适用(正如您指出的),您可以尝试构建更复杂但不过于复杂的模型。我会从带有正则化参数的多项式模型开始,并看看一些派生特征是否会更合适。
但只有您能看到您的数据是什么样的,以及什么可能是起始模型:)祝好运