我开始为一家食品公司撰写硕士论文。他们从几种原料开始,混合它们,加热它们,等等,直到最终得到糖果。但有一个问题。在生产同一种糖果时,PLC控制的机器并不总是运行顺畅,且结果也不一致。他们认为问题出在作为原料的水果上,因为水果的特性并不总是100%相同(如粘度等)。他们在生产前测量了原料的特征。他们还测量了所有过程参数(压力、温度、布里克斯值等)。这些数据都被存储。现在我的论文是要利用机器学习模型来分析这些数据以获取更多信息。现在我遇到了几个问题。第一个问题是我实际上没有分类。没有所谓的“好糖果”和“坏糖果”。第二个问题是我实际上没有输出参数。我只有布里克斯值。最后一个问题是:原料是我的模型的输入特征,但过程特征,这些也是输入吗?还是我应该忽略它们?
非常感谢您的帮助!
回答:
第一个问题是我实际上没有分类。没有所谓的“好糖果”和“坏糖果”。
公司如何决定什么是足够的或不足的?你需要确定他们用来标记糖果为“坏”或“好”的标准。如果你没有任何标签,你可能需要寻找无监督学习技术,如聚类分析或因子分析。
第二个问题是我实际上没有输出参数。我只有布里克斯值。
根据你的任务,你需要考虑你的目标值是什么。对于分类来说,它将是糖果的标签。因此,是“坏”或“好”糖果。对于回归问题,你需要一个连续的值(例如,如果布里克斯值对你的目标相关)。对于无监督学习,你不需要输出变量。
最后一个问题是:原料是我的模型的输入特征,但过程特征,这些也是输入吗?还是我应该忽略它们?
你需要查看你所有的变量,并决定哪些包含了关于糖果是“好”还是“坏”的有价值信息。这是你需要收集的特定领域知识。你可以询问公司的人员。他们应该能够告诉你什么是重要的或不重要的。你还可以查看所有参数的统计数据。应识别出与糖果质量相关的参数。不显示很多变化的参数(例如,温度总是恒定)可以忽略。