我正在尝试编写一个算法来估计我已知系统的物体质量。
我的数据形式为x和y点,因此我可以将这些点表示为多个x和y点,或者通过表示x和y点的平均值和偏差来表示为分布。这可能取决于算法的参数。
我不需要分类器,我正在寻找一个数值估计。
例如,x值:{1,2,3,…},y值:{1,2,3,…} -> 质量:5,或者x值:{2(均值),1(标准差)} y:{2,1} -> 5
我对机器学习相当新手,分类器似乎不是解决这个问题的途径,而我查过的回归学习算法似乎是试图估计参数,而不是结果。
我还计划在Python中进行,但我不需要某个包或类似的东西,一个通用的算法应该能让我走上正确的轨道。
针对blubb的编辑回应
我的数据以一组x点、一组y点和一个质量值的形式给出。例如,
x值 | y值 | 质量--------------------------------1 2 3 4 | 1 2 3 4 | 6.72 3 4 5 | 2 3 4 5 | 7.9
我会收到一个输入,例如:
x值 | y值-----------------------5 6 7 | 8 9 10
另一种表示方式(在向量空间方面可能更聪明)是通过它们的均值和标准差来表示值,因此我的训练数据将变为:
x均值 | x标准差 | y均值 | y标准差 | 质量--------------------------------------2.5 | 1 | 2.5 | 1 | 6.73.5 | 1 | 3.5 | 1 | 7.9
这些显然不是真实值,而是代表性示例。(所有值都是浮点数)
回答:
你正在寻找估计一个函数f: R² -> R
,因此你应该研究回归方法的家族。然而,具体使用哪种回归方法在很大程度上取决于(x, y)
与质量
之间的关系。
一般来说,回归方法定义了一个成本函数c: R² x F -> R+
和一个函数集F
供选择。通常,函数集F
是无限的,并且以某种形式参数化。这使得大多数回归方法面临估计决定最优f
的参数的问题(你称之为“估计参数”)。
为了确定哪种回归方法最合适,你需要找出以下几点:
- 什么是合理的成本函数
c
? - 如何选择函数集
F
?
例如,线性回归选择线性最小二乘成本函数,并将F
定义为所有线性函数f: R² x R
的集合。这可能符合或不符合你的需求,具体取决于你的设置。
因此,解释可以确定三元组(x, y, 质量)
的实验设置可能会有助于阐明这一点。