在阅读论文“基于触觉的主动对象识别和未知工作空间中的目标对象搜索”时,我有一些无法理解的地方:
这篇论文是关于仅使用触觉信息来寻找对象的位置和其他属性的。在第4.1.2节中,作者提到他使用GPR来指导探索过程,而在第4.1.4节中,他描述了如何训练他的GPR:
- 使用第4.1.2节的例子,输入是(x,z),输出是y。
- 每当有接触时,对应的y值会被存储。
- 这个过程会重复几次。
- 训练后的GPR被用来估计下一个探索点,即方差最大的点。
您也可以在以下链接看到演示:https://www.youtube.com/watch?v=ZiLq3i-BJcA&t=177s。在视频的前部分(0:24-0:29),机器人进行了第一次初始化,采样了4次。接下来的25秒,机器人从相应的方向开始探索。我不明白这种GPR的小规模初始化是如何指导探索过程的。能否有人解释一下从第一次探索部分的输入点(x,z)是如何估计的?
回答:
任何回归算法都会以某种特定于该算法的方式将输入(x,z)
映射到输出y
。对于一个新的输入(x0,z0)
,如果训练数据中包含了许多与此相似的数据点,那么算法可能会预测一个非常接近真实输出y0
的值。如果只有在完全不同的区域才有可用的训练数据,那么预测结果可能会非常差。
GPR包含了对预测的置信度测量,即方差。在没有见过训练数据的区域,方差自然会非常高,而在靠近已经见过的数据点的地方,方差会很低。如果“实验”所需的时间远长于评估高斯过程的时间,您可以使用高斯过程拟合来确保您在对答案非常不确定的区域进行采样。
如果目标是完全探索整个输入空间,您可以生成许多随机的(x,z)
值,并在这些值上评估方差。然后,您可以在对y
最不确定的输入点上进行昂贵的实验。之后,您可以用到目前为止探索的所有数据重新训练GPR,并重复这个过程。
对于优化问题(不是原问题的提问)
如果您希望在整个输入空间中找到y
的最低值,您不希望在已知会产生高y
值的区域进行实验,但您只是不确定这些值会高到什么程度。因此,与其选择方差最高的(x,z)
点,您可能选择预测的y
值加上一个标准差。这种方式最小化值被称为贝叶斯优化,而这种特定方案被称为上置信界(UCB)。期望改进(EI)——改进先前最佳得分的概率——也常被使用。