MIT Deep Traffic Challenge中的奖励函数？

在对架构有了大致了解后，我开始好奇环境提供的奖励函数到底是什么。

我还找到了这个javascript的代码库，但这并没有真正帮助我理解。

回答：

奖励是在区间[-3, 3]内的平均速度的缩放值。

我正在尝试使其更易读。这里是正在进行中的版本：https://github.com/mljack/deeptraffic/blob/master/gameopt.js

    var reward = (avgSpeedMeasurement - 60) / 20;

学技术